giovedì 9 luglio 2020

Che cosa significa "dati FAIR"?

Una sottocategoria di open data entrati al centro del dibattito negli ultimi anni sono gli open data relativi alla ricerca scientifica, chiamati più comunemente “open science data” o anche “open research data”.
I teorici che si sono occupati di questo tema e del più ampio tema della “open science” (principalmente si veda l’articolo “The FAIR Guiding Principles for scientific data management and stewardship” di Wilkinson, Dumontier e Mons uscito su Nature / Scientific Data nel 2016) hanno individuato una serie di best practice per una virtuosa e innovativa condivisione dei dati della ricerca, che possono essere riassunte nell’acronimo FAIR, che sta per Findable, Accessible, Interoparable, Reusable.

Condivido qui di seguito una mia traduzione italiana del documento "FAIR Principles" disponibile alla pagina web https://www.go-fair.org/fair-principles/.
Il documento come anche la mia traduzione sono disponibili nei termini della licenza Creative Commons Attribution 4.0 International.
Per approfondimenti in lingua italiana potete leggere la pagina divulgativa sul concetto di dati FAIR curata da Elena Giglia per il sito dell’Unità di Progetto Open Access dell’Università di Torino: https://www.oa.unito.it/new/cose-utile/dati-fair/.

"Conceptual diagram of the FAIR roadmap for dark data: each curve represents a step toward increasing the value and potential of dark data for science." Image authors: Kelly Easterday, Tim Paulson, Proxima DasMohapatra, Maggi Kelly. Image source: https://www.researchgate.net/figure/Conceptual-diagram-of-the-FAIR-roadmap-for-dark-data-each-curve-represents-a-step_fig1_328004345. Image license: Creative Commons Attribution 4.0 International.

____________________________

Nel 2016 su Scientific Data è stato pubblicato “The FAIR Guiding Principles for scientific data management and stewardship”. Gli autori intendevano fornire delle linee guida per migliorare la reperibilità, l'accessibilità, l'interoperabilità e il riutilizzo delle risorse digitali. I principi hanno enfatizzato la "machine-actionability" (ovvero la capacità dei sistemi computazionali di trovare, accedere, interoperare con e riutilizzare i dati, senza intervento umano o con un intervento umano minimo) perché gli esseri umani fanno sempre più affidamento sul supporto computazionale per gestire i dati a causa dell'aumento del volume, della complessità e della velocità nella creazione dei dati.
Una guida pratica su "come fare" per rendere FAIR i dati è disponibile qui.

FINDABLE > REPERIBILI
Il primo passo per (ri)utilizzare i dati è trovarli. I metadati e i dati dovrebbero essere facili da trovare sia per l'uomo che per il computer. I metadati leggibili meccanicamente sono essenziali per il rilevamento automatico di set di dati e servizi, quindi questo è un componente essenziale del processo di "FAIRification".

   F1. Ai (meta)dati viene assegnato un identificatore univoco e persistente a livello globale

   F2. I dati sono descritti con metadati completi (definiti di seguito nel punto R1)

   F3. I metadati includono in modo chiaro ed esplicito l'identificatore dei dati che descrivono

   F4. I (meta)dati sono registrati o indicizzati in una risorsa ricercabile.

ACCESSIBLE > ACCESSIBILI
Una volta che l'utente trova i dati richiesti, deve sapere come è possibile accedervi, possibilmente includendo autenticazione e autorizzazione.

   A1. I (meta)dati sono recuperabili dal loro identificatore usando un protocollo di comunicazione standardizzato.

       A1.1. Il protocollo è aperto, gratuito e universalmente implementabile.

       A1.2. Il protocollo consente una procedura di autenticazione e autorizzazione, ove necessario.

   A2. I metadati sono accessibili, anche quando i dati non sono più disponibili.

INTEROPERABLE > INTEROPERABILI
I dati di solito devono essere integrati con altri dati. Inoltre, i dati devono interagire con applicazioni o flussi di lavoro per analisi, archiviazione ed elaborazione.

   I1. I (meta)dati utilizzano un linguaggio formale, accessibile, condiviso e ampiamente applicabile per la rappresentazione della conoscenza.

   I2. I (meta)dati utilizzano vocabolari che seguono i principi FAIR

   I3. I (meta)dati includono riferimenti qualificati ad altri (meta) dati

REUSABLE > RIUTILIZZABILI
L'obiettivo finale di FAIR è ottimizzare il riutilizzo dei dati. A tale scopo, i metadati e i dati devono essere ben descritti in modo da poter essere replicati e/o combinati in diverse impostazioni.

   R1. I (meta)dati sono ampiamente descritti con una pluralità di attributi accurati e pertinenti

      R1.1. I (meta)dati vengono rilasciati con una licenza di utilizzo dei dati chiara e accessibile

      R1.2. I (meta)dati sono associati a una una provenienza dettagliata

      R1.3. I (meta)dati soddisfano gli standard della comunità rilevanti per lo specifico dominio

I principi si riferiscono a tre tipi di entità: dati (o qualsiasi oggetto digitale), metadati (informazioni su quell'oggetto digitale) e infrastruttura. Ad esempio, il principio F4 definisce che sia i metadati che i dati sono registrati o indicizzati in una risorsa ricercabile (il componente dell'infrastruttura).