Il formato dei file è uno dei nodi principali nell’area della gestione dei contenuti digitali e della conservazione digitale. Poiché sono disponibili più tipi diversi di formati dei file per testi, immagini, grafici, audio, video, database e applicazioni web, la selezione del formato appropriato rappresenta una sfida per qualsiasi organizzazione.

I formati file più diffusi

Alcuni formati dei file sono più diffusi: Portable Document Format (PDF), PDF/A, Office Open XML (OOXML) e Open Document Format (ODF). Alcune organizzazioni, tra cui la statunitense Library of Congress (LC), dispongono di linee guida sulle applicazioni dei formati di file per le strategie di conservazione a lungo termine, che definiscono le caratteristiche necessarie dei formati accettabili (ad esempio, sono indipendenti da sistemi operativi specifici e da funzioni HW e SW, sono conformi agli standard internazionali, ecc.).

Nonostante ciò, la selezione dei formati di file rimane un compito complesso e suscita domande dal generale (“quali criteri di selezione sono appropriati?”) allo specifico (“i formati di file standard internazionali sono sufficienti per garantire la conservazione e l’accesso a lungo termine?” o “come dovremmo definire e implementare i formati di file standard in armonia con il nostro contesto locale?”).

Come viene definito il formato dei file

Il termine formato dei file viene generalmente definito come le informazioni che “specificano l’organizzazione delle informazioni a un certo livello di astrazione, e sono contenute in uno o più flussi di byte che vengono scambiati tra sistemi”.

Secondo InterPARES, il formato dei file è “l’organizzazione dei dati all’interno dei file, solitamente progettata per facilitare l’archiviazione, il recupero, l’elaborazione, la presentazione e/o la trasmissione dei dati da parte del software”.

La differenza tra formato di accesso e formato di conservazione

In generale, il formato dei file è suddiviso in due tipi: formato di accesso e formato di conservazione. Il primo serve a visualizzare un documento o gestirlo, e deve essere sempre accessibile e disponibile per gli utenti, mentre il secondo serve a conservare un documento in un archivio elettronico per un lungo periodo, e ha la capacità di catturare il materiale nell’archivio ed erogare le informazioni ora e in futuro.

PDF, OOXML e ODF sono formati dei file sia per l’accesso che per la conservazione, anche se il primo è molto più orientato alla conservazione e gli altri due molto più orientati all’accesso. Questi formati sono stati sviluppati dagli anni Novanta in avanti, a seguito dell’evoluzione verso il digitale che è seguita alla diffusione dei personal computer, e alla conseguente trasformazione dei contenuti utente da analogici (carta) a digitali (bit).

Il PDF e l’evoluzione dei contenuti da analogici a digitali

Il primo a comprendere questa evoluzione è stato John Warnock di Adobe, che ha sfruttato il linguaggio di descrizione della pagina PostScript per sviluppare il PDF, e “distillare i contenuti” di un documento perché potessero essere visualizzati in modo indipendente dall’hardware. PDF è nato come standard proprietario Adobe, ma ha sempre fornito le istruzioni per consentire agli altri sviluppatori di integrare la funzionalità di visualizzazione nei propri software.

Il PDF, però, non risolveva il problema della redazione dei contenuti condivisi, e ancora oggi – nonostante le numerose evoluzioni – non consente una modifica dei contenuti tale da poter essere considerata soddisfacente per la condivisione tra gli utenti e la modifica senza perdita di informazioni.

L’arrivo del formato HTML

Con l’arrivo e l’evoluzione di internet, è arrivato il primo formato standard aperto per i documenti, anche se solo online: quello HTML creato da Tim Berners Lee al CERN, e poi strenuamente difeso come standard aperto dai tentativi di ingerenza di Microsoft, con l’interpretazione proprietaria di Internet Explorer.

Ed è proprio grazie alla dimostrazione di interoperabilità offerta da HTML che sono stati sviluppati – sulla base di XML – il formato standard aperto ODF (Open Document Format) sulla base del formato dei file di OpenOffice e poi LibreOffice e il formato non standard “proprietario aperto” (un ossimoro) OOXML sulla base del formato dei file di MS Office.

Cos’è un formato standard aperto

A questo punto, cerchiamo di chiarire cos’è un formato standard aperto: un formato che può essere acquisito e utilizzato senza alcuna barriera o costo, perché libero da restrizioni, come i brevetti, e indipendente da HW o SW proprietari. Non farebbe parte della descrizione, ma è opportuno sottolineare l’importanza del fatto che lo standard corrisponda alla sua documentazione, cosa che per esempio vale solo parzialmente per il formato OOXML.

Secondo il glossario delle “Linee Guida su Acquisizione e Riuso di Software per le Pubbliche Amministrazioni” pubblicate da AgID il 9 maggio del 2019, un Formato Aperto (di dato) “è un formato di dato pubblico, versionato, documentato esaustivamente e senza vincoli all’implementazione, riconosciuto da un ente di standardizzazione e mantenuto in modo condiviso tra più enti che forniscono delle implementazioni concorrenti con un processo trasparente, e consistente con la versione dichiarata”.

Mentre ODF rispetta tutte le condizioni, in quanto sviluppato da OASIS – un consorzio indipendente di cui fanno parte individui, aziende e organizzazioni di ogni tipo – con un processo aperto e trasparente, che porta a una revisione periodica del formato e a nuove versioni che corrispondono sempre alla versione dichiarata nei file, lo stesso non vale per OOXML, che viene sviluppato in gran segreto da ECMA, un’associazione in cui molti membri intrattengono relazioni di tipo commerciale con Microsoft, non dichiara la versione in modo comprensibile (o addirittura non la dichiara), e non è dato sapere a quale versione della documentazione corrisponde.

A questo bisogna aggiungere che la quasi totalità dei file DOCX, XLSX e PPTX creati dagli utenti utilizza la versione non standard OOXML Transitional, che non è mai stata approvata come standard e doveva fare da “ponte” fino al 2010 con il formato standard OOXML Strict. Quindi, il problema del formato standard non si pone nemmeno, perché di standard non si tratta in alcun modo.

Conclusioni

Ovviamente, chi utilizza il formato dei documenti MS Office parla di “standard di mercato”, ignorando il fatto che si tratta di un formato studiato a tavolino per fare da lucchetto alla quota di mercato del software, che ancora oggi vale – a livello mondiale – tra i 15 e i 20 miliardi di dollari.

E se a livello aziendale la scelta di un software che obbliga a perpetuare sé stesso è del tutto lecita, a livello di sistema Paese la situazione è completamente diversa e dovrebbe lasciare libertà di scelta ai cittadini in termini di applicazioni per la produttività, che non può che avvenire attraverso l’adozione di un formato standard e aperto come ODF (adottato anche da MS Office).

