Recommandations relatives aux formats de fichier pour la préservation numérique – Stratégie de numérisation du patrimoine documentaire
Ern Bieman, Réseau canadien d'information sur le patrimoine
William Vinh-Doyle, Archives provinciales du Nouveau-Brunswick
Sur cette page
- Résumé
- Portée
- Introduction
- Critères d'évaluation
- Formats de fichier recommandés
- Remerciements
- Annexe A : Glossaire des termes techniques
- Sites Web consultés
- Bibliographie
- Note en fin de texte
Liste des abréviations
- AVI
- Audio Video Interleave
- BAC
- Bibliothèque et Archives Canada
- BWAV
- Broadcast Wave Format
- CANPT
- Conférence des archivistes national, provinciaux et territoriaux
- CEI
- Commission électrotechnique internationale
- DPX
- Digital Picture Exchange
- DV-NTSC
- digital video – National Television Standards Committee
- LC
- Bibliothèque du Congrès (Library of Congress)
- LPCM
- modulation linéaire par impulsions et codage
- Mo/s
- mégaoctet par seconde
- MPT
- mesure de protection technologique
- MRC
- contenu de trame mixte
- MXF
- Material Exchange Format
- NAA
- Archives nationales d'Australie (National Archives of Australia)
- NARA
- National Archives and Records Administration
- PCM
- modulation par impulsions et codage
- PDF/A
- Portable Document Format/Archive
- RIFF
- Resource Interchange File Format
- ROC
- reconnaissance optique de caractères
- RVB
- rouge-vert-bleu
- SMPTE
- Society of Motion Picture and Television Engineers
- SNPD
- Stratégie de numérisation du patrimoine documentaire
- UIT
- Union internationale des télécommunications
- XMP
- Extensible Metadata Platform
Résumé
Le présent document a été produit par le Réseau canadien d'information sur le patrimoine (RCIP), en collaboration avec les membres du Groupe de discussion sur la numérisation et la préservation numérique. Le document a été présenté au comité directeur de la Stratégie de numérisation du patrimoine documentaire (SNPD), qui l'avait inscrit parmi les activités à réaliser dans son plan d'activités de 2018-2019. Le document vise à aider les établissements canadiens du patrimoine culturel (bibliothèques, archives et musées) à choisir les formats de fichier appropriés pour la préservation à long terme de leur contenu numérisé.
Portée
Le présent document contient des recommandations sur les formats de fichier à utiliser pour la préservation du contenu numérisé. On n'y examine que des formats ayant déjà été recommandés par des sources faisant autorité (notamment Bibliothèque et Archives Canada [BAC], la Bibliothèque du Congrès [Library of Congress (LC)], la National Archives and Records Administration [NARA] et l'Université Harvard). Puisque de multiples organismes ont déjà procédé à une évaluation rigoureuse de ces formats aux fins de la préservation numérique, nous ne reproduirons pas ce processus ici. Le présent document vise plutôt à résumer les critères d'évaluation couramment pris en compte; on y limite donc l'évaluation de chaque format de fichier à une brève discussion de ses forces et de ses faiblesses, en fonction de ces critères.
Conformément à la portée de la SNPD, le présent document se limite aux formats servant à préserver du contenu numérisé. Il ne tient pas compte des supports produits au départ en format numérique. Par ailleurs, le document ne traite pas d'autres questions liées à la préservation numérique, comme les pratiques exemplaires ou les méthodes de travail, ni de quelque composant que ce soit du processus de numérisation.
Pour obtenir de plus amples renseignements sur les lignes directrices et les pratiques exemplaires en matière de numérisation de documents, consulter les ressources en ligne suivantes :
- Normes de numérisation de la SMCC : balayage numérique et photographie d'artefact
- Recueil de règles de numérisation
Pour en savoir davantage sur les lignes directrices et les pratiques exemplaires relatives à la numérisation de documents audio, vidéo et cinématographiques, consulter la ressource en ligne suivante :
- Recommandations concernant les fichiers de préservation à utiliser pour la numérisation des enregistrements analogiques audio et vidéo et des films cinématographiques (format PDF); recommandations produites par le Groupe de travail sur la préservation de l'audiovisuel de la Conférence des archivistes national, provinciaux et territoriaux (CANPT), en collaboration avec le comité directeur de la SNPD (ci-après appelées les « recommandations de la CANPT »).
Introduction
Les formats de fichier de préservation diffèrent des formats d'accès, des formats de publication Web et, dans certains cas, des formats de numérisation privilégiés. Les critères qui permettent de déterminer qu'un format est idéal pour la préservation ont été établis par plusieurs organismes; certains de ces organismes ont même mis sur pied un processus rigoureux d'évaluation et de sélection des formats, et nombre d'entre eux ont formulé leurs propres recommandations à ce chapitre (consulter la section Critères d'évaluation pour voir des exemples).
Le présent document est divisé en deux sections principales :
- un sommaire des critères d'évaluation;
- une discussion sur les formats recommandés pour chaque type de contenu numérisé.
Critères d'évaluation
Il existe plusieurs documents qui énoncent des critères pour la sélection des formats de fichier aux fins de la préservation numérique. En voici quelques exemples :
- Le Digital Preservation Handbook (en anglais seulement) de la Digital Preservation Coalition établit des comparaisons entre les formats de fichier en code source libre et les formats propriétaires, de même qu'entre les formats sans perte et les formats avec perte. Dans ce manuel, on tient également compte de la disponibilité des spécifications des formats de fichier, du taux d'adoption de ces formats, de la prise en charge des métadonnées et de la capacité des formats de fichier à préserver les propriétés du contenu qui sont jugées les plus importantes.
- La LC décrit les facteurs de viabilité (en anglais seulement) des formats de fichier de préservation numérique, à savoir la divulgation, l'adoption, la transparence, l'autodocumentation, les dépendances externes, les conséquences des brevets et les mesures de protection technologiques (MPT).
- La Bibliothèque nationale des Pays-Bas utilise des critères afin d'évaluer les formats de fichier pour la préservation à long terme (format PDF) (en anglais seulement), notamment l'ouverture, l'adoption, la complexité, les MPT, l'autodocumentation, la robustesse et les dépendances externes.
- Le document archivé intitulé Local Digital Format Registry File – Format Guidelines for Preservation and Long-term Access (format PDF) (en anglais seulement) de BAC définit des critères qui comprennent l'ouverture ou la transparence, l'adoption comme norme de préservation, la stabilité et la compatibilité, ainsi que la normalisation.
Certains critères sont appliqués par l'ensemble de ces établissements, tandis que d'autres font l'objet de débats. Les deux critères fondamentaux suivants sont communs à tous les établissements susmentionnés.
- Le format sélectionné doit être largement répandu et utilisé. On tient parfois compte du critère relatif à l'adoption en examinant l'utilisation du format par les institutions de mémoire pour la préservation numérique; cela dit, il est plus important que le format soit largement adopté par la communauté dans son ensemble. Cela permet ainsi de s'assurer qu'il y a – et qu'il y aura toujours – du soutien pour ce format, que des logiciels et des outils seront développés pour que l'on puisse utiliser ce format et travailler avec lui, et que le format continuera d'être utilisé à long terme.
- Le format doit être bien documenté et pouvoir être inspecté. À cet égard, de multiples critères connexes sont souvent cités; chacun a une signification légèrement différente des autres, mais tous renvoient à cet objectif général. L'ouverture, la transparence et la divulgation du format sont autant d'exemples d'aspects qui peuvent être évalués en fonction de la mesure dans laquelle la documentation portant sur le format est librement accessible; le contenu détaillé d'un fichier est facile à inspecter; les outils logiciels d'inspection et de modification sont facilement accessibles.
À ces deux critères généraux s'ajoutent d'autres critères qui sont repris dans de nombreux modèles de critères de sélection :
- Le format doit dépendre d'un nombre minimal d'éléments externes. Par exemple, les formats qui s'appuient sur du matériel propriétaire, comme divers formats de bandes audionumériques des années 1970 et 1980, ou qui sont exclusivement accessibles sur un seul système d'exploitation ou au moyen d'un logiciel particulier dépendent tous de la disponibilité continue de cet élément externe. Cela est vrai aussi pour les fichiers texte qui s'appuient sur des définitions de polices externes, ainsi que pour les fichiers audio et vidéo qui dépendent de codecs externes.
- Le format doit (idéalement) permettre l'inclusion de métadonnées internes. Autrement dit, il doit permettre d'intégrer de la documentation sur le contenu dans le même fichier que celui où est stocké le contenu même, de sorte que les deux ne sont jamais séparés.
Il ne doit pas y avoir d'obstacle juridique à l'utilisation du format aux fins de la préservation numérique. Les modèles de critères de sélection relèvent souvent ce risque en prévoyant les conséquences que pourrait avoir un brevet lié à l'encodage d'un contenu dans un format donné ou en indiquant s'il s'agit d'un format ayant un code source ouvert ou encore d'un format propriétaire. Cependant, il convient de noter que certains formats propriétaires sont devenus de fait des normes dont l'utilisation généralisée est encouragée par les créateurs des formats.
Au Canada, un obstacle juridique peut également se présenter sous la forme d'une MPT, nommément, toute technologie conçue pour empêcher la copie du contenu. La Loi sur la modernisation du droit d'auteur (format PDF) de 2012 empêche quiconque au Canada (y compris les institutions de mémoire) de contourner les MPT afin de faire des copies du contenu pour quelque usage que ce soit.
- Les versions d'un format doivent être compatibles en amont et en aval avec l'environnement dans lequel elles s'intègrent, de sorte que le contenu reste accessible, quelle que soit la version utilisée. C'est ce qu'on appelle parfois la compatibilité, et ce facteur est aussi parfois inclus dans la définition de la robustesse d'un format.
Les critères de sélection suivants peuvent renforcer davantage la candidature d'un format aux fins de la préservation; il est toutefois controversé de les considérer comme des exigences obligatoires :
- Il est possible d'exiger que les fichiers soient sans perte au moment de l'édition ou de la compression. Il s'agit incontestablement d'une qualité souhaitable pour tout format de préservation; toutefois, dans certains cas, une compression presque sans perte peut être acceptable. Il se peut aussi qu'un format de sortie de numérisation entraîne des pertes, mais qu'il demeure, si l'on tient compte des autres critères, un meilleur candidat que les autres formats produits à l'aide du même matériel.
- Il est possible d'exiger que les fichiers soient robustes et, ainsi, que leur format soit plus susceptible de rester accessible malgré des échecs (minimes) en lecture ou en écriture. Bien que cela soit utile pour la récupération des données, il n'est généralement pas nécessaire de tenter une telle récupération si l'on emploie de saines pratiques (comme la conservation de multiples copies et la vérification de la fixité).
- Il est possible d'exiger que les fichiers soient d'une complexité minimale : ce critère met l'accent sur la capacité de déchiffrer et de lire manuellement le contenu des fichiers, ce qui pourrait signifier que les formats lisibles sans aide sont préférables. Toutefois, la question de l'accès au contenu du fichier aura déjà été réglée (à savoir que les formats doivent être bien documentés et se prêter une inspection) si le format est clairement documenté et que le fichier est migré vers des formats plus récents, pourvu que les outils logiciels nécessaires demeurent accessibles.
- Il est possible d'exiger qu'un fichier soit soumis à un processus de normalisation rigoureux, idéalement mené par un organisme de normalisation faisant autorité et largement reconnu. Clairement, le respect de ce critère améliorerait la candidature d'un format pour la préservation. Il ne convient pas, toutefois, de le considérer comme une exigence, car il néglige la valeur des formats propriétaires ouverts et transparents mentionnés précédemment, qui sont devenus de fait des normes.
Formats de fichier recommandés
Fichier texte – polices de caractères normalisées
Les formats de fichier texte suivants sont recommandés pour la préservation à long terme.
PDF/A (les deux versions 1 et 2)
Description : Les fichiers en format PDF (format de document portable) permettent d'inclure du texte, des graphiques, des renseignements relatifs à la mise en forme ainsi que d'autres fonctions pour contrôler la mise en page et l'apparence d'un document. Le format PDF/A (format de document portable/archives) a été conçu spécialement pour que l'on puisse procéder à l'archivage en préservant « l'apparence visuelle d'un document au fil du temps, quel que soit l'outil ou le système utilisé pour créer, stocker ou traiter les fichiers » [traduction libre] (ISO, 2005). Le format PDF/A interdit ainsi les fonctions qui ne conviennent pas à l'archivage à long terme, comme le recours à des définitions de polices externes, l'utilisation du chiffrement, le lancement d'un code exécutable à partir du document ainsi que d'autres éléments semblables. Certains numériseurs peuvent numériser un document directement en format PDF/A; de même, la reconnaissance optique de caractères (ROC) convertit généralement les éléments de texte d'un objet numérisé en texte lisible par une machine dans le document PDF qui en découle.
Facteurs à prendre en compte : Parmi les institutions de mémoire examinées, il s'agit du format de préservation le plus largement répandu pour le texte formaté. Contrôlés à l'origine par Adobe en tant que formats propriétaires, les formats PDF ont été mis à la disposition du public sous licence libre de droits en 2008 et sont publiés aujourd'hui à titre de normes ouvertes. Le format PDF/A est publié selon la norme ISO 19005. Il existe plusieurs versions du format PDF/A standard; les versions 1 et 2 sont toutes deux largement répandues. La version 3 (PFD/A-3) permet d'intégrer des formats de fichier en tous genres, lesquels peuvent ne pas se prêter à l'archivage. Il convient également de noter que certaines métadonnées intégrées dans un fichier PDF/A peuvent exiger une correction manuelle (selon le processus de numérisation). Dans un tel cas, il peut être nécessaire d'apporter des modifications au document en format PDF d'abord avant de créer la version PDF/A de ce document.
En plus du format PDF/A, de multiples formats d'image sont également recommandés dans les cas où le texte d'un document numérisé ne peut être converti par ROC en texte interrogeable par machine, ou lorsque qu'il est important d'avoir une image détaillée (voire sans perte) du document. Ces formats, qui sont décrits plus en détail dans la section Image fixe, sont les suivants :
- TIFF
- JPEG 2000
- PNG
Image fixe
Les formats de fichier d'image fixe ci-après sont recommandés pour la préservation à long terme.
TIFF
Description : Le format TIFF (Tagged Image File Format), aussi appelé « TIF » et ayant TIFF et TIF comme extensions de nom de fichier, est une norme de fait largement adoptée dans l'industrie de l'impression et de l'imagerie pour les images en couleurs, en niveaux de gris et monochromes. Bien que le format TIFF puisse servir pour des données d'image sous d'autres formes, les fichiers TIFF sont le plus souvent reconnus comme des fichiers qui contiennent des images constituées de tables de bits (trames) compressées sans perte. Les balises d'en-tête aident à déterminer, entre autres choses, la taille et la définition de l'image ainsi que la structure et le mode de compression des données d'image. La version la plus récente du format est TIFF 6.0, lancée en 1992.
Facteurs à prendre en compte : Il s'agit d'un format bien établi et reconnu depuis plus de deux décennies. L'ubiquité, la compression sans perte et la stabilité de l'image (lors de sa modification) caractéristiques du format TIFF ont rendu ce dernier populaire tant pour le matériel et les logiciels d'imagerie que pour les logiciels de traitement et de rendu d'images ainsi que d'archivage. Par conséquent, le format devrait continuer à être largement pris en charge pendant longtemps.
Le format TIFF est la propriété intellectuelle de l'entreprise Adobe Systems. Cependant, le droit de propriété intellectuelle n'a jamais été exploité, et la spécification TIFF 6.0 (format PDF) (en anglais seulement) complète est offerte gratuitement sur le site Web de l'Union internationale des télécommunications (UIT).
Adobe propose un processus (utilisant la plateforme de métadonnées extensibles [XMP]) pour intégrer les métadonnées de préservation dans l'en-tête d'une image. Toutefois, ces champs ne sont pas natifs de ce format.
Le format TIFF ne dépend d'aucun facteur externe et ne s'accompagne d'aucune préoccupation quant aux MPT.
JPEG 2000
Description : Le format JPEG (Joint Photographic Experts Group) 2000 est un système de compression et de codage d'images mis au point par le Groupe mixte d'experts en photographie en 2000 pour remplacer l'ancien format JPEG. Entre autres améliorations par rapport au format JPEG traditionnel, ce format permet la transparence, la compression sans perte (en option) et des niveaux de définition variables dans une même image. De plus, ce format est généralement plus robuste en cas de détérioration ou de perte partielle de l'information contenue dans le fichier. Les fichiers JPEG 2000 tendent à être moins volumineux que les fichiers JPEG, et contrairement à ces derniers, ils permettent d'intégrer des métadonnées dans l'en-tête en utilisant la XMP. On peut reconnaître les fichiers dans ce format par leurs extensions « .jp2 » et « .jpx ».
Facteurs à prendre en compte : Bien qu'il ait été adopté par de grandes institutions de mémoire, on ne sait pas exactement dans quelle mesure le format JPEG 2000 sera pris en charge à long terme. En 2018, le matériel d'imagerie et les logiciels de visualisation et d'édition d'images prenaient en charge ce format; néanmoins, sa prise en charge est moins répandue que celle d'autres formats populairesNote de bas de page 1. Aucun appareil photo connu n'exporte des images en format JPEG 2000. De même, le format JPEG 2000 n'est pas rétrocompatible avec le format JPEG, et bien qu'une licence gratuite ait été offerte aux programmeurs pour stimuler son développement, les nombreux brevets qui s'y rattachent demeurent une source d'inquiétude. Tous les composants de la spécification JPEG 2000 sont énumérés sur le site Web JPEG (en anglais seulement). Certains de ces documents peuvent être achetés en tant que normes ISO/IEC. D'autres documents du même genre sont offerts gratuitement sur le site Web de l'UIT.
Si l'on utilise le format JPEG 2000 comme format de préservation, il faut s'assurer que le fichier est compressé sans perte (ce format de fichier permet la compression sans perte et avec perte) ou que le degré de compression avec perte est acceptable. Il convient de noter qu'il est possible de paramétrer le degré de compression avec perte de ce format.
PNG
Description : Le format PNG (Portable Network Graphics) est un format d'image sans brevet reconnu par l'ISO/IEC et lancé en 2004 pour remplacer le format d'échange graphique (GIF), qui a été protégé par un brevet jusqu'en 2005. Ce format d'image tramée, qui a été conçu pour la publication Web, prend en charge jusqu'à 48 bits par pixel d'information couleur (en format rouge-vert-bleu [RVB]) ainsi que 16 bits supplémentaires, qui peuvent être utilisés pour rendre la transparence. La compression sans perte et le rendu entrelacé sont pris en charge. Contrairement au format GIF, le format PNG ne se prête pas véritablement aux animations. Les fichiers PNG sont reconnaissables par l'extension « .png ».
Facteurs à prendre en compte : Ce format a été largement adopté dans l'industrie de la publication Web et il est reconnu en tant que format de préservation par certaines grandes institutions de mémoire. En outre, il est largement pris en charge par les logiciels d'édition et de gestion d'images. Une attention particulière doit être accordée à la compression, car ce format prend en charge la compression avec et sans perte, ainsi qu'aux métadonnées intégrées, que le format permet d'utiliser, mais que la plupart des logiciels ne prennent pas en charge. Par ailleurs, le format ne prend pas en charge les MPT et ne dépend d'aucune dépendance externe.
PDF/A (versions 1 et 2)
Description : Cette description complète l'information fournie concernant le format PDF/A (versions 1 et 2) dans la section portant sur les fichiers texte formatés. Tous les formats PDF incorporant des images utilisent un mécanisme permettant l'utilisation de contenu de trame mixte (MRC), ce qui signifie que les parties d'une numérisation interprétées comme une image sont fondées sur une trame, tandis que les autres parties ne le sont pas. Les données d'image du format PDF sont compressées de plusieurs façons, selon le type d'image (images monochromes par opposition aux images en niveaux de gris ou en couleurs) et les paramètres. La compression des images monochromes est sans perte, alors que les algorithmes de compression des images en niveaux de gris ou en couleurs peuvent être sans perte ou avec perte (Bärfuss, 2014).
Facteurs à prendre en compte : Si, traditionnellement, les numériseurs numérisent des images en format TIFF ou JPEG, certains numériseurs plus récents permettent de le faire en format PDF ou PDF/A. La compression sans perte des images en niveaux de gris ou en couleurs pour les documents en format PDF est comparable à celle des documents en format TIFF. Cependant, le format PDF/A a l'avantage de permettre également l'intégration de profils de couleurs et de métadonnées, en plus de pouvoir prendre en charge la ROC.
Remarque : Bien que d'autres formats d'images fixes adoptés aux fins de la préservation par les institutions de mémoire aient été examinés, ceux qui précèdent représentent les formats jugés les plus appropriés pour la préservation à long terme.
Audio
Il convient de noter que les formats audio numérisés peuvent désigner un format d'encodage, soit un train de bits de données audio, le plus souvent compressées, qui peuvent être stockées ou transmises. Le format de ce train de bits est souvent désigné par le processus (ou l'algorithme) ayant servi à l'encoder et à le décoder, connu sous le nom « codec » (compression/décompression). Strictement parlant, le codec (logiciel exécutable) et le format auquel il accède ou le format qu'il produit (un train de bits de renseignements audio ou vidéo) sont deux choses différentes, mais les deux sont souvent désignés à l'aide du nom du codec.
Les formats audio peuvent également désigner un fichier dans lequel est stocké un train de bits encodé. Si le fichier dans lequel l'audio est stocké ne contient rien d'autre (sauf, peut-être, des métadonnées sur l'audio), il est souvent appelé une « enveloppe ». Si le fichier comprend du contenu supplémentaire (comme des images animées, du texte ou des pistes audio additionnelles), il est fréquemment appelé « conteneur ». La distinction entre les conteneurs et les codecs est faite dans toutes les recommandations qui suivent.
Pour obtenir de plus amples renseignements sur le processus de numérisation audio, consulter les recommandations de la CANPT (format PDF), qui ont été produites en collaboration avec le comité directeur de la SNPD.
Le format audio suivant est recommandé pour la préservation à long terme.
Conteneur BWAV avec codec à modulation linéaire par impulsions et codage
Description : Le format WAV (Waveform Audio) est un format de fichier propriétaire conçu par Microsoft et IBM pour stocker des renseignements audio. Le format BWAV (Broadcast Wave Format) est identique au format audio WAV; il est donc possible qu'un même lecteur puisse décoder les deux types de fichiers). Cependant, les fichiers BWAV contiennent des renseignements supplémentaires dans leur en-tête – avant tout à des fins de préservation –, sous la forme de métadonnées descriptives facultatives.
Le codec le plus couramment utilisé à l'intérieur d'un conteneur BWAV, et celui recommandé pour la préservation numérique, est la modulation linéaire par impulsions et codage (LPCM) non compressée. Pour les formats WAV et BWAV, la taille des fichiers est limitée à 2 gigaoctets, ce qui correspond à environ trois heures de lecture d'une qualité semblable à celle qu'offre un disque compact. Cependant, les renseignements contenus dans l'en-tête d'un fichier BWAV permettent de lier plusieurs fichiers pour une durée de lecture plus longue. Les extensions de fichier BWAV sont « .bwf » et « .wav » (à noter que cette dernière extension est également utilisée pour les fichiers en format WAV).
Facteurs à prendre en compte : Il s'agit de l'unique format audio que recommande actuellement la SNPD, car c'est le seul qui répond aux critères d'adoption appliqués par bon nombre des grandes institutions de mémoire examinées dans notre étude de la documentation. Néanmoins, d'autres formats pourraient convenir à la préservation dans le contexte de votre établissement. Les spécifications pour les fichiers WAV (en anglais seulement) et BWAV (format PDF) (en anglais seulement) sont accessibles en ligne, et il n'est pas nécessaire de détenir une licence pour les utiliser. Certains éditeurs de fichiers peuvent reconnaître les métadonnées des fichiers BWAV de différentes façons; il faut donc s'assurer qu'elles ne sont pas perdues ni corrompues lors de la modification ou de la migration des fichiers. La fréquence d'échantillonnage recommandée pour les enregistrements de haute qualité est de 96 kHz avec une profondeur de 24 bits.
Vidéo et film
Tous les formats recommandés dans les sections portant sur l'audio, la vidéo et les films sont conformes aux recommandations de la CANPT (format PDF), qui ont été produites en collaboration avec le comité directeur de la SNPD. Il convient de consulter ce document pour obtenir de plus amples renseignements sur le processus de numérisation de ces formes de supports.
Vidéo
Les formats présentés dans cette section servent à préserver du contenu numérisé à partir de vidéos analogiques. Comme pour l'audio, les formats contenant des vidéos numérisées peuvent désigner deux choses : le format d'un train de bits qui est transmis ou stocké (souvent désigné par le codec qui peut produire ou lire le train de bits) ou le fichier conteneur dans lequel est stocké le train de bits (et où se trouvent souvent aussi d'autres formes de contenu multimédia). Un sommaire des conteneurs vidéo courants, tenu à jour par le public, et des formats vidéo qu'ils prennent en charge figure sur Wikipédia (en anglais seulement).
Les formats vidéo suivants sont recommandés pour la préservation à long terme.
Conteneur MXF utilisant le format d'image sans perte JPEG 2000
Description : Mis au point par le Professional MPEG Forum à la fin des années 1990 et au début des années 2000, et normalisé par la Society of Motion Picture and Television Engineers (SMPTE), le format MXF (Material Exchange Format) a été conçu pour prendre en charge la plupart des composants du cycle de vie de la vidéo numérique, notamment la capture d'image, le montage, la distribution et l'archivage. En raison de la taille importante des fichiers MXF, attribuable à leur contenu typiquement sans perte, ce format n'est pas conçu pour être utilisé par le grand public. Le contenu des fichiers MXF est plutôt conservé sur des pistes distinctes (y compris un nombre illimité de pistes audio, généralement stockées en format WAV-LPCM BWF) pour permettre un montage simple. Il s'agit du format recommandé pour la préservation de l'audio qui y est associé. Bien que le format MXF soit capable de contenir de la vidéo dans n'importe quel format, on s'en sert couramment pour stocker des images distinctes en format JPEG 2000 sans perte (également recommandé), ce qui, là encore, facilite le montage.
Facteurs à prendre en compte : Il s'agit de l'un des deux formats de préservation vidéo recommandés par le Groupe de travail sur la préservation de l'audiovisuel de la CANPT, qui recommande des enregistrements à un débit binaire variable de 10 bits avec une moyenne minimale sans perte de 50 Mo/s. Pour obtenir de plus amples renseignements, consulter les recommandations de la CANPT (format PDF).
Incorporant un sous-ensemble des normes du format AAF (Advanced Authoring Format) définies par la communauté des médias électroniques, le format MXF est conçu pour favoriser la normalisation de la gestion de la vidéo sur diverses plateformes matérielles et logicielles. Adopté par les secteurs de la production et de la gestion de la vidéo numérique et du cinéma numérique, ce format est largement pris en charge par les applications professionnelles de ce domaine sur les systèmes d'exploitation Windows, Apple et Linux. Le format MXF a également été intégré à des équipements vidéo, étant donné qu'un grand nombre de fabricants de tels équipements sont membres des organismes de normalisation qui ont participé à son développement. Toutes les normes relatives au contenant et au format vidéo recommandé sont documentées, et l'utilisation de la norme est libre de droits. Il existe des brevets pour des composants de la norme JPEG 2000, mais l'on a renoncé aux droits pour leur application dans ce format.
Le format MXF reconnaît l'archivage vidéo en tant que composante du flux de travail multimédia auquel il est destiné; les métadonnées appropriées à cette fin se trouvent dans le format du conteneur. Il y a deux composants principaux : les métadonnées du système (ou structurelles), qui décrivent les formats de support internes, leurs relations, etc.; les métadonnées de l'utilisateur (ou descriptives), qui décrivent l'information générée durant la production (y compris la capture de contenu et le montage), ainsi que l'information nécessaire aux étapes relatives à l'utilisateur final et à l'archivage. Parmi les institutions de mémoire examinées, on constate que ces formats de conteneur et de support ont été adoptés aux fins de préservation par BAC, la NARA et l'Université Harvard.
Le format MXF convient à la préservation sans perte des fichiers vidéo. Toutefois, des formats vidéo (lisibles) accessibles seront également requis si ce format est choisi.
Conteneur QuickTime avec un sous-échantillonnage de la chrominance 4:2:2 non compressé
Description : Le format QuickTime, parfois désigné par son extension de fichier MOV, est un format de conteneur propriétaire développé par Apple Computer, Inc. Il s'agit d'une norme de fait de l'industrie qui sert de fondement au format ISO/IEC MPEG-4, lequel est semblable mais non identique. De nombreux appareils d'enregistrement vidéo exportent au format conteneur QuickTime, qui est reconnaissable par les extensions de fichier « .mov » et « .qt ». Bien souvent, ces appareils enregistrent du contenu uniquement sur ce format. Le format QuickTime permet de stocker la vidéo, l'audio multicanal et le texte (pour les sous-titres) dans des pistes distinctes, chacune pouvant être montée individuellement.
Facteurs à prendre en compte : Il s'agit du deuxième des deux formats de préservation vidéo recommandés par le Groupe de travail sur la préservation de l'audiovisuel de la CANPT, qui recommande un enregistrement utilisant un codec 10 bits non compressé v210 d'un débit d'environ 36 Mo/s (consulter les recommandations de la CANPT [format PDF] pour obtenir plus de détails). Puisque l'enregistrement ainsi recommandé exige l'utilisation d'un format vidéo non compressé et, donc, sans perte, le format est trop lourd pour la lecture en temps réel par le matériel et les logiciels types, mais il est idéal pour la préservation de toute l'information contenue dans les images. Cependant, il est admis que, étant donné les contraintes en matière de ressources, il est possible que ce format ne convienne pas à certains établissements du patrimoine. L'utilisation de codecs créant des vidéos sans perte et non compressées est idéale et recommandée, mais les codecs avec perte ou presque sans perte, comme le format JPEG 2000, digital video – National Television Standards Committee (DV-NTSC, en particulier pour la migration de contenu à partir de bandes numériques) et le format Apple ProRes 422 sont acceptables. Toutes les pistes audio doivent être enregistrées dans un format utilisant la modulation par impulsions et codage (PCM). Le format QuickTime est pris en charge par la majorité des produits Apple et Windows. Ce format comprend une fonction de gestion des droits numériques (apparemment destinée à être utilisée avec l'iTunes Store en ligne d'Apple), mais ce n'est pas une préoccupation pour ceux qui préservent du contenu sans qu'une telle fonction ne soit mise à profit.
Conteneur AVI avec codec JPEG 2000 ou DV-NTSC
Description : Le format de conteneur AVI (Audio Video Interleave) a été lancé par Microsoft en 1992 en tant que sous-format du format RIFF (Resource Interchange File Format) (en anglais seulement). La spécification du conteneur décrit un format de fichier qui stocke le contenu en « segments ». Le contenu audiovisuel peut être de tout type, et l'on peut utiliser n'importe quel codec (ou toute combinaison de codecs) pour lire à la fois les pistes audio et vidéo de manière synchrone. Ces fichiers sont reconnaissables par l'extension « .avi ».
Facteurs à prendre en compte : Ce format n'est pas recommandé, mais il est jugé acceptable par le Groupe de travail sur la préservation de l'audiovisuel de la CANPT (qui recommande un format proposant plus d'une option quant à la profondeur de bits et à la fréquence d'échantillonnage; consulter les recommandations de la CANPT [format PDF] pour obtenir plus de détails). Les codecs acceptables sont JPEG 2000 (idéalement sans perte) et DV-NTSC (acceptable pour la migration de contenu à partir de bandes numériques). Quel que soit le codec vidéo choisi, l'audio doit être préservé dans un format utilisant la PCM.
Le conteneur AVI est un format propriétaire développé par Microsoft et IBM; cela dit, l'obtention de licence d'utilisation ne semble pas poser problème et la documentation concernant le format se trouve en ligne. Puisqu'il s'agit d'un format de fichier multimédia natif conçu pour le système d'exploitation Windows, le format AVI est, depuis longtemps, largement utilisé et pris en charge. En raison de l'ubiquité du format, celui-ci est aussi pris en charge par de nombreux logiciels fonctionnant avec les systèmes d'exploitation Mac, Linux et Unix. Les institutions de mémoire qui ont adopté ce format comprennent BAC et la NARA (qui privilégient toutes deux ce format), de même que la LC (qui accepte le conteneur utilisant le codec H.264 ou H.262).
Ce format ne pose aucun problème en ce qui a trait aux MPT. L'en-tête de ce type de fichier contient des métadonnées techniques sur la vidéo et peut également contenir des métadonnées (dans un segment de contenu de fichier RIFF) concernant la provenance du contenu et les droits d'auteur. Les fichiers AVI peuvent contenir d'autres métadonnées intégrées à l'aide de la XMP, mais il ne s'agit pas d'une pratique courante.
Film numérisé
La présente section porte expressément sur la capture numérique et la préservation de films cinématographiques. Contrairement à la numérisation de contenu audio ou vidéo, la numérisation de films nécessite plusieurs fichiers. Un film ainsi numérisé est trop complexe sur le plan informatique pour être lu en temps réel avec du matériel de qualité grand public, et il est généralement stocké sous la forme d'une collection structurée de fichiers (qui ne sont pas dans des conteneurs). Pour obtenir de plus amples renseignements sur le processus de numérisation des films cinématographiques, consulter les recommandations de la CANPT (format PDF), qui ont été produites en collaboration avec le comité directeur de la SNPD.
Format de fichier DPX
Description : Développé en 1994 en tant que format pour le numériseur de films Cineon de Kodak, lancé en 2003 comme norme de la SMPTE (SMPTE 268M-2003) et révisé par la SMPTE à de nombreuses reprises depuis, le format de fichier DPX (Digital Picture Exchange) sert à stocker de l'information détaillée de haute qualité sur les images (en format de trame non compressé) et à prendre en charge les métadonnées pour chaque image d'un film. Le format DPX est utilisé comme format de sortie par l'équipement de numérisation de films, comme format numérique intermédiaire pour la gestion des couleurs pendant la production d'un film cinématographique et comme format numérique pour imprimer un film en vue de sa distribution.
Il existe trois blocs de métadonnées couramment utilisés dans l'en-tête de chaque fichier de ce format. Le premier type de bloc contient des champs relatifs à l'image elle-même, tels le « nombre magique » servant à désigner le format de fichier, la résolution de l'image, l'information sur l'espace colorimétrique, la date et l'heure de création du fichier, le nom du créateur, le nom du projet, l'information sur le droit d'auteur ainsi que d'autres détails techniques. Certains de ces champs sont des champs obligatoires requis par les logiciels uniquement compatibles avec le format DPX.
Le deuxième type de bloc de métadonnées est propre à chaque industrie. Le format DPX a également été influencé par l'industrie du télécinéma (équipement de diffusion de films à la télévision), et c'est pourquoi ce bloc comprend des métadonnées spécifiques à la diffusion (en général, seul le groupe pertinent de ces éléments comprend de l'information). Cela dit, le secteur de la diffusion télévisuelle n'a pas adopté le format DPX dans la même mesure que l'a fait l'industrie de la capture de films.
Le troisième type de bloc est celui des métadonnées facultatives définies par l'utilisateur, dont ni la structure ni la longueur ne sont définies dans la norme de la SMPTE. Néanmoins, le groupe de travail responsable de l'audiovisuel de la Federal Agencies Digital Guidelines Initiative a publié le document Guidelines: Embedding Metadata in DPX Files (en anglais seulement), dans lequel on propose de mettre à profit ce bloc pour documenter, entre autres choses, l'historique du processus de numérisation.
Il y a un quatrième type de bloc, décrit comme un bloc qui comprend les « données d'image », mais il n'est pas bien défini dans la version 2.0 de la norme de la SMPTE. Il se peut qu'il soit mieux défini dans des versions plus récentes de celle-ci.
Conformément aux recommandations de la CANPT (format PDF), les images doivent être stockées dans des fichiers d'image tramée distincts non compressés en résolution 4K avec une profondeur de couleur de 10 bits en RVB pour les films 35 mm, et dans des fichiers d'image en résolution 2K avec une profondeur de couleur de 10 bits en RVB pour les films sur pellicules 89 mm, Super 8 et 16 mm. L'audio doit être stocké à l'aide de la PCM non compressée dans une enveloppe BWAV, avec une profondeur d'échantillonnage de 24 bits et une fréquence d'échantillonnage de 48 kHz. De même, puisque chaque fichier d'image ne contient qu'une seule image, les métadonnées de l'ensemble du film sont souvent stockées dans un autre fichier. La convention d'appellation de chaque fichier d'image est également importante, et elle est généralement sauvegardée au format « nom.n.dpx »; « n » est une valeur numérique à huit chiffres représentant la séquence de l'image dans le film et « .dpx » désigne l'extension du nom du fichier. Tous les fichiers d'image DPX d'un film donné sont habituellement stockés dans un seul répertoire.
D'autres renseignements, comme le fichier BWAV pour l'audio, sont souvent enregistrés séparément. Il est possible de numériser une zone plus large que celle que couvre le cadre original de l'image et d'intégrer du contenu audio, ou d'autres renseignements, comme contenu visuel en dehors de l'image, mais cela n'est pas une pratique courante.
Facteurs à prendre en compte : Il s'agit d'un format lourd si l'on souhaite l'enregistrer sur un disque. En effet, ce format peut prendre jusqu'à 4 To par heure d'enregistrement pour les films de plus grand format. Ce format de fichier est une norme dans l'industrie pour la numérisation, la gestion des couleurs et l'impression de films. Parmi les institutions de mémoire examinées, il a été adopté comme format de préservation par BAC et la NARA.
Les spécifications du format sont entièrement divulguées en tant que norme de la SMPTE, et il n'y a aucun problème connu de licence ou de brevet, pas plus qu'il n'y a de MTP intégrées dans la norme. Bien que l'accès au contenu exige des logiciels propres à l'industrie (et qu'il ne soit pas possible au moyen d'applications destinées aux consommateurs), de multiples applications professionnelles prennent en charge ce format. Le format permet également une vaste autodocumentation grâce à ses nombreux blocs et champs de métadonnées. À l'exception des logiciels nécessaires pour accéder au contenu, le format ne dépend d'aucun facteur externe. Ainsi, il est raisonnable d'utiliser le format DPX pour préserver un film en le numérisant afin de l'archiver. Toutefois, si ce format est utilisé, il faut aussi conserver le film à l'aide de formats accessibles.
Pour obtenir une liste plus exhaustive des formats de préservation qu'ont adoptés les grandes institutions de mémoire, consulter l'Étude de la documentation sur les formats de préservation numérique.
Remerciements
Les auteurs tiennent à remercier les personnes suivantes d'avoir contribué au présent document :
Paul Durand, Musée canadien de l'histoire
Émilie Fortin, Bibliothèque de l'Université Laval
Annexe A : Glossaire des termes techniques
- avec perte
- Expression décrivant la perte d'une certaine quantité d'information en raison de l'exécution d'une action; par exemple, lorsqu'un fichier est compressé afin d'être stocké ou transmis.
- bit
- Unité d'information la plus élémentaire gérée par un ordinateur (réglée sur 1 ou 0).
- codec
- Algorithme, exprimé sous forme de logiciel ou de micrologiciel, servant à encoder et à décoder l'audio ou la vidéo; le format de l'information stockée par le codec est souvent désigné par le nom du codec utilisé pour produire le fichier ou y accéder.
- compressée
- Information numérique stockée ou transmise à l'aide d'un nombre d'octets inférieur à celui qui a été utilisé pour produire ou présenter le fichier.
- image tramée
- Image stockée en pixels dans un espace rectangulaire, comme un système de coordonnées cartésiennes.
- non compressée
- Information numérique qui n'a pas été compressée.
- octet
- Huit bits.
- pixel
- Le plus petit composant visible d'une image (dans une image tramée en noir et blanc, un pixel est représenté par un seul bit).
- profondeur de bits
- Nombre de bits attribué à une unité d'information, comme les données sur les couleurs dans une image ou celles sur la fidélité de la forme d'onde dans un fichier audio.
- sans perte
- Expression décrivant la conservation de l'ensemble de l'information contenue dans un fichier malgré l'exécution d'une action; par exemple, lorsqu'un fichier est compressé afin d'être stocké ou transmis.
Sites Web consultés
Federal Agencies Digital Guidelines Initiative, Guidelines (en anglais seulement)
Stratégie de numérisation du patrimoine documentaire
The Technical Registry PRONOM (en anglais seulement)
Wikipédia (pour les termes suivants : Audio Video Interleave, Broadcast Wave Format, Digital Picture Exchange, JPEG 2000, Material Exchange Format, PDF/A, Portable Network Graphics, QuickTime, TIFF et Comparison of video container formats [en anglais seulement])
Bibliographie
Advanced Media Workflow Association. Structure of an MXF File, s. l., Advanced Media Workflow Association, s. d.
Aldus Developers Desk. TIFF Revision 6.0 (format PDF) (en anglais seulement), Seattle (Washington), Aldus Corporation, 1992.
Archives nationales d'Australie. Long-term File Formats (en anglais seulement), Canberra (Australie), Archives nationales d'Australie, 2019.
Bärfuss, H. Scan to PDF/A: Some Insights (en anglais seulement), PDF Tools AG, 2014.
Bibliothèque du Congrès. Sustainability of Digital Formats: Planning for Library of Congress Collections (en anglais seulement), Washington (D.C.), Bibliothèque du Congrès, s. d.
Bibliothèque et Archives Canada. File Format Guidelines for Preservation and Long-term Access, Version 1.0 (format PDF) (en anglais seulement), Ottawa (Ontario), Registre local de formats numériques de Bibliothèque et Archives Canada, s. d.
Bibliothèque et Archives Canada. Lignes directrices sur les formats de fichier à utiliser pour transférer des ressources documentaires, Ottawa (Ontario), Bibliothèque et Archives Canada, 2015.
Digital Preservation Coalition. Digital Preservation Handbook (en anglais seulement), deuxième édition, Glasgow (Écosse), Digital Preservation Coalition, 2019.
Duce, D. (directeur de publication). Portable Network Graphics (PNG) Specification (en anglais seulement), deuxième édition, s. l., World Wide Web Consortium, 2003.
Groupe de discussion sur la numérisation et la préservation numérique (Canada). Étude de la documentation sur les formats de préservation numérique, Ottawa (Ontario), Réseau canadien d'information sur le patrimoine, 2019.
Groupe de travail sur la préservation de l'audiovisuel de la Conférence des archivistes national, provinciaux et territoriaux et comité directeur de la Stratégie de numérisation du patrimoine documentaire. Recommandations concernant les fichiers de préservation à utiliser pour la numérisation des enregistrements analogiques audio et vidéo et des films cinématographiques (format PDF), s. l., janvier 2018.
Harvard Library, Data Management: File Formats and Naming, Formats (en anglais seulement), Cambridge (Massachusetts), Harvard Library, s. d.
Joint Photographic Experts Group. Workplan & Specs of JPEG 2000 (en anglais seulement), s. l., Joint Photographic Experts Group, s. d.
Microsoft. AVI RIFF File Reference (en anglais seulement), s. l., Microsoft, 2008.
National Archives and Records Administration. « Appendix A: Tables of File Formats » (en anglais seulement), Records Management Regulations, Policy, and Guidance, College Park (Maryland), National Archives and Records Administration, 2017.
Organisation internationale de normalisation. ISO 19005-1:2005, Gestion de documents – Format de fichier des documents électroniques pour une conservation à long terme – Partie 1: Utilisation du PDF 1.4 (PDF/A-1), Genève (Suisse), Organisation internationale de normalisation, 2005.
Rog, J., et C. van Wijk. Evaluating File Formats for Long-term Preservation (format PDF) (en anglais seulement), La Haye (Pays-Bas), Bibliothèque Nationale des Pays-Bas, s. d.
Union Européenne de Radio-Télévision. Specification of the Broadcast Wave Format; A Format for Audio Data Files, Supplement 6 (format PDF) (en anglais seulement), Genève (Suisse), Union Européenne de Radio-Télévision, 2009.
No de catalogue : CH57-4/9-2019F-PDF
ISBN 978-0-660-33841-5
© Gouvernement du Canada, Réseau canadien d’information sur le patrimoine, 2019
Publié par :
Réseau canadien d’information sur le patrimoine
Ministère du Patrimoine canadien
1030, chemin Innes
Ottawa ON K1B 4S7
Canada
No de catalogue : CH57-4/9-2019F-PDF
ISBN 978-0-660-33841-5
Détails de la page
- Date de modification :