Recommandations relatives aux formats de fichier pour la préservation numérique – Stratégie de numérisation du patrimoine documentaire

Ern Bieman, Réseau canadien d'information sur le patrimoine
William Vinh-Doyle, Archives provinciales du Nouveau-Brunswick

Sur cette page

Liste des abréviations
AVI
Audio Video Interleave
BAC
Bibliothèque et Archives Canada
BWAV
Broadcast Wave Format
CANPT
Conférence des archivistes national, provinciaux et territoriaux
CEI
Commission électrotechnique internationale
DPX
Digital Picture Exchange
DV-NTSC
digital video – National Television Standards Committee
LC
Bibliothèque du Congrès (Library of Congress)
LPCM
modulation linéaire par impulsions et codage
Mo/s
mégaoctet par seconde
MPT
mesure de protection technologique
MRC
contenu de trame mixte
MXF
Material Exchange Format
NAA
Archives nationales d'Australie (National Archives of Australia)
NARA
National Archives and Records Administration
PCM
modulation par impulsions et codage
PDF/A
Portable Document Format/Archive
RIFF
Resource Interchange File Format
ROC
reconnaissance optique de caractères
RVB
rouge-vert-bleu
SMPTE
Society of Motion Picture and Television Engineers
SNPD
Stratégie de numérisation du patrimoine documentaire
UIT
Union internationale des télécommunications
XMP
Extensible Metadata Platform

Résumé

Le présent document a été produit par le Réseau canadien d'information sur le patrimoine (RCIP), en collaboration avec les membres du Groupe de discussion sur la numérisation et la préservation numérique. Le document a été présenté au comité directeur de la Stratégie de numérisation du patrimoine documentaire (SNPD), qui l'avait inscrit parmi les activités à réaliser dans son plan d'activités de 2018-2019. Le document vise à aider les établissements canadiens du patrimoine culturel (bibliothèques, archives et musées) à choisir les formats de fichier appropriés pour la préservation à long terme de leur contenu numérisé.

Portée

Le présent document contient des recommandations sur les formats de fichier à utiliser pour la préservation du contenu numérisé. On n'y examine que des formats ayant déjà été recommandés par des sources faisant autorité (notamment Bibliothèque et Archives Canada [BAC], la Bibliothèque du Congrès [Library of Congress (LC)], la National Archives and Records Administration [NARA] et l'Université Harvard). Puisque de multiples organismes ont déjà procédé à une évaluation rigoureuse de ces formats aux fins de la préservation numérique, nous ne reproduirons pas ce processus ici. Le présent document vise plutôt à résumer les critères d'évaluation couramment pris en compte; on y limite donc l'évaluation de chaque format de fichier à une brève discussion de ses forces et de ses faiblesses, en fonction de ces critères.

Conformément à la portée de la SNPD, le présent document se limite aux formats servant à préserver du contenu numérisé. Il ne tient pas compte des supports produits au départ en format numérique. Par ailleurs, le document ne traite pas d'autres questions liées à la préservation numérique, comme les pratiques exemplaires ou les méthodes de travail, ni de quelque composant que ce soit du processus de numérisation.

Pour obtenir de plus amples renseignements sur les lignes directrices et les pratiques exemplaires en matière de numérisation de documents, consulter les ressources en ligne suivantes :

Pour en savoir davantage sur les lignes directrices et les pratiques exemplaires relatives à la numérisation de documents audio, vidéo et cinématographiques, consulter la ressource en ligne suivante :

Introduction

Les formats de fichier de préservation diffèrent des formats d'accès, des formats de publication Web et, dans certains cas, des formats de numérisation privilégiés. Les critères qui permettent de déterminer qu'un format est idéal pour la préservation ont été établis par plusieurs organismes; certains de ces organismes ont même mis sur pied un processus rigoureux d'évaluation et de sélection des formats, et nombre d'entre eux ont formulé leurs propres recommandations à ce chapitre (consulter la section Critères d'évaluation pour voir des exemples).

Le présent document est divisé en trois sections principales :

  1. un sommaire des critères d'évaluation;
  2. un sommaire des établissements qui adoptent ou recommandent des formats aux fins de préservation;
  3. une discussion sur les formats recommandés pour chaque type de contenu numérisé.

Critères d'évaluation

Il existe plusieurs documents qui énoncent des critères pour la sélection des formats de fichier aux fins de la préservation numérique. En voici quelques exemples :

Certains critères sont appliqués par l'ensemble de ces établissements, tandis que d'autres font l'objet de débats. Les deux critères fondamentaux suivants sont communs à tous les établissements susmentionnés.

  1. Le format sélectionné doit être largement répandu et utilisé. On tient parfois compte du critère relatif à l'adoption en examinant l'utilisation du format par les institutions de mémoire pour la préservation numérique; cela dit, il est plus important que le format soit largement adopté par la communauté dans son ensemble. Cela permet ainsi de s'assurer qu'il y a – et qu'il y aura toujours – du soutien pour ce format, que des logiciels et des outils seront développés pour que l'on puisse utiliser ce format et travailler avec lui, et que le format continuera d'être utilisé à long terme.
  2. Le format doit être bien documenté et pouvoir être inspecté. À cet égard, de multiples critères connexes sont souvent cités; chacun a une signification légèrement différente des autres, mais tous renvoient à cet objectif général. L'ouverture, la transparence et la divulgation du format sont autant d'exemples d'aspects qui peuvent être évalués en fonction de la mesure dans laquelle la documentation portant sur le format est librement accessible; le contenu détaillé d'un fichier est facile à inspecter; les outils logiciels d'inspection et de modification sont facilement accessibles.

À ces deux critères généraux s'ajoutent d'autres critères qui sont repris dans de nombreux modèles de critères de sélection :

Les critères de sélection suivants peuvent renforcer davantage la candidature d'un format aux fins de la préservation; il est toutefois controversé de les considérer comme des exigences obligatoires :

Établissements qui adoptent ou recommandent des formats aux fins de la préservation numérique

L'Annexe A comprend des tableaux décrivant ces formats. Les tableaux sont fondés, en partie, sur une étude de la documentation effectuée antérieurement par les auteurs du présent document et leurs collaborateurs (consulter l'Étude de la documentation sur les formats de préservation numérique). Les tableaux résument les formats de fichier dont on sait qu'ils ont été recommandés ou acceptés comme formats de préservation par un sous-ensemble des établissements examinés précédemment. On s'est efforcé de distinguer les formats de préservation des formats de transfert (c'est-à-dire les formats qui peuvent être acceptés par une institution de mémoire, mais qui peuvent ne pas être le format final utilisé pour la préservation). Seuls les formats de préservation adoptés par au moins deux des institutions citées ici ont été pris en compte en vue de leur recommandation par la SNPD.

Formats de fichier recommandés

Fichier texte – polices de caractères normalisées

Les formats de fichier texte suivants sont recommandés pour la préservation à long terme.

PDF/A (les deux versions 1 et 2)

Description : Les fichiers en format PDF (format de document portable) permettent d'inclure du texte, des graphiques, des renseignements relatifs à la mise en forme ainsi que d'autres fonctions pour contrôler la mise en page et l'apparence d'un document. Le format PDF/A (format de document portable/archives) a été conçu spécialement pour que l'on puisse procéder à l'archivage en préservant « l'apparence visuelle d'un document au fil du temps, quel que soit l'outil ou le système utilisé pour créer, stocker ou traiter les fichiers » [traduction libre] (ISO, 2005). Le format PDF/A interdit ainsi les fonctions qui ne conviennent pas à l'archivage à long terme, comme le recours à des définitions de polices externes, l'utilisation du chiffrement, le lancement d'un code exécutable à partir du document ainsi que d'autres éléments semblables. Certains numériseurs peuvent numériser un document directement en format PDF/A; de même, la reconnaissance optique de caractères (ROC) convertit généralement les éléments de texte d'un objet numérisé en texte lisible par une machine dans le document PDF qui en découle.

Facteurs à prendre en compte : Parmi les institutions de mémoire examinées, il s'agit du format de préservation le plus largement répandu pour le texte formaté. Contrôlés à l'origine par Adobe en tant que formats propriétaires, les formats PDF ont été mis à la disposition du public sous licence libre de droits en 2008 et sont publiés aujourd'hui à titre de normes ouvertes. Le format PDF/A est publié selon la norme ISO 19005. Il existe plusieurs versions du format PDF/A standard; les versions 1 et 2 sont toutes deux largement répandues. La version 3 (PFD/A-3) permet d'intégrer des formats de fichier en tous genres, lesquels peuvent ne pas se prêter à l'archivage. Il convient également de noter que certaines métadonnées intégrées dans un fichier PDF/A peuvent exiger une correction manuelle (selon le processus de numérisation). Dans un tel cas, il peut être nécessaire d'apporter des modifications au document en format PDF d'abord avant de créer la version PDF/A de ce document.

En plus du format PDF/A, de multiples formats d'image sont également recommandés dans les cas où le texte d'un document numérisé ne peut être converti par ROC en texte interrogeable par machine, ou lorsque qu'il est important d'avoir une image détaillée (voire sans perte) du document. Ces formats, qui sont décrits plus en détail dans la section Image fixe, sont les suivants :

Image fixe

Les formats de fichier d'image fixe ci-après sont recommandés pour la préservation à long terme.

TIFF

Description : Le format TIFF (Tagged Image File Format), aussi appelé « TIF » et ayant TIFF et TIF comme extensions de nom de fichier, est une norme de fait largement adoptée dans l'industrie de l'impression et de l'imagerie pour les images en couleurs, en niveaux de gris et monochromes. Bien que le format TIFF puisse servir pour des données d'image sous d'autres formes, les fichiers TIFF sont le plus souvent reconnus comme des fichiers qui contiennent des images constituées de tables de bits (trames) compressées sans perte. Les balises d'en-tête aident à déterminer, entre autres choses, la taille et la définition de l'image ainsi que la structure et le mode de compression des données d'image. La version la plus récente du format est TIFF 6.0, lancée en 1992.

Facteurs à prendre en compte : Il s'agit d'un format bien établi et reconnu depuis plus de deux décennies. L'ubiquité, la compression sans perte et la stabilité de l'image (lors de sa modification) caractéristiques du format TIFF ont rendu ce dernier populaire tant pour le matériel et les logiciels d'imagerie que pour les logiciels de traitement et de rendu d'images ainsi que d'archivage. Par conséquent, le format devrait continuer à être largement pris en charge pendant longtemps.

Le format TIFF est la propriété intellectuelle de l'entreprise Adobe Systems. Cependant, le droit de propriété intellectuelle n'a jamais été exploité, et la spécification TIFF 6.0 (format PDF) (en anglais seulement) complète est offerte gratuitement sur le site Web de l'Union internationale des télécommunications (UIT).

Adobe propose un processus (utilisant la plateforme de métadonnées extensibles [XMP]) pour intégrer les métadonnées de préservation dans l'en-tête d'une image. Toutefois, ces champs ne sont pas natifs de ce format.

Le format TIFF ne dépend d'aucun facteur externe et ne s'accompagne d'aucune préoccupation quant aux MPT.

JPEG 2000

Description : Le format JPEG (Joint Photographic Experts Group) 2000 est un système de compression et de codage d'images mis au point par le Groupe mixte d'experts en photographie en 2000 pour remplacer l'ancien format JPEG. Entre autres améliorations par rapport au format JPEG traditionnel, ce format permet la transparence, la compression sans perte (en option) et des niveaux de définition variables dans une même image. De plus, ce format est généralement plus robuste en cas de détérioration ou de perte partielle de l'information contenue dans le fichier. Les fichiers JPEG 2000 tendent à être moins volumineux que les fichiers JPEG, et contrairement à ces derniers, ils permettent d'intégrer des métadonnées dans l'en-tête en utilisant la XMP. On peut reconnaître les fichiers dans ce format par leurs extensions « .jp2 » et « .jpx ».

Facteurs à prendre en compte : Bien qu'il ait été adopté par de grandes institutions de mémoire, on ne sait pas exactement dans quelle mesure le format JPEG 2000 sera pris en charge à long terme. En 2018, le matériel d'imagerie et les logiciels de visualisation et d'édition d'images prenaient en charge ce format; néanmoins, sa prise en charge est moins répandue que celle d'autres formats populairesNote de bas de page 1. Aucun appareil photo connu n'exporte des images en format JPEG 2000. De même, le format JPEG 2000 n'est pas rétrocompatible avec le format JPEG, et bien qu'une licence gratuite ait été offerte aux programmeurs pour stimuler son développement, les nombreux brevets qui s'y rattachent demeurent une source d'inquiétude. Tous les composants de la spécification JPEG 2000 sont énumérés sur le site Web JPEG (en anglais seulement). Certains de ces documents peuvent être achetés en tant que normes ISO/IEC. D'autres documents du même genre sont offerts gratuitement sur le site Web de l'UIT.

Si l'on utilise le format JPEG 2000 comme format de préservation, il faut s'assurer que le fichier est compressé sans perte (ce format de fichier permet la compression sans perte et avec perte) ou que le degré de compression avec perte est acceptable. Il convient de noter qu'il est possible de paramétrer le degré de compression avec perte de ce format.

PNG

Description : Le format PNG (Portable Network Graphics) est un format d'image sans brevet reconnu par l'ISO/IEC et lancé en 2004 pour remplacer le format d'échange graphique (GIF), qui a été protégé par un brevet jusqu'en 2005. Ce format d'image tramée, qui a été conçu pour la publication Web, prend en charge jusqu'à 48 bits par pixel d'information couleur (en format rouge-vert-bleu [RVB]) ainsi que 16 bits supplémentaires, qui peuvent être utilisés pour rendre la transparence. La compression sans perte et le rendu entrelacé sont pris en charge. Contrairement au format GIF, le format PNG ne se prête pas véritablement aux animations. Les fichiers PNG sont reconnaissables par l'extension « .png ».

Facteurs à prendre en compte : Ce format a été largement adopté dans l'industrie de la publication Web et il est reconnu en tant que format de préservation par certaines grandes institutions de mémoire. En outre, il est largement pris en charge par les logiciels d'édition et de gestion d'images. Une attention particulière doit être accordée à la compression, car ce format prend en charge la compression avec et sans perte, ainsi qu'aux métadonnées intégrées, que le format permet d'utiliser, mais que la plupart des logiciels ne prennent pas en charge. Par ailleurs, le format ne prend pas en charge les MPT et ne dépend d'aucune dépendance externe.

PDF/A (versions 1 et 2)

Description : Cette description complète l'information fournie concernant le format PDF/A (versions 1 et 2) dans la section portant sur les fichiers texte formatés. Tous les formats PDF incorporant des images utilisent un mécanisme permettant l'utilisation de contenu de trame mixte (MRC), ce qui signifie que les parties d'une numérisation interprétées comme une image sont fondées sur une trame, tandis que les autres parties ne le sont pas. Les données d'image du format PDF sont compressées de plusieurs façons, selon le type d'image (images monochromes par opposition aux images en niveaux de gris ou en couleurs) et les paramètres. La compression des images monochromes est sans perte, alors que les algorithmes de compression des images en niveaux de gris ou en couleurs peuvent être sans perte ou avec perte (Bärfuss, 2014).

Facteurs à prendre en compte : Si, traditionnellement, les numériseurs numérisent des images en format TIFF ou JPEG, certains numériseurs plus récents permettent de le faire en format PDF ou PDF/A. La compression sans perte des images en niveaux de gris ou en couleurs pour les documents en format PDF est comparable à celle des documents en format TIFF. Cependant, le format PDF/A a l'avantage de permettre également l'intégration de profils de couleurs et de métadonnées, en plus de pouvoir prendre en charge la ROC.

Remarque : Bien que d'autres formats d'images fixes adoptés aux fins de la préservation par les institutions de mémoire aient été examinés, ceux qui précèdent représentent les formats jugés les plus appropriés pour la préservation à long terme.

Audio

Il convient de noter que les formats audio numérisés peuvent désigner un format d'encodage, soit un train de bits de données audio, le plus souvent compressées, qui peuvent être stockées ou transmises. Le format de ce train de bits est souvent désigné par le processus (ou l'algorithme) ayant servi à l'encoder et à le décoder, connu sous le nom « codec » (compression/décompression). Strictement parlant, le codec (logiciel exécutable) et le format auquel il accède ou le format qu'il produit (un train de bits de renseignements audio ou vidéo) sont deux choses différentes, mais les deux sont souvent désignés à l'aide du nom du codec.

Les formats audio peuvent également désigner un fichier dans lequel est stocké un train de bits encodé. Si le fichier dans lequel l'audio est stocké ne contient rien d'autre (sauf, peut-être, des métadonnées sur l'audio), il est souvent appelé une « enveloppe ». Si le fichier comprend du contenu supplémentaire (comme des images animées, du texte ou des pistes audio additionnelles), il est fréquemment appelé « conteneur ». La distinction entre les conteneurs et les codecs est faite dans toutes les recommandations qui suivent.

Pour obtenir de plus amples renseignements sur le processus de numérisation audio, consulter les recommandations de la CANPT (format PDF), qui ont été produites en collaboration avec le comité directeur de la SNPD.

Le format audio suivant est recommandé pour la préservation à long terme.

Conteneur BWAV avec codec à modulation linéaire par impulsions et codage

Description : Le format WAV (Waveform Audio) est un format de fichier propriétaire conçu par Microsoft et IBM pour stocker des renseignements audio. Le format BWAV (Broadcast Wave Format) est identique au format audio WAV; il est donc possible qu'un même lecteur puisse décoder les deux types de fichiers). Cependant, les fichiers BWAV contiennent des renseignements supplémentaires dans leur en-tête – avant tout à des fins de préservation –, sous la forme de métadonnées descriptives facultatives.

Le codec le plus couramment utilisé à l'intérieur d'un conteneur BWAV, et celui recommandé pour la préservation numérique, est la modulation linéaire par impulsions et codage (LPCM) non compressée. Pour les formats WAV et BWAV, la taille des fichiers est limitée à 2 gigaoctets, ce qui correspond à environ trois heures de lecture d'une qualité semblable à celle qu'offre un disque compact. Cependant, les renseignements contenus dans l'en-tête d'un fichier BWAV permettent de lier plusieurs fichiers pour une durée de lecture plus longue. Les extensions de fichier BWAV sont « .bwf » et « .wav » (à noter que cette dernière extension est également utilisée pour les fichiers en format WAV).

Facteurs à prendre en compte : Il s'agit de l'unique format audio que recommande actuellement la SNPD, car c'est le seul qui répond aux critères d'adoption appliqués par bon nombre des grandes institutions de mémoire examinées dans notre étude de la documentation. Néanmoins, d'autres formats pourraient convenir à la préservation dans le contexte de votre établissement. Les spécifications pour les fichiers WAV (en anglais seulement) et BWAV (format PDF) (en anglais seulement) sont accessibles en ligne, et il n'est pas nécessaire de détenir une licence pour les utiliser. Certains éditeurs de fichiers peuvent reconnaître les métadonnées des fichiers BWAV de différentes façons; il faut donc s'assurer qu'elles ne sont pas perdues ni corrompues lors de la modification ou de la migration des fichiers. La fréquence d'échantillonnage recommandée pour les enregistrements de haute qualité est de 96 kHz avec une profondeur de 24 bits.

Vidéo et film

Tous les formats recommandés dans les sections portant sur l'audio, la vidéo et les films sont conformes aux recommandations de la CANPT (format PDF), qui ont été produites en collaboration avec le comité directeur de la SNPD. Il convient de consulter ce document pour obtenir de plus amples renseignements sur le processus de numérisation de ces formes de supports.

Vidéo

Les formats présentés dans cette section servent à préserver du contenu numérisé à partir de vidéos analogiques. Comme pour l'audio, les formats contenant des vidéos numérisées peuvent désigner deux choses : le format d'un train de bits qui est transmis ou stocké (souvent désigné par le codec qui peut produire ou lire le train de bits) ou le fichier conteneur dans lequel est stocké le train de bits (et où se trouvent souvent aussi d'autres formes de contenu multimédia). Un sommaire des conteneurs vidéo courants, tenu à jour par le public, et des formats vidéo qu'ils prennent en charge figure sur Wikipédia (en anglais seulement).

Les formats vidéo suivants sont recommandés pour la préservation à long terme.

Conteneur MXF utilisant le format d'image sans perte JPEG 2000

Description : Mis au point par le Professional MPEG Forum à la fin des années 1990 et au début des années 2000, et normalisé par la Society of Motion Picture and Television Engineers (SMPTE), le format MXF (Material Exchange Format) a été conçu pour prendre en charge la plupart des composants du cycle de vie de la vidéo numérique, notamment la capture d'image, le montage, la distribution et l'archivage. En raison de la taille importante des fichiers MXF, attribuable à leur contenu typiquement sans perte, ce format n'est pas conçu pour être utilisé par le grand public. Le contenu des fichiers MXF est plutôt conservé sur des pistes distinctes (y compris un nombre illimité de pistes audio, généralement stockées en format WAV-LPCM BWF) pour permettre un montage simple. Il s'agit du format recommandé pour la préservation de l'audio qui y est associé. Bien que le format MXF soit capable de contenir de la vidéo dans n'importe quel format, on s'en sert couramment pour stocker des images distinctes en format JPEG 2000 sans perte (également recommandé), ce qui, là encore, facilite le montage.

Facteurs à prendre en compte : Il s'agit de l'un des deux formats de préservation vidéo recommandés par le Groupe de travail sur la préservation de l'audiovisuel de la CANPT, qui recommande des enregistrements à un débit binaire variable de 10 bits avec une moyenne minimale sans perte de 50 Mo/s. Pour obtenir de plus amples renseignements, consulter les recommandations de la CANPT (format PDF).

Incorporant un sous-ensemble des normes du format AAF (Advanced Authoring Format) définies par la communauté des médias électroniques, le format MXF est conçu pour favoriser la normalisation de la gestion de la vidéo sur diverses plateformes matérielles et logicielles. Adopté par les secteurs de la production et de la gestion de la vidéo numérique et du cinéma numérique, ce format est largement pris en charge par les applications professionnelles de ce domaine sur les systèmes d'exploitation Windows, Apple et Linux. Le format MXF a également été intégré à des équipements vidéo, étant donné qu'un grand nombre de fabricants de tels équipements sont membres des organismes de normalisation qui ont participé à son développement. Toutes les normes relatives au contenant et au format vidéo recommandé sont documentées, et l'utilisation de la norme est libre de droits. Il existe des brevets pour des composants de la norme JPEG 2000, mais l'on a renoncé aux droits pour leur application dans ce format.

Le format MXF reconnaît l'archivage vidéo en tant que composante du flux de travail multimédia auquel il est destiné; les métadonnées appropriées à cette fin se trouvent dans le format du conteneur. Il y a deux composants principaux : les métadonnées du système (ou structurelles), qui décrivent les formats de support internes, leurs relations, etc.; les métadonnées de l'utilisateur (ou descriptives), qui décrivent l'information générée durant la production (y compris la capture de contenu et le montage), ainsi que l'information nécessaire aux étapes relatives à l'utilisateur final et à l'archivage. Parmi les institutions de mémoire examinées, on constate que ces formats de conteneur et de support ont été adoptés aux fins de préservation par BAC, la NARA et l'Université Harvard.

Le format MXF convient à la préservation sans perte des fichiers vidéo. Toutefois, des formats vidéo (lisibles) accessibles seront également requis si ce format est choisi.

Conteneur QuickTime avec un sous-échantillonnage de la chrominance 4:2:2 non compressé

Description : Le format QuickTime, parfois désigné par son extension de fichier MOV, est un format de conteneur propriétaire développé par Apple Computer, Inc. Il s'agit d'une norme de fait de l'industrie qui sert de fondement au format ISO/IEC MPEG-4, lequel est semblable mais non identique. De nombreux appareils d'enregistrement vidéo exportent au format conteneur QuickTime, qui est reconnaissable par les extensions de fichier « .mov » et « .qt ». Bien souvent, ces appareils enregistrent du contenu uniquement sur ce format. Le format QuickTime permet de stocker la vidéo, l'audio multicanal et le texte (pour les sous-titres) dans des pistes distinctes, chacune pouvant être montée individuellement.

Facteurs à prendre en compte : Il s'agit du deuxième des deux formats de préservation vidéo recommandés par le Groupe de travail sur la préservation de l'audiovisuel de la CANPT, qui recommande un enregistrement utilisant un codec 10 bits non compressé v210 d'un débit d'environ 36 Mo/s (consulter les recommandations de la CANPT [format PDF] pour obtenir plus de détails). Puisque l'enregistrement ainsi recommandé exige l'utilisation d'un format vidéo non compressé et, donc, sans perte, le format est trop lourd pour la lecture en temps réel par le matériel et les logiciels types, mais il est idéal pour la préservation de toute l'information contenue dans les images. Cependant, il est admis que, étant donné les contraintes en matière de ressources, il est possible que ce format ne convienne pas à certains établissements du patrimoine. L'utilisation de codecs créant des vidéos sans perte et non compressées est idéale et recommandée, mais les codecs avec perte ou presque sans perte, comme le format JPEG 2000, digital video – National Television Standards Committee (DV-NTSC, en particulier pour la migration de contenu à partir de bandes numériques) et le format Apple ProRes 422 sont acceptables. Toutes les pistes audio doivent être enregistrées dans un format utilisant la modulation par impulsions et codage (PCM). Le format QuickTime est pris en charge par la majorité des produits Apple et Windows. Ce format comprend une fonction de gestion des droits numériques (apparemment destinée à être utilisée avec l'iTunes Store en ligne d'Apple), mais ce n'est pas une préoccupation pour ceux qui préservent du contenu sans qu'une telle fonction ne soit mise à profit.

Conteneur AVI avec codec JPEG 2000 ou DV-NTSC

Description : Le format de conteneur AVI (Audio Video Interleave) a été lancé par Microsoft en 1992 en tant que sous-format du format RIFF (Resource Interchange File Format) (en anglais seulement). La spécification du conteneur décrit un format de fichier qui stocke le contenu en « segments ». Le contenu audiovisuel peut être de tout type, et l'on peut utiliser n'importe quel codec (ou toute combinaison de codecs) pour lire à la fois les pistes audio et vidéo de manière synchrone. Ces fichiers sont reconnaissables par l'extension « .avi ».

Facteurs à prendre en compte : Ce format n'est pas recommandé, mais il est jugé acceptable par le Groupe de travail sur la préservation de l'audiovisuel de la CANPT (qui recommande un format proposant plus d'une option quant à la profondeur de bits et à la fréquence d'échantillonnage; consulter les recommandations de la CANPT [format PDF] pour obtenir plus de détails). Les codecs acceptables sont JPEG 2000 (idéalement sans perte) et DV-NTSC (acceptable pour la migration de contenu à partir de bandes numériques). Quel que soit le codec vidéo choisi, l'audio doit être préservé dans un format utilisant la PCM.

Le conteneur AVI est un format propriétaire développé par Microsoft et IBM; cela dit, l'obtention de licence d'utilisation ne semble pas poser problème et la documentation concernant le format se trouve en ligne. Puisqu'il s'agit d'un format de fichier multimédia natif conçu pour le système d'exploitation Windows, le format AVI est, depuis longtemps, largement utilisé et pris en charge. En raison de l'ubiquité du format, celui-ci est aussi pris en charge par de nombreux logiciels fonctionnant avec les systèmes d'exploitation Mac, Linux et Unix. Les institutions de mémoire qui ont adopté ce format comprennent BAC et la NARA (qui privilégient toutes deux ce format), de même que la LC (qui accepte le conteneur utilisant le codec H.264 ou H.262).

Ce format ne pose aucun problème en ce qui a trait aux MPT. L'en-tête de ce type de fichier contient des métadonnées techniques sur la vidéo et peut également contenir des métadonnées (dans un segment de contenu de fichier RIFF) concernant la provenance du contenu et les droits d'auteur. Les fichiers AVI peuvent contenir d'autres métadonnées intégrées à l'aide de la XMP, mais il ne s'agit pas d'une pratique courante.

Film numérisé

La présente section porte expressément sur la capture numérique et la préservation de films cinématographiques. Contrairement à la numérisation de contenu audio ou vidéo, la numérisation de films nécessite plusieurs fichiers. Un film ainsi numérisé est trop complexe sur le plan informatique pour être lu en temps réel avec du matériel de qualité grand public, et il est généralement stocké sous la forme d'une collection structurée de fichiers (qui ne sont pas dans des conteneurs). Pour obtenir de plus amples renseignements sur le processus de numérisation des films cinématographiques, consulter les recommandations de la CANPT (format PDF), qui ont été produites en collaboration avec le comité directeur de la SNPD.

Format de fichier DPX

Description : Développé en 1994 en tant que format pour le numériseur de films Cineon de Kodak, lancé en 2003 comme norme de la SMPTE (SMPTE 268M-2003) et révisé par la SMPTE à de nombreuses reprises depuis, le format de fichier DPX (Digital Picture Exchange) sert à stocker de l'information détaillée de haute qualité sur les images (en format de trame non compressé) et à prendre en charge les métadonnées pour chaque image d'un film. Le format DPX est utilisé comme format de sortie par l'équipement de numérisation de films, comme format numérique intermédiaire pour la gestion des couleurs pendant la production d'un film cinématographique et comme format numérique pour imprimer un film en vue de sa distribution.

Il existe trois blocs de métadonnées couramment utilisés dans l'en-tête de chaque fichier de ce format. Le premier type de bloc contient des champs relatifs à l'image elle-même, tels le « nombre magique » servant à désigner le format de fichier, la résolution de l'image, l'information sur l'espace colorimétrique, la date et l'heure de création du fichier, le nom du créateur, le nom du projet, l'information sur le droit d'auteur ainsi que d'autres détails techniques. Certains de ces champs sont des champs obligatoires requis par les logiciels uniquement compatibles avec le format DPX.

Le deuxième type de bloc de métadonnées est propre à chaque industrie. Le format DPX a également été influencé par l'industrie du télécinéma (équipement de diffusion de films à la télévision), et c'est pourquoi ce bloc comprend des métadonnées spécifiques à la diffusion (en général, seul le groupe pertinent de ces éléments comprend de l'information). Cela dit, le secteur de la diffusion télévisuelle n'a pas adopté le format DPX dans la même mesure que l'a fait l'industrie de la capture de films.

Le troisième type de bloc est celui des métadonnées facultatives définies par l'utilisateur, dont ni la structure ni la longueur ne sont définies dans la norme de la SMPTE. Néanmoins, le groupe de travail responsable de l'audiovisuel de la Federal Agencies Digital Guidelines Initiative a publié le document Guidelines: Embedding Metadata in DPX Files (en anglais seulement), dans lequel on propose de mettre à profit ce bloc pour documenter, entre autres choses, l'historique du processus de numérisation.

Il y a un quatrième type de bloc, décrit comme un bloc qui comprend les « données d'image », mais il n'est pas bien défini dans la version 2.0 de la norme de la SMPTE. Il se peut qu'il soit mieux défini dans des versions plus récentes de celle-ci.

Conformément aux recommandations de la CANPT (format PDF), les images doivent être stockées dans des fichiers d'image tramée distincts non compressés en résolution 4K avec une profondeur de couleur de 10 bits en RVB pour les films 35 mm, et dans des fichiers d'image en résolution 2K avec une profondeur de couleur de 10 bits en RVB pour les films sur pellicules 89 mm, Super 8 et 16 mm. L'audio doit être stocké à l'aide de la PCM non compressée dans une enveloppe BWAV, avec une profondeur d'échantillonnage de 24 bits et une fréquence d'échantillonnage de 48 kHz. De même, puisque chaque fichier d'image ne contient qu'une seule image, les métadonnées de l'ensemble du film sont souvent stockées dans un autre fichier. La convention d'appellation de chaque fichier d'image est également importante, et elle est généralement sauvegardée au format « nom.n.dpx »; « n » est une valeur numérique à huit chiffres représentant la séquence de l'image dans le film et « .dpx » désigne l'extension du nom du fichier. Tous les fichiers d'image DPX d'un film donné sont habituellement stockés dans un seul répertoire.

D'autres renseignements, comme le fichier BWAV pour l'audio, sont souvent enregistrés séparément. Il est possible de numériser une zone plus large que celle que couvre le cadre original de l'image et d'intégrer du contenu audio, ou d'autres renseignements, comme contenu visuel en dehors de l'image, mais cela n'est pas une pratique courante.

Facteurs à prendre en compte : Il s'agit d'un format lourd si l'on souhaite l'enregistrer sur un disque. En effet, ce format peut prendre jusqu'à 4 To par heure d'enregistrement pour les films de plus grand format. Ce format de fichier est une norme dans l'industrie pour la numérisation, la gestion des couleurs et l'impression de films. Parmi les institutions de mémoire examinées, il a été adopté comme format de préservation par BAC et la NARA.

Les spécifications du format sont entièrement divulguées en tant que norme de la SMPTE, et il n'y a aucun problème connu de licence ou de brevet, pas plus qu'il n'y a de MTP intégrées dans la norme. Bien que l'accès au contenu exige des logiciels propres à l'industrie (et qu'il ne soit pas possible au moyen d'applications destinées aux consommateurs), de multiples applications professionnelles prennent en charge ce format. Le format permet également une vaste autodocumentation grâce à ses nombreux blocs et champs de métadonnées. À l'exception des logiciels nécessaires pour accéder au contenu, le format ne dépend d'aucun facteur externe. Ainsi, il est raisonnable d'utiliser le format DPX pour préserver un film en le numérisant afin de l'archiver. Toutefois, si ce format est utilisé, il faut aussi conserver le film à l'aide de formats accessibles.

Pour obtenir une liste plus exhaustive des formats de préservation qu'ont adoptés les grandes institutions de mémoire, consulter l'Étude de la documentation sur les formats de préservation numérique.

Remerciements

Les auteurs tiennent à remercier les personnes suivantes d'avoir contribué au présent document :

Paul Durand, Musée canadien de l'histoire
Émilie Fortin, Bibliothèque de l'Université Laval

Annexe A : Résumé des formats de préservation adoptés par les institutions de mémoire examinées

Les tableaux suivants résument le contenu de l'Étude de la documentation sur les formats de préservation numérique menée par les auteurs du présent document ainsi que par Paul Durand. Chaque tableau porte sur un type particulier de support numérique ou d'ensemble de formats et comprend les noms de format, les extensions de nom de fichier pour chaque format, le cas échéant, leur identificateur unique PRONOM (un code unique attribué à un format de fichier par le registre PRONOM (en anglais seulement) des Archives nationales du Royaume-Uni) et une colonne pour chaque institution mentionnée, indiquant si l'institution a adopté ou recommandé ce format aux fins de la préservation.

Tous les formats recommandés ou adoptés par deux ou plusieurs des institutions mentionnées sont examinés dans le présent document, et la plupart (à quelques exceptions près) sont recommandés par la SNPD à titre de format de préservation viable.

Formats texte

Tableau 1 : Résumé des formats adoptés par les institutions mentionnées pour les données textuelles formatées et non formatées
Ensemble de formats Extension Identificateur unique PRONOM Bibliothèque et Archives Canada Bibliothèque du Congrès National Archives and Records Administration Archives nationales d'Australie Université Harvard
American Standard Code for Information Interchange (ASCII Text)

.txt

.asc

x-fmt/111

x-fmt/22

x-fmt/283

oui oui oui non non
Unicode .txt

x-fmt/111

x-fmt/22

x-fmt/283

oui oui oui non non
EPUB 3 .epub fmt/483 oui oui non oui non
OpenDocument Text 1.2

.odt

.ott

fmt/136

fmt/290

fmt/291

oui non oui oui non
PDF/A-1 .pdf

fmt/95

fmt/354

oui oui oui oui oui
PDF/A-2 .pdf

fmt/476

fmt/477

fmt/478

oui non oui oui oui
PDF/UA .pdf - non oui non non non
Texte brut (encodage) (UTF-8, UTF-16) Sans objet x-fmt/111 non oui non non non
Word XML .docx fmt/412 non non non non oui
WordPerfect (différentes versions) .wpd

x-fmt/44

x-fmt/203

x-fmt/393

fmt/949

x-fmt/394

fmt/892

non non non non oui
Texte enrichi .rtf

fmt/969

fmt/45

fmt/50

fmt/52

fmt/53

fmt/355

non non non non oui
Word (binaire) .doc

x-fmt/329

fmt/473

fmt/609

non non non non oui

Formats pour image fixe

Tableau 2 : Résumé des formats adoptés par les institutions mentionnées pour les images fixes
Ensemble de formats Extension Identificateur unique PRONOM Bibliothèque et Archives Canada Bibliothèque du Congrès National Archives and Records Administration Archives nationales d'Australie Université Harvard
TIFF (trame)

.tiff

.tif

fmt/353 (et de nombreuses autres versions) oui oui oui non oui
JPEG 2000 (trame) .jp2 xmt/392 oui oui oui non oui
JPEG (trame)

.jpeg

.jpg

fmt/42

fmt/43

fmt/44

oui oui non oui oui
PNG (trame) .png

fmt/11

fmt/12

fmt/13

oui oui oui oui non
GIF (trame) .gif

fmt/3

fmt4

non oui non non oui
PDF (différentes versions, PDF/A de préférence) .pdf - non oui oui oui non
Graphiques vectoriels adaptables (vecteur) .svg

fmt/92

fmt/413

non oui non oui non
Digital Negative (DNG) (trame) .dng

fmt/436

fmt/152

fmt/437

fmt/438

fmt/730

non oui non non non
BMP (trame) .bmp

fmt/114

fmt/115

fmt/116

fmt/117

fmt/118

fmt/119

non oui non non non
Graphiques OpenDocument (trame)

.odg

.otg

fmt/139

fmt/296

fmt/297

non non non oui non
Encapsulated PostScript (*.eps) .eps

fmt/122

fmt/123

fmt/124

non oui non non non
JPEG File Interchange Format .jfif - non oui non oui oui

Formats audio

Tableau 3 : Résumé des formats adoptés par les institutions mentionnées pour les fichiers audio
Ensemble de formats Extension Identificateur unique PRONOM Bibliothèque et Archives Canada Bibliothèque du Congrès National Archives and Records Administration Archives nationales d'Australie Université Harvard Groupe de travail sur la préservation de l'audiovisuel de la Conférence des archivistes national, provinciaux et territoriaux
Broadcast Wave Format .wav Version 1 : fmt/2
Version 2 : fmt/527
oui oui oui non non oui
WAV .wav .wave fmt/6 non oui non non oui non
MPEG-4

.mp4

.m4v

.m4a

.f4v

.f4a

fmt/199 non oui non non oui non
QTA_AAC, QuickTime Audio, codec AAC .aac - non oui non non non non
AAC_ADIF, Advanced Audio Coding (MPEG-2), Audio Data Exchange Format

.m4p

.m4b

- non oui non non non non
QTA_AAC, QuickTime Audio, codec AAC

.m4p

.m4b

- non oui non non non non
WMA_WMA9_PRO, fichier audio Windows Media avec codec professionnel WMA9 .wma - non oui non non non non
Audio Interchange File Format (AIFF)

.aif

.aiff

x-fmt/135 non oui non non non non
MP3 .mp3 fmt/134 non oui non non non non
Free Lossless Audio Codec (FLAC) .flac fmt/279 non non non oui non non

Formats pour vidéo et film

Le tableau suivant résume les formats de fichier d'images en mouvement, y compris les formats de cinéma numérique ainsi que les formats destinés aux utilisateurs finaux et aux consommateurs. Il convient de noter qu'une colonne supplémentaire a été ajoutée pour indiquer les formats de train de bits numériques (le contenu qui est encodé ou décodé par un codec) qui sont recommandés pour un format de fichier donné.

Tableau 4 : Résumé des formats adoptés par les institutions mentionnées pour les fichiers d'images en mouvement
Ensemble de formats Extension Identificateur unique PRONOM Format de train de bits ou codec (s'il y a lieu) Bibliothèque et Archives Canada Bibliothèque du Congrès National Archives and Records Administration Université Harvard Groupe de travail sur la préservation de l'audiovisuel de la Conférence des archivistes national, provinciaux et territoriaux
Digital Cinema Distribution Master (DCDM) Ensemble de fichiers (peut être stocké en format MXF) Sans objet Sans objet : Généralement en format WAV avec images sans perte non oui non non non
Digital Picture Exchange (DPX) .dpx

fmt/193 (1.0)

fmt/541 (2.0)

Sans objet : Séquence d'images tramées fixes non oui non oui non
Tableau 5 : Résumé des formats adoptés par les institutions mentionnées pour les fichiers vidéo
Ensemble de formats Extension Identificateur unique PRONOM Format de train de bits ou codec (s'il y a lieu) Bibliothèque et Archives Canada Bibliothèque du Congrès National Archives and Records Administration Université Harvard Groupe de travail sur la préservation de l'audiovisuel de la Conférence des archivistes national, provinciaux et territoriaux
Audio Video Interleave (AVI) .avi fmt/5

(BAC : 4:2:2 non compressé;

LC : codec MPEG4,

codec MPEG-1;

NARA : 4:2:2 non compressé.)

non oui oui oui non
MPEG-4 .mp4

fmt/596

fmt/199

(LC : codec MPEG4;

NARA : codec MPEG4.)

non non oui oui non
MOV

.mov

.qtm

x-fmt/384

(Harvard : jpeg2000/MPEG-2;

BAC : 4:2:2 non compressé;

LC : codec MPEG4;

NARA : 4:2:2 non compressé.)

non oui oui oui oui
MPEG-2

.mpg

.mpeg

.mp2

x-fmt/386

(LC : codec MPEG2 avec audio AAC;

NARA : codec MPEG2.)

non non oui oui non
WMV

.wmv

.asf

fmt/133 (NARA : VC-1.) non non non oui non
MXF .mxf

fmt/200

fmt/783 à 791

(BAC : JPG2000 sans perte;

Harvard : JPG2000;

NARA : JPEG2000 sans perte.)

non oui non oui oui

Annexe B : Glossaire des termes techniques

avec perte
Expression décrivant la perte d'une certaine quantité d'information en raison de l'exécution d'une action; par exemple, lorsqu'un fichier est compressé afin d'être stocké ou transmis.
bit
Unité d'information la plus élémentaire gérée par un ordinateur (réglée sur 1 ou 0).
codec
Algorithme, exprimé sous forme de logiciel ou de micrologiciel, servant à encoder et à décoder l'audio ou la vidéo; le format de l'information stockée par le codec est souvent désigné par le nom du codec utilisé pour produire le fichier ou y accéder.
compressée
Information numérique stockée ou transmise à l'aide d'un nombre d'octets inférieur à celui qui a été utilisé pour produire ou présenter le fichier.
image tramée
Image stockée en pixels dans un espace rectangulaire, comme un système de coordonnées cartésiennes.
non compressée
Information numérique qui n'a pas été compressée.
octet
Huit bits.
pixel
Le plus petit composant visible d'une image (dans une image tramée en noir et blanc, un pixel est représenté par un seul bit).
profondeur de bits
Nombre de bits attribué à une unité d'information, comme les données sur les couleurs dans une image ou celles sur la fidélité de la forme d'onde dans un fichier audio.
sans perte
Expression décrivant la conservation de l'ensemble de l'information contenue dans un fichier malgré l'exécution d'une action; par exemple, lorsqu'un fichier est compressé afin d'être stocké ou transmis.

Sites Web consultés

Federal Agencies Digital Guidelines Initiative, Guidelines (en anglais seulement)

Stratégie de numérisation du patrimoine documentaire

The Technical Registry PRONOM (en anglais seulement)

Wikipédia (pour les termes suivants : Audio Video Interleave, Broadcast Wave Format, Digital Picture Exchange, JPEG 2000, Material Exchange Format, PDF/A, Portable Network Graphics, QuickTime, TIFF et Comparison of video container formats [en anglais seulement])

Bibliographie

Advanced Media Workflow Association. Structure of an MXF File, s. l., Advanced Media Workflow Association, s. d.

Aldus Developers Desk. TIFF Revision 6.0 (format PDF) (en anglais seulement), Seattle (Washington), Aldus Corporation, 1992.

Archives nationales d'Australie. Long-term File Formats (en anglais seulement), Canberra (Australie), Archives nationales d'Australie, 2019.

Bärfuss, H. Scan to PDF/A: Some Insights (en anglais seulement), PDF Tools AG, 2014.

Bibliothèque du Congrès. Sustainability of Digital Formats: Planning for Library of Congress Collections (en anglais seulement), Washington (D.C.), Bibliothèque du Congrès, s. d.

Bibliothèque et Archives Canada. File Format Guidelines for Preservation and Long-term Access, Version 1.0 (format PDF) (en anglais seulement), Ottawa (Ontario), Registre local de formats numériques de Bibliothèque et Archives Canada, s. d.

Bibliothèque et Archives Canada. Lignes directrices sur les formats de fichier à utiliser pour transférer des ressources documentaires, Ottawa (Ontario), Bibliothèque et Archives Canada, 2015.

Digital Preservation Coalition. Digital Preservation Handbook (en anglais seulement), deuxième édition, Glasgow (Écosse), Digital Preservation Coalition, 2019.

Duce, D. (directeur de publication). Portable Network Graphics (PNG) Specification (en anglais seulement), deuxième édition, s. l., World Wide Web Consortium, 2003.

Groupe de discussion sur la numérisation et la préservation numérique (Canada). Étude de la documentation sur les formats de préservation numérique, Ottawa (Ontario), Réseau canadien d'information sur le patrimoine, 2019.

Groupe de travail sur la préservation de l'audiovisuel de la Conférence des archivistes national, provinciaux et territoriaux et comité directeur de la Stratégie de numérisation du patrimoine documentaire. Recommandations concernant les fichiers de préservation à utiliser pour la numérisation des enregistrements analogiques audio et vidéo et des films cinématographiques (format PDF), s. l., janvier 2018.

Harvard Library, Data Management: File Formats and Naming, Formats (en anglais seulement), Cambridge (Massachusetts), Harvard Library, s. d.

Joint Photographic Experts Group. Workplan & Specs of JPEG 2000 (en anglais seulement), s. l., Joint Photographic Experts Group, s. d.

Microsoft. AVI RIFF File Reference (en anglais seulement), s. l., Microsoft, 2008.

National Archives and Records Administration. « Appendix A: Tables of File Formats » (en anglais seulement), Records Management Regulations, Policy, and Guidance, College Park (Maryland), National Archives and Records Administration, 2017.

Organisation internationale de normalisation. ISO 19005-1:2005, Gestion de documents – Format de fichier des documents électroniques pour une conservation à long terme – Partie 1: Utilisation du PDF 1.4 (PDF/A-1), Genève (Suisse), Organisation internationale de normalisation, 2005.

Rog, J., et C. van Wijk. Evaluating File Formats for Long-term Preservation (format PDF) (en anglais seulement), La Haye (Pays-Bas), Bibliothèque Nationale des Pays-Bas, s. d.

Union Européenne de Radio-Télévision. Specification of the Broadcast Wave Format; A Format for Audio Data Files, Supplement 6 (format PDF) (en anglais seulement), Genève (Suisse), Union Européenne de Radio-Télévision, 2009.

Signaler un problème ou une erreur sur cette page
Veuillez sélectionner toutes les cases qui s'appliquent :

Merci de votre aide!

Vous ne recevrez pas de réponse. Pour toute question, contactez-nous.

Date de modification :