Exigences et pratiques exemplaires de préservation Web

Les technologies d’archivage de contenu Web s’améliorent toujours. Malgré tout, certains contenus Web restent difficiles à enregistrer, à préserver ou à rendre accessibles. Par exemple, il est difficile d’enregistrer du contenu qui s’appuie sur :

Bibliothèque et Archives Canada (BAC) recueille des ressources Web pour les générations de demain, mais aussi pour construire ses propres collections numériques de recherche. Il fait le maximum pour préserver fidèlement le contenu et la fonctionnalité des ressources Web ciblées pour la collecte. Cependant, il ne peut offrir de garantie à cet égard, ni garantir un niveau de service quelconque. Il ne peut non plus acquérir et préserver tous les sites Web.

Sur cette page

Exigences de préservation pour les ressources Web

BAC accepte les suggestions de ressources Web canadiennes à préserver en tant que patrimoine documentaire.

Pour suggérer une ressource Web à préserver, envoyez un courriel à archivesweb-webarchives@bac-lac.gc.ca avec les renseignements suivants :

  1. l’URL de la ressource à préserver
  2. la date prévue pour l’achèvement des dernières révisions de la ressource Web
  3. une mention indiquant si vous êtes le propriétaire du site Web
  4. la date de mise hors service de la ressource Web, si elle est connue

Quoi faire pour que mon site Web soit préservé?

BAC vous recommande de suivre les pratiques exemplaires suivantes lorsque vous concevez votre site Web. Tout non-respect compliquera la préservation de votre site.

Pratiques exemplaires en développement et en architecture Web

Les ressources Web hébergées sur un seul domaine sont généralement plus faciles à préserver. De plus, pour aider Bibliothèque et Archives Canada (BAC) à acquérir et préserver votre site Web, enregistrez vos documents directement sur votre serveur (images, enregistrements sonores, vidéos, feuilles de style, fichiers JavaScript, etc.).

Conservez la même adresse Web ou le même domaine

Vous avez publié une ressource importante sous une adresse donnée? Évitez de modifier celle-ci. Si vous changez l’adresse d’origine (par exemple, de www.mywebsite.com/webarchiving à webarchiving.mywebsite.com), BAC préservera deux ressources distinctes, et elles ne seront pas nécessairement liées dans les Archives Web.

Attention aux technologies interactives, propriétaires, ou qui reposent sur le programme dorsal

Le contenu interactif (comme les bases de données interrogeables et les filtres dynamiques) peut être difficile à enregistrer, et nous ne pouvons garantir qu’il sera fidèlement préservé. Voici quelques exemples pouvant poser problème :

  1. exécuter une action pour accéder à une base de données ou créer des données
  2. passer le curseur de la souris sur un élément
  3. faire un zoom avant ou arrière sur du texte ou une carte

Exclusions dans robots.txt

Il est pratique courante d’interdire ou de ralentir les requêtes excessives de vos ressources Web ou de votre domaine par les outils de recherche Web. Cependant, cela inhibe également les robots Web de BAC, ce qui peut rendre l’acquisition d’une ressource Web impossible ou fastidieuse. Même chose si vous donnez aux robots Web l’instruction d’ignorer le script CSS ou les répertoires JavaScript d’un site Web : cela aura une grande incidence sur la copie de préservation numérique de votre ressource Web.

Pour permettre aux robots Web d’accéder à tous les éléments de votre site :

Évitez les jetons et les identificateurs de session

Évitez d’utiliser des jetons de session, à moins qu’ils ne soient absolument nécessaires. Les jetons et le suivi des sessions (par exemple, www.website.com/t?=123456/…) peuvent empêcher BAC de vérifier qu’il a bien exploré toutes les pages d’un site Web. Cela complique la préservation du site.

Utilisez des hyperliens directs et statiques

Autant que possible, évitez les URL produites automatiquement.

Respectez les normes internationales d’accessibilité et de développement Web

Les robots Web interagissent avec les sites d’une manière semblable à un navigateur. Vous faciliterez donc la préservation de votre site Web en suivant les normes internationales et les pratiques exemplaires en matière de développement Web.

Respectez les normes et les pratiques exemplaires du W3C (en anglais).

Respectez aussi l'initiative sur l’accessibilité du Web du W3C (en anglais), à tout le moins les Règles pour l’accessibilité des contenus Web 2.0 (WCAG) au niveau AAA.

En ce qui concerne les ressources Web du gouvernement du Canada, respectez :

Créez un plan du site et des index

Les robots Web exploitent et acquièrent des copies de sites Web en suivant des URL (hyperliens). Les pages de votre site qui n’ont pas d’hyperliens vers d’autres pages sont appelées « pages orphelines ». Celles-ci sont invisibles pour les robots Web.

Les bases de données et autres technologies dynamiques échappent aussi aux robots Web, en partie parce que leur contenu n’est pas découvrable ou accessible par hyperlien direct. (Le contenu réside en effet dans la base de données; on ne peut y avoir accès que par des URL dynamiques.)

En créant des index pour vos bases de données, vous permettez à BAC d’en extraire le contenu. De même, quand vous créez un plan de votre site Web, ou un index des éléments importants, vous ne suivez pas seulement une pratique exemplaire : vous vous assurez que les robots Web peuvent suivre, détecter et acquérir toutes les composantes de votre site (même si le reste du contenu ne suit pas ces lignes directrices!).

Ajoutez des métadonnées et définissez l’encodage des caractères

Le Programme de préservation du Web et des médias sociaux s’appuie sur les métadonnées de l’en-tête et sur les métadonnées intégrées aux sites Web, comme le titre et l’encodage des caractères. En vous assurant que les métadonnées figurent dans les en-têtes de vos pages, vous permettez à BAC d’automatiser l’indexation adéquate et la conservation de votre site, avec le nom et les détails corrects.

Pour assurer la préservation numérique et l’émulation fidèle de votre ressource Web dans les Archives Web du gouvernement du Canada :

Le champ Content-Type de l’en-tête HTTP doit correctement indiquer l’encodage du jeu de caractères pour que la copie archivée puisse être enregistrée et interprétée correctement (dans l’exemple ci-dessus, « UTF-8 »). La balise méta Content-Type dans le code source d’une page doit correspondre à la série de caractères figurant dans l’en-tête HTTP.

Utilisez des fournisseurs de plateformes et des systèmes de gestion propices à l’archivage

Utilisez autant que possible des cadres de développement Open Source plutôt que des « créateurs de sites Web » propriétaires et des systèmes de gestion de contenu (comme Wix ou Squarespace). Les robots Web ont de la difficulté à explorer et à enregistrer les données des systèmes exclusifs.

Autres ressources

Bibliothèque du Congrès : Recommended Formats Statement for websites (en anglais)
Archives Web portugaises : Recommendations for authors to enable web archiving (en anglais)

Détails de la page

2025-07-30