L'archivage pérenne des données, c'est quoi?

Archive pérenne

La définition de l’archivage à l’Ifremer est la suivante :

  • Conservation sur le long terme de données sélectionnées par les utilisateurs. S'assurer qu'un fichier est toujours présent sur le support de stockage et qu'il conserve son intégrité.
  • Indexation permettant de les retrouver facilement (ouverture et lecture du fichier).
  • Intelligibilité des données : faire en sorte qu'elle restent compréhensibles par ses utilisateurs potentiels à travers le temps.
  • Stockage sur bandes magnétiques.

La sécurisation du système d’archivage :

  • Contre la perte d’une bande, celle-ci est écrite en double.
  • Contre un désastre majeur (incendie) les librairies sont dans deux bâtiments différents de l’Ifremer.
  • Le serveur d’archivage est sauvegardé dans un autre bâtiment.

Comment se traduit la pérennité d’un tel système d’archivage ?

  • Par sa capacité à suivre les évolutions technologiques. En effet, les risques qui menacent un fichier sont l'obsolescence matérielle, logicielle, du format de fichier et la perte de signification de son contenu.
  • Par l’extraction facile des données et métadonnées lors d’un changement de logiciel.

Qui permet cet archivage ?

Le service RIC Ingénierie des Systèmes d'Information de l'unité de recherche "Informatique et données marines" est chargé de développer et de gérer les infrastructures informatiques communes de l'Ifremer.

caparmor

De gros moyens techniques

L’archivage pérenne des données nécessite, comme on peut s’en douter, de gros moyens techniques.

Pour conserver les archives sur du très long terme, l’Ifremer dispose de deux types de technologies : Le HSM (Hierarchical Storage Management) et l’Archivage Object Archive (OANET).

Comment est géré ce système au quotidien ?

Au quotidien, des contrôles automatiques et des alertes sont fournis aux opérateurs pour vérifier ou informer d’éventuels problèmes de sauvegarde. Avant d’aller sur le HSM, les données sont d’abord stockées sur un disque intermédiaire (cash disque) qui lui-même est sauvegardé tous les jours. Cette procédure de sauvegarde du cash disque, qui a la connaissance de tous les fichiers qui sont sur le HSM, permet de vérifier que pour chaque fichier, les informations essentielles sont bien présentes et sauvegardées sans aucune erreur (tel fichier possède tel numéro et est sauvegardé sur telle bande).

Ces vérifications quotidiennes permettent de vérifier la cohérence du système et qu’il fonctionne correctement. Si l’opérateur reçoit une alerte, il consulte le problème et le résout dans les meilleurs délais.

Une fois par semaine les opérateurs vérifient qu’il y a assez de bandes en réserve et que le robot n’arrive pas à saturation (vérification de la taille du remplissage du robot).

Évolutions technologiques

Se projeter dans le temps, anticiper les augmentations de volumes que certaines données peuvent apporter et faire en sorte que le robot n’arrive jamais à saturation est aussi un travail majeur pour  les équipes informatiques en charge de l’archivage pérenne des données.

Régulièrement, tous les 4 ans environ, il faut changer de technologie. L’enjeu est de taille puisqu’il consiste à archiver sur du nouveau matériel, tout ce qui est déjà archivé en ne perdant rien. L’historique doit être récupéré et réécrit en totalité dans le nouveau système d’archivage.

Ce changement de technologie oblige le département IMN et le service RIC à anticiper les budgets liés à ces changements, ainsi que les achats de ces nouvelles technologies et leur mise en place.

Il faut savoir que le simple fait d’avoir à changer de technologie oblige la relecture totale de toutes les bandes déjà archivées.

Un système d’archivage pérenne c’est donc aussi un système qui permet de relire les médias anciens à condition que ceux-ci aient bien vécus dans le temps (contrôler le taux d’hygrométrie des endroits de stockage des médias, pas de poussière, pas de détérioration).  Tous les 4 ans ce n’est pas si long pour une bande magnétique et cela permet d’être sûr de pouvoir relire les médias sans difficulté.

Pour conclure, disons que données doivent avoir une durée de vie plus grande que celles des technologies et des logiciels qui gèrent l’archivage.