Les données de la banque de physique et chimie marine

Formater les fichiers consiste à générer des fichiers textes ASCII au format MEDATLAS ou ODV (Ocean Data View) qui sont les formats définis pour le projet SeaDataNet. Le projet SeaDataNet a pour objectif de développer une infrastructure Pan-Européenne d’archivage et de gestion pour normaliser, pérenniser et faciliter l’accès intégré à ces données via un portail unique.

L'outil NEMO permet ce formatage. Mais avant de pouvoir utiliser NEMO, une vérification approfondie de l'uniformité des fichiers en entrée est une étape obligatoire.

Étape 1 du formatage  : l'uniformisation des fichiers

Si les fichiers d'entrée ne sont pas uniformes, le formatage des données par le logiciel NEMO ne pourra pas se faire. Nous devons lui injecter des données dont le format est irréprochable.

Formats Fichiers

Les données fournies

Les fournisseurs de données nous envoient des fichiers de données dans des formats hétérogènes (dat, cnv, txt, xls, rtf, etc.).

Constat

A l’ouverture des fichiers, nous sommes parfois surpris par le manque d’homogénéité de leur contenu, par leur complexité, par le manque de rigueur dans la création des fichiers et par le manque d’informations associées aux données. Dans certains cas, il faudra plusieurs heures à plusieurs jours pour rendre les fichiers homogènes et qui répondront aux critères de rigueur que nous nous imposons.

A l’inverse, quand les fichiers sont homogènes (ou quasi homogènes), nous gagnons un temps précieux.

Uniformisation des fichiers

La première grande étape du contrôle qualité consiste à uniformiser les fichiers en entrée. Ce travail peut s’avérer fastidieux car il dépend de l’état dans lequel les fichiers sont fournis et de leur nombre.

Dans le jeu de fichiers en entrée l’information concernant les stations et les mesures doivent impérativement :

  • Être toujours à la même position : même ligne dans le fichier et même position sur la ligne ou même colonne (si séparateur)
  • Être toujours au même format 
    • Par exemple : pour toutes les stations la latitude est
      • Sur la 3ème ligne de l’en-tête station
      • Du caractère 21 au caractère 27
      • format +DD.ddd

Quelques cas qui complexifient notre travail :

  • Quand les entêtes de stations ne sont pas dans les fichiers de données
    • Nous devrons alors associer chaque entête station aux données
  • Quand on ne sait pas quels paramètres sont présents dans les fichiers
    • L'archivage ne peut en aucune façon se faire
  • Quand nous avons les paramètres mais pas leurs unités
    • Difficile de choisir le bon paramètre
  • Quand les métadonnées (dates, heures, positions, etc.) sont manquantes
    • Une station sans date ou sans position ne peut pas être archivée.
  • Quand les métadonnées ou les données n’ont pas le même format pour toutes les stations.
    • Une uniformisation manuelle, par programme ou sous Excel est indispensable.
  • Quand le nombre de décimales sur une colonne ou à une même position n'est pas identique
    • Il faudra uniformiser le nombre des décimales pour que toutes les données soient alignées.
  • Quand les données ne sont pas toujours au même endroit dans le ou les fichiers.
    • Reconstruire le ou les fichiers est parfois nécessaire
  • Quand nous ne savons pas si les heures sont en TU (Temps Universel) ou pas.
    • Nous devons savoir quel décalage horaire est à prévoir dans NEMO

Ce travail d’homogénéisation demande beaucoup de rigueur et parfois beaucoup de temps.

Quand on est sûr d'avoir des fichiers uniformes, on peut alors injecter les fichiers dans le logiciel NEMO.

Etape 2 du formatage : le logiciel NEMO

Introduction

NEMO est un outil maison de formatage de fichiers ASCII. Il est utilisé pour générer, à partir de fichiers ASCII uniformes des profils verticaux (Mesures en un point fixe de la surface vers le fond de la mer, paramètre de référence : Pression ou profondeur), des séries temporelles (Mesures en un point fixe et à une profondeur donnée pendant une période de temps, paramètre de référence : date, heure) et des trajectoires (Mesures le long de la route du navire, paramètres de référence : latitude et longitude), des fichiers au format ODV et/ou MEDATLAS.

Les fichiers ASCII peuvent être :

  • Un fichier par station pour les profils verticaux et les séries temporelles
  • Un fichier pour une campagne (ou un mouillage) pour les profils verticaux, les séries temporelles et les trajectoires

NEMO

Principes de NEMO

NEMO doit être capable de lire le plus grand nombre possible de formats ASCII pour les traduire aux formats MEDATLAS et/ou ODV. Il ne prend pas en entrée des fichiers de type Excel, Word, Open Office. Seuls les fichiers texte peuvent être pris en compte.

Les utilisateurs de NEMO doivent décrire les fichiers d’entrée de façon à ce que NEMO puisse retrouver l’information nécessaire dans ces formats.

Le format des métadonnées et des données ne change pas d’une station à l’autre. La description doit être totalement homogène.

Utiliser NEMO

Plusieurs étapes sont obligatoires pour convertir des fichiers d’entrée. Il faut décrire :

  • le type de fichier,
  • la campagne à la mer à laquelle sont rattachées les données
  • les informations sur la station
  • les paramètres mesurés

et surtout à quel endroit précis les lire dans le fichier et dans quel format.

Description des fichiers en entrée

L’utilisateur doit pouvoir répondre aux questions suivantes :

  • Où sont les fichiers d’entrée à lire ?
  • Sont-ils liés à une campagne ?
  • Y a–t-il un seul fichier pour une campagne ou un fichier pour chaque station ?
  • S’agit-il d’une collection de fichiers groupés par campagne ou pas ?
  • Y a-t-il des séparateurs de données (tabulations, points virgule, virgules, blancs) ?
  • S’agit-il de profils verticaux, de séries temporelles ?
  • En quel format les traduire ?
Description des stations

Quand l’utilisateur décrit la station, il décrit la position et le format du champ où se trouvent la date, l’heure, les latitude et longitude, la profondeur de la station.

Description des données

Même procédé que pour les stations. L’utilisateur donne la position du paramètre à lire, la valeur par défaut, le format de sortie pour chaque paramètre.

Tous les codes paramètres dont accessibles par une liste des paramètres en fonction de leur l’unité.

Pour vérifier que les paramètres ont bien été décrits, les valeurs lues dans le fichier sont affichées au format de sortie souhaité par l’utilisateur, dans une colonne test.

Conversion des fichiers

Quand le descriptif a été réalisé, une conversion des fichiers est alors possible au format MEDATLAS ou ODV.