Description générale du processus#
Composition de la chaîne de traitements#
La chaîne de traitements constituant la base BQSS s’effectue en deux temps :
pour chaque domaine – i.e. FINESS, SAE, IQSS, e-Satis, Certification –, un pipeline produit les données raffinées correspondantes
les données générées dans la précédente phase sont agrégées pour constituer le domaine BQSS.
Ce choix permet de paralléliser certains développements et de faire évoluer des différents domaines de données d’origine indépendamment les uns des autres. Pour que ces avantages demeurent, il a également été fait le choix de limiter au maximum les intéractions entre domaines de données avant leur agrégation finale.
La plupart des domaines de données sont produits selon un processus similaire en 3 temps :
acquisition des données en Open Data grâce aux URLs répertoriées par domaine dans le dossier
resources
(voir section Architecture du répertoire)traitement et agrégation des données (notamment en un fichier clé-valeur et un fichier de metadonnées les documentant)
validation des données via le framework Frictionless et le standard Table Schema.
Il est à noter que la 3e phase de validation n’est qu’optionnelle et est désactivée par défaut dans la CLI.
Schéma de la chaîne de traitements#
Ci-dessous un schéma présente macroscopiquement la chaîne de traitements générant la base BQSS : on y retrouve les différents domaines de données et leur agrégation finale.