La préparation des données constitue le socle de traitements fiables et robustes, d’actions performantes et favorise la mise en œuvre d’une stratégie data orientée résultats. 

Selon la Harvard Business Review*, un projet data basé sur des données non préparées, engendre un coût 100 fois supérieur à celui effectué sur des données propres. 

Après avoir revu ensemble les 3 étapes indispensables de la préparation de données, découvrez dans cet article les critères qui définissent une donnée de qualité. 

1. La Data Quality au cœur de l’exploitation des données et de l’IA 

Mes données sont de mauvaise qualité. Quelles sont les conséquences ? 

La préparation des données constitue un élément clé de la Data Governance. C’est aussi un des challenges les plus importants des équipes data. D’après une étude menée par Gartner*, les bases de données des plus grandes entreprises seraient constituées de plus de 25% de données erronées. Or, pour vous délivrer les résultats les plus précis possibles, vous avez besoin de données préparées. 

Pour comprendre l’impact réel de la qualité des données sur vos projets data, prenons un exemple d’application de l’Intelligence Artificielle. L’utilisation des algorithmes de Machine Learning permet notamment de prédire et de détecter des comportements anormaux.

Cela est utile dans de nombreux secteurs d’activité et pour de nombreuses équipes métiers : la maintenance prédictive dans l’industrie, la détection de comportement frauduleux dans le secteur bancaire et pour les administrations publiques ou encore dans la relation client des équipes marketing. 

Grâce à ces algorithmes, les industriels peuvent finement anticiper les pannes de machines et le besoin en maintenance.

Pour prédire de tels comportements, les algorithmes de Machine Learning vont se baser sur de multiples critères. Pour cela, la data doit être propre et fiable. Par exemple, si l’un des critères sur l’heure et que le format est différent ou mal renseigné, il sera impossible de détecter la panne d’une machine. 

Étapes Data Prepration

La Data Quality est un cercle vertueux pour les entreprises : des données fiables délivrent de meilleurs résultats. 

2. Culture Data : un facteur de réussite de la mise en qualité des données

Vous l’aurez compris, sans données fiables, les traitements de données ne délivreront pas de résultats précis et donc aucune valeur aux équipes métiers. D’ailleurs, 82% des CDO affirment que la mise en qualité des données est un obstacle à leur démarche data. 

Or, la mise en qualité des données intervient à différentes étapes :

  • La collecte de données 
  • La préparation des données

La bonne collecte des données est une étape majeure pour obtenir des données de qualité. Au sein du processus de collecte, certaines informations sont parfois renseignées par des humains – impliquant un risque d’erreur plus important. 

Equipe Data

Dans ce cas, vous devrez vous assurer de plusieurs dimensions fondamentales à la bonne collecte par des humains : 

  • Les personnes qui collectent la donnée disposent-elles des outils nécessaires pour le faire ? 
  • Les champs sont-ils remplis de manière manuscrite ? 
  • Les données remplies par les humains sont-elles complètes ?

Une fois que vous aurez évalué la collecte manuelle, regardez quelles sont les dimensions manquantes et comment vous pouvez les améliorer. Par exemple : 

  • Assurez-vous de la disponibilité des outils nécessaires dans la collecte manuelle
  • Mettez en place des questions fermées avec des coches à remplir pour faciliter le renseignement des informations
  • Ajoutez une obligation de remplir certains champs indispensables

Pour améliorer la collecte des données par des humains, vous devrez passer par une phase d’acculturation à la data. Cela permettra aux équipes métier de se sentir davantage impliquées et de prendre conscience de l’intérêt de l’analyse des données. 

La culture de la donnée aura un impact positif pour l’ensemble de l’entreprise : les équipes data collaboreront mieux et la collecte de données sera améliorée. 

Culture data Tingari

« Le besoin d’acculturation à la data a vite été identifié. Il faut donner du sens à la donnée en interne pour que tous puissent comprendre son ambition. Une entreprise qui se développe, c’est aussi au profit des collaborateurs » 

Isabelle Brochu, Directrice de l’Innovation, Tingari

Retrouvez le témoignage de Tingari sur l’acculturation à la donnée de ses équipes. 

La bonne collecte des données est donc un préalable indispensable à la Data Preparation qui consistera ensuite à : 

  1. Agréger
  2. Inspecter
  3. Nettoyer
  4. Harmoniser
  5. Et enrichir les données

C’est grâce à ces différentes étapes que vous aurez à disposition des données de qualité. 

3. Les indicateurs-clés pour mesurer la qualité de vos données

Après avoir amélioré la façon dont la donnée est collectée, il faut vous assurer que celle-ci est de bonne qualité. 

Pour cela, il existe 4 indicateurs fondamentaux qui vous permettront de reconnaitre des données de mauvaise qualité : 

  • Conforme :  Le premier critère pour évaluer la qualité d’une donnée est la conformité. Plus précisément, assurez-vous que vos données respectent les règles, les contraintes définies et la législation en vigueur comme le RGPD.
  • Complète : Ensuite vérifiez la complétude de vos données. Toutes les informations sont-elles renseignées ? Faut-il ajouter de nouveaux champs pour compléter les informations ? 
  • Correcte : Une donnée peut être complétée d’informations fausses, inexactes ou bien de fautes d’orthographe…  Il est nécessaire de vérifier que les données saisies sont bien correctes : 
  • Fraîche : La question de la mise à jour d’une donnée est essentielle. Un traitement ne pourra pas être valable sur des données trop anciennes. Par exemple, des adresses postales utilisées pour de la connaissance client alors que certains ont déménagé. Selon le secteur d’activité ou l’équipe métier bénéficiaire du traitement, la mise à jour des données pourra avoir lieu tous les jours, toutes les heures et même toutes les minutes. 

Pour améliorer la qualité de vos données, vous devrez donc vous conformer à ces indicateurs. 

Plus globalement, pour tirer davantage de ROI de vos données, la Data Quality est un critère important dans le Data Management de l’entreprise qu’il faudra inscrire dans votre roadmap data 2022. 

Vous souhaitez obtenir un plan d’action clé-en-main pour tirer optimiser le temps de vos équipes data ? 

Découvrez le guide pratique  » Quelle feuille de route pour vos données en 2022 ? « . 

Guide Feuille de route data 2022

Sources : 

https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards

https://www.gartner.com/en/documents/3988016

Politique de confidentialité (RGPD)Mentions légales – Invenis 2023 – Tout droits réservés – Site web par BALTAZARE