[Paroles d'experts] Mettre en qualité des données en volume : un défi d’hier, d’aujourd’hui et de demain ?

13/02/2024

Les enjeux techniques sont aujourd’hui très importants et les DSI, mécaniquement, sont sous pression.
La capacité d’exploitation des données, toutes les données, longtemps stockées dans des bases de données froides, fait aujourd’hui la différence et représente un enjeu de taille.

Ce mois-ci, nous avons eu le plaisir d’échanger avec Thomas Petit, Directeur des Systèmes d’Information et membre de l’Association des DSI & CDO et de l’Agora des DSI/ CDO.

Invenis – En ce début d’année 2024, quel est aujourd’hui d’après vous le plus gros challenge des DSI en termes d’exploitation de la donnée ? Et quel sera le plus gros challenge de demain ?

Le premier enjeu vise à savoir traiter le volume considérable de données disponibles. L’explosion de l’usage du Cloud depuis dix ans a rendu possible le stockage de données, mais leur exploitation reste toujours un défi de taille pour les DSI.

Aujourd’hui, on est capable de stocker des données, pas forcément structurées, mais on n’arrive pas encore à rendre cohérent ce stockage de données pour en tirer des informations.

Depuis quelques années, nous produisons et stockons des volumes de données considérables. Par exemple, nous devrions produire l’année prochaine 180 zettaoctets de données ! C’est colossal !

Aujourd’hui ces données ne sont peu ou pas traitées, même par des acteurs dont la maturité Data est avancée. Celles qui le font, analysent une partie des données et le font de façon « mono-canal » et sur des données particulièrement normées.

Pourtant, la variété des données stockées a aussi explosé et aujourd’hui, des informations précieuses se trouvent dans d’autres données (e-mails, appels téléphoniques, réseaux sociaux…). La richesse de ces données se déploiera lorsque l’on sera vraiment capable de croiser ces différents types de données. Ce chantier de traiter, croiser des données de tout volume, de toute nature est le premier grand chantier des DSI.

Et dans les faits, c’est effectivement extrêmement difficile !

Le traitement et l’exploitation des données ne sont pas le cœur de métier de la plupart des entreprises. Pour ces entreprises-là, externaliser cette compétence semble difficile tant l’usage de la donnée est lié à la connaissance métier de chaque acteur. D’où l’émergence depuis quelques années du rôle de CDO, le Chief Data Officer, dont le rôle est de recenser (car elles peuvent être dans des bases différentes, sous des formats différents, parfois les équipes n’en ont pas connaissance !) catégoriser, structurer les données disponibles de l’entreprise. Le CDO va pouvoir cartographier ces données pour coordonner les actions et visualiser l’écosystème de données.

Ensuite, il faudra qu’il travaille avec les équipes métiers et IT pour voir comment transformer ces informations pour en en faire quelque chose d’intéressant, c’est-à-dire, comment tirer de la valeur de ces données.

Je pense donc que l’enjeu des cinq prochaines années ne sera pas une révolution mais un démarrage : les outils sont là, l’Intelligence Artificielle est là mais il faudra exploiter ses données ou prendre le risque de disparaitre.

Ceux qui ont un train d’avance sur ces sujets-là pourront proposer des services dont d’autres n’ont même pas encore conscience. Pour cela, il faudra également réussir l’industrialisation de ces projets Data et être capable de gérer du temps réel.

Imaginons un monde dans lequel on peut faire de la recommandation hyper-contextualisée en couplant toutes sortes de données : données de ventes, données comportementales, données en Open Data type météo, données socio-économiques… À la fin, on pourra définir l’ensemble des critères qui poussent à l’achat à un instant T, être très pertinents en termes de messages et d’offres et maximiser ses ventes.

Cela peut faire un peu peur, mais c’est aussi un gage de compréhension des besoins des consommateurs. Ceux qui prendront ce virage pourront se différencier de façon extrêmement forte et c’est à mon sens fondamental.

Invenis – Selon Gartner, 25% des données critiques exploitées par les entreprises sont erronées, faute de Data Quality.

Quelles actions concrètes menez-vous en tant que DSI pour surpasser ce problème de Data Quality ?

Pourquoi est-ce si difficile pour les organisations de mettre en qualité leurs données ?

Nous l’avons vu précédemment : la quantité des données explose.

Et c’est un problème de gérer ce volume et de le gérer en temps réel.
Aujourd’hui, on empile des données dans des bases de données, sans les trier, les filtrer, les préparer au fur et à mesure. Et une fois que nous sommes face à ces milliards de données, il est difficile de savoir par où commencer et comment mettre en qualité ces données.
Parfois même, il est impossible de les mettre en qualité.

Par exemple, si le problème de qualité est lié à la façon dont sont collectées les données, c’est quasiment impossible de retraiter ces informations. Prenons l’exemple de données qui seraient collectées par des humains. S’il manque des informations, comment retrouver l’information vérifiée, 2 ans après sa collecte ? Si la donnée a été mal normée, comment la normaliser après autant de temps ?

En parallèle, toutes les données qu’on a collectées il y a 10 ans ne sont pas forcément utiles aujourd’hui et on ne peut pas toujours reconstituer de la donnée créée il y a quelques années.

Pour mettre en qualité des données collectées et stockées il y a de cela des années, le chantier est colossal… Et souvent, les organisations ne savent pas comment s’y prendre.

En revanche, on peut préparer l’avenir et le temps présent en proposant des aides à la saisie, ou en travaillant avec de l’Intelligence Artificielle pour corriger les données au moment où elles sont saisies. La préparation des données en temps réel, au moment de la collecte permettrait de de mieux qualifier les données et lutter contre ce problème de Data Quality à la racine.

Mais même l’IA n’est pas infaillible aujourd’hui !

Il faut donc cadrer au maximum les informations dès lors qu’elles rentrent dans les bases de données. Les capteurs d’IoT (Internet of Things) le font très bien par exemple : les données sont formatées et qualifiées en amont de manière très fines en vue de leur utilisation future.

Une des solutions est donc normaliser cette collecte, et encore plus lorsqu’elle implique une intervention Homme-Machine.

L’industrialisation des projets Data fait encore figure d’exception dans les organisations. Pourquoi n’arrive-t-on pas encore à industrialiser les projets ? Est-ce un problème et comment y remédier ?

Pour bien comprendre de quoi il s’agit, je vous propose qu’on se pose cette question : que signifie « industrialiser » un projet Data ?

Si l’on prend l’exemple de la production de voitures chez Ford, il s’est agi de découper l’ensemble des tâches en opérations unitaires facilement réplicables.
La notion de réplicabilité est fondamentale quand on parle d’industrialisation.

Pour industrialiser, il faut être capable de répliquer, de recommencer les opérations, sans changer à chaque fois le moule en entrée et en sortie.

Pour l’exploitation de la Data, c’est pareil. Pour industrialiser un projet Data, il faut que le moule d’entrée soit le plus homogène possible, de même pour le moule de sortie.

Et c’est là que les problèmes se posent.

Le volume et la diversité des données rendent très compliquée l’industrialisation de la récupération de toutes ces informations. Dans des structures de taille moyenne, on peut avoir parfois jusqu’à 20 Systèmes d’Informations, chacun apportant des types de données différents (CRM, comptabilité, logistique…), tous d’éditeurs différents, exploités par des gens différents, collectées différemment.

Parfois, il faudra recréer des systèmes d’information et ce sont des projets lourds.

On peut bien sûr externaliser la production d’un projet et d’un écosystème Data, mais ce sont des projets longs et chers, tant en termes de ressources humaines que de ressources techniques (et le cloud, ça coûte cher !).

Si ce n’est pas le fondement de l’entreprise, c’est difficile et du coup, les projets ne s’industrialisent pas.

Le no-code est en pleine expansion dans les organisations et certaines études promettent que les applications no-code vont progressivement équiper de nombreuses organisations. Quels sont les avantages et les limites de s’équiper de solutions no-code d’après vous ?

Le no-code, en termes de traitement de données, a cet avantage d’accélérer l’accès à certaines analyses. Il permet aussi à des profils non experts de la donnée, comme les métiers, de s’emparer des sujets de la donnée, d’agencer leurs données pour produire des résultats très rapides. C’est donc un facteur de démocratisation de la donnée au niveau de l’utilisateur final et permet de gérer, pour les équipes Data comme métiers, le goulet d’étranglement des besoins en matière d’exploitation de la donnée.

Mais il faut que l’accès au no-code soit cadré, notamment pour éviter les risques de Shadow IT et donc mise en danger des données. Il peut être tentant pour aller plus vite, de contourner les règles d’achat IT et d’utiliser des outils accessibles en ligne.

Ces outils librement accessibles peuvent envoyer les données sur le Cloud, à des endroits qui ne sont pas maitrisés. En matière de cyber sécurité et de protection des données sensibles de l’organisation, cela peut vraiment être problématique.

Et en même temps, le Shadow IT comprend un paradoxe : le risque qu’il engendre va parfois permettre de démontrer un ROI ! Par exemple, une petite expérience réalisée dans un coin qui va fonctionner et permettre une prise de conscience collective, preuve à l’appui…

Donc le no-code est vraiment pertinent, mais dans le cadre de l’exploitation de la donnée, il faut vraiment veiller à limiter le Shadow IT !

Les enjeux de souveraineté numérique semblent aujourd’hui importants.

En tant que professionnel de l’IT, choisir des sous-traitants Français souverains est-il un facteur important selon vous ? Pourquoi ?

À titre personnel, je pense que choisir des sous-traitants Français est important à deux niveaux :

D’abord, pour l’image de marque de mon entreprise. Choisir le « Made in France » peut être un argument marketing de mon entreprise, à mettre en avant. Par exemple, le « Made in France » va rassurer les clients quand on parle de traitement de données personnelles même si je trouve personnellement ce côté chauvin un peu désuet à l’heure de l’Europe.

Ensuite, dans certains cas, l’aspect règlementaire prime et le choix est limité. Par exemple, dans le cadre du RGPD, on est contraint de respecter par exemple des règles d’hébergement, ce qui limite le choix et pousse à se tourner vers des hébergeurs souverains.

En France, nous avons un bel écosystème Tech et je pense que c’est important de les consulter, à la fois pour faire tourner l’économie nationale mais aussi pour financer l’innovation.

Notre « French Tech » innove, mais les entreprises sont souvent petites et la question qui se pose alors est : « Vais-je être capable de travailler de façon industrielle avec cet acteur ? ». La limite, c’est la pérennité des projets et malheureusement, c’est souvent plus rassurant de travailler avec de gros acteurs plutôt qu’avec de plus petits.

Après, par expérience, dans la Tech de niche, on peut avoir des bonnes surprises, notamment car les petits acteurs, plus agiles, vont pouvoir accélérer le « Time-to-Market ».

Enfin, faire appel à des prestataires souverains permet de maintenir une excellence française et aujourd’hui, il est important de se dire qu’on peut être en autarcie sur certains sujets sans être dépendants de certains acteurs étrangers qui vont nous imposer des conditions commerciales ou qui vont avoir accès à des informations critiques. Mais il faut faire attention de ne pas choisir français juste parce que c’est français. Il faut à mon sens, toujours comparer à qualité équivalente.

Donc pour répondre à votre question : souveraineté numérique, européenne, oui, mais la performance et la qualité des services avant tout !

Thomas Petit est DSI avec plus de 25 ans d’expérience dans des organisations diverses (au sein de domaines IT aussi variés que la banque (BNP Paribas, Crédit Agricole), l’industrie (Saverglass), la formation (Demos, Aston Groupe SQLi), la santé (CHU d’Amiens, CH du Mans, mentorat européen EIT Health de start-up en santé) ou le service (Altran, ManpowerGroup Talent Solutions).

Depuis 25 ans, il veille à créer du dialogue entre les équipes métiers et les équipes techniques, en vue de maximiser l’efficacité de la fonction IT et de positionner la DSI au cœur des enjeux métiers de l’entreprise. Pour sortir de la « technique pour la technique », et devenir un véritable acteur de la croissance de l’activité.

Il est également membre de l’Association Nationale des DSI & CDO ainsi que de l’Agora des DSI/CDO pour des échanges constructifs entre pairs.

Images : Photo de Diego PH sur Unsplash, de Claudio Schwarz sur Unsplash

[Paroles d’experts] Mettre en qualité des données en volume : un défi d’hier, d’aujourd’hui et de demain ?