Démarche data centric : pourquoi remettre les données au cœur de la stratégie digitale comporte autant d'avantages ?
publié le 13/12/2019
actus &
publications
Sous l’appellation « data centric » se cache une approche qui replace les données au cœur de l’entreprise et nécessite de les considérer comme un actif à part entière. Les données et leurs cycles deviennent alors les éléments clés de l’organisation IT, et prévalent dans les orientations prises par la DSI. Les gains espérés : modularité, scalabilité, et simplification de l’architecture du millefeuille applicatif.
Une architecture data-centric se constitue d’un noyau permanent et primaire : les données. Quand les applications et les services d’une entreprise sont éphémères et vivent aussi longtemps qu’ils sont utiles, la data au contraire, demeure. Une approche data-centric nécessite une vision unifiée et intégrée des données, et non plus une seule base de données unique pour toute l’entreprise. Concrètement, une entreprise peut modéliser ses données pour un cas d’utilisation spécifique, mais toujours de manière centralisée, avec des données et des processus régis pour garantir l’exactitude, l’intégrité et l’actualité desdites données.
Une approche axée sur la data présente alors de nombreux avantages : elle permet en effet de réduire la mauvaise compréhension des données, d’avoir une carte simplifiée des systèmes et des applications disponibles, d’éliminer les silos et surtout, de faire en sorte qu’au regard des réglementations (le RGPD par exemple) et des usages, le cycle de vie soit totalement maîtrisé.
L’importance du traitement des données
On répète depuis des années que la data est le nouvel or noir. Ce qu’on dit moins, c’est que cette data ne vaut rien si elle n’est pas exploitable pour remplir un objectif. Or, ce qui permet un usage business des données, c’est justement l’évolution des moyens pour les traiter. Il y a quelques années encore, les DSI n’avaient pas à leur disposition des outils analytiques ou d’intelligence artificielle qui permettaient ces nouveaux usages, tout comme les combinaisons de nouveaux logiciels et d’infrastructures qui créent à leur tour des usages différents tous les jours.
Aujourd’hui, on estime que 90% des données n’ont pas plus de 2 ans. Des données souvent générées par des machines (IoT -internet of things-, par exemple), des vidéos, du son, des textes non structurés que l’on peut traiter de manière toujours plus efficace grâce aux solutions d’IA et à la capacité qui semble sans limite des infrastructures.
Auparavant gérée par les services généraux, puis par la DSI, puis par le data center management, la charge de la gestion des données de l’entreprise est maintenant l’apanage d’une combinaison DSI/métier afin de tirer le meilleur parti des deux mondes. Si de nos jours, 3/4 des dirigeants trouvent que les outils d’analyse mis à leur disposition pour piloter leur business sont trop compliqués, la différence vient surtout du fait que les tableaux de bord sont maintenant bien plus larges (plus de data) et mis à jours en temps réel. On note également que 80% des besoins en analytique des clients se situent dans leur BU traditionnelle. Il est donc indispensable pour le bon développement de l’entreprise dans son ensemble de démocratiser l’accès et la compréhension à ces technologies de calcul et de stockage.
L’objectif des entreprises consiste donc actuellement à dé-siloter et décloisonner l’ensemble de leur SI pour obtenir une information fiable en temps réel, dans le but de pouvoir l’utiliser distinctement par la suite dans plusieurs process métiers. Cet objectif repose notamment sur le cloud et les outils du Big Data, mais nécessite de nombreux ajustements lorsque l’architecture applicative doit s’accommoder d’un héritage complexe.
Les atouts de l’approche Data centric
Une architecture centrée sur les données possède cinq attributs clés :
- Un accès rapide aux données partagées : c’est la raison pour laquelle des organisations s’intéressent au stockage d’objets. Il est possible d’accéder aux données et aux métadonnées via des API ou un navigateur en https. Par ailleurs, il n’y a pas de limite sur le type ou la quantité de métadonnées, ce qui rend le stockage d’objets puissant et personnalisable.
- Sur demande et automatisé : la normalisation et l’automatisation de l’architecture de stockage favorisent l’accès et le traitement à la demande. La livraison automatisée favorisera l’innovation et permettra de réduire les coûts.
- Une sécurité renforcée : l’infrastructure interne et externe doit être conçue et gérée de façon à assurer la confidentialité des données sensibles. C’est d’ailleurs une obligation du RGPD (référence à la coresponsabilisation du Responsable du traitement et de ses sous-traitants).
- Une flexibilité : les volumes de stockage doivent pouvoir être déplacés facilement vers et depuis le cloud. Par exemple, le stockage d’objets permet de répliquer les données sur différents data centers.
- Une évolution permanente : les utilisateurs s’attendent à ce que le cloud soit toujours accessible (d’où la nécessité de revoir précisément les SLA pour la disponibilité…). L’infrastructure de stockage de l’entreprise doit également être conçue et administrée de façon à être améliorée en permanence tout en limitant au maximum les coupures (pas d’accès aux données).
Data Lake : Un succès aléatoire, un capital data souvent sous exploité
Réorienter le concept de data lake pour en éviter les écueils ?
Les lacs de données activés par les entreprises, souvent ‘on-premise’ et au-dessus de Hadoop, n’ont pas permis de déployer tous les usages envisagés et voient les entreprises en resserrer le champ d’utilisation.
Plusieurs raisons l’expliquent :
- La complexité et l’effort d’industrialisation malgré la ‘commodization’ apportée par les distributions
- La lourdeur des infrastructures à déployer, leur management et leur optimisation
- Le manque de compétences à tout niveau et pas seulement en data science
- La sous-estimation de l’effort d’intégration avec le patrimoine existant
- Le coût de la scalabilité au-delà de certains seuils de performance en particulier lié à l’impossibilité de scaler indépendamment les ressources de stockage et de « compute »
- Un écosystème riche en frameworks de toute sorte pour délivrer la promesse d’être tout à la fois data store, data hub, data fabric, et offrir des fonctions de data management avancées
- Des limites technologiques inhérentes au modèle d’architecture, à ses composants souches et qui ont incité les entreprises à se tourner vers des data stores spécialisés SQL et NoSQL, « in database » et « in memory »
- Un principe de stockage de tout donnée sans considération de la valeur immédiate et dont la plupart restent encore sous-exploitées, voire inexploitées (80 à 95 % de dark data selon les entreprises !), dont le coût marginal de stockage finit par ne plus être neutre, avec par ailleurs un risque fort de transformer le data lake en marécage
- Des cas d’usages orientés de plus en plus data-in-motion, où il ne convient plus d’analyser des tonnes de « data-at-rest » mais des flux et nuages de données et d’évènements au fil de l’eau, voire au plus près de leur occurrence lorsque les temps ou les coûts de réseaux deviennent prohibitifs
- Un recours de plus en plus fréquent à l’intelligence artificielle très gourmande en ressource « compute » et qui nécessite une infrastructure et des technologies indépendantes de celles du Data Lake
Les besoins Big Data ont ainsi évolué : les organisations souhaitent plus que jamais se concentrer sur l’exploitation industrielle de toutes les données à leur disposition et s’abstraire de plus en plus des technologies sous-jacentes.
Après une 1ère vague d’investissement autour du concept de lac de données, dont elles espéraient monts et merveilles, les organisations doivent aujourd’hui reconsidérer leur architecture de données à l’aune de la montée de l’IoT (Internet-Of-Things), de l’AI (Artificial Intelligence) et du Cloud Computing. Trois tendances fortes qui se démarquent par leur capacité à exploiter les données tout le long de la chaine de valeur, là et au moment où elles apparaissent (Edge Data), pendant leur transit (Data-in-motion) et dans leur lieu de dépôt (Data-at-rest). Et qui présentent l’avantage d’être complémentaires d’un data lake, pour ne pas dire même qu’elles viennent en gommer les écueils !
Ces tendances permettent désormais de construire une démarche data-centric approfondie et efficiente, qui dépasse la seule question du stockage de la donnée et qui en fait une véritable ressource en chaque point de son cycle.
Exploiter l’opportunité de construire des usages à partir d’un champ de données désaliénées des applicatifs
Quelle architecture privilégier pour aller vers plus de flexibilité ?
Il est important de s’appuyer sur une architecture flexible qui s’adapte facilement aux évolutions des besoins des entreprises, quel que soit le contexte : en local, cloud ou hybride. Cette flexibilité donne la capacité aux entreprises d’aborder les trois environnements avec le même périmètre fonctionnel, afin que le changement d’infrastructure n’impacte pas leurs initiatives : la portabilité est universelle. Il peut s’agir par exemple de récupérer l’ensemble des données d’applications dans le cloud pour les transférer vers un autre cloud, hybride ou en local, sans besoin de réécrire du code.
Quelle que soit sa stratégie, l’entreprise aura encore pour un temps, voire durablement pour certaines, ses données distribuées entre de multiples data stores pluri-technologies. Elle ne pourra avoir simultanément toutes ses données on et off premise. Elle devra les traiter là où c’est le plus opportun en termes de performances et de coûts. Elle devra en conséquence être en mesure de les exploiter, sans pour autant les faire systématiquement transiter via un lac de données polyglotte unique et centralisé. Elle devra les exposer en mode self-service pour une grande variété d’usages (opérationnels, décisionnels, data science, réglementaires, gouvernance) autour d’un catalogue de données normalisées et gouvernées. Elle devra pouvoir opérer des actes de data management cohérents avec sa politique (sécurité d’accès, anonymisation, normalisation sémantique, enrichissement, sourcing, propriété et droit d’usage…) sur des données réparties. Enfin, elle devra maîtriser leurs transits et mouvements on & off-premise.
Cette faculté à associer facilement des ressources externes et internes devient en effet capital à l’heure où beaucoup d’organisations optent pour une démarche hybride, notamment pour s’adapter aux contraintes juridiques ou réglementaires, et protéger leurs actifs informationnels.
Enfin, pour satisfaire à toutes ces exigences, les entreprises vont devoir intégrer de nouvelles solutions et technologies telles que celles de data catalog (ex/ IBM Watson Knowledge Catalog), de data virtualization (ex/ Denodo), de fédération d’Object Storage (ex/ Scality), de Change Data Capture (ex/ Attunity) ou encore de passerelle on/off premise (ex/ Azure Data Edge Box). Des approches qui gagneront à être complétées par des services d’intelligence artificielle pour faciliter le traitement des données et leur utilisation.
En conclusion : renverser la logique où l’application prévaut sur les données, pour se libérer des enjeux applicatifs et d’infrastructure
Penser sa stratégie digitale de demain, c’est désormais mesurer la valeur d’une application aux données qu’elle utilise. C’est le seul paramètre qui compte réellement dans une approche data centric. Où sont les données, quelle est leur qualité, leur volume ? Quelle frugalité peut-on mettre en place pour minimiser la collecte et le stockage des données inutiles, et ainsi réduire le coût écologique et financier de leur manipulation ? Telles sont les questions à se poser.
La transition vers une approche « data centric » doit impulser une réflexion sur la manière de maîtriser le périmètre des données. Il faut impérativement pouvoir les localiser, connaître leur valeur et tracer leur utilisation, surtout dans le contexte actuel du RGPD. Anticiper devient donc le maître mot avant d’introduire de nouveaux flux entrants et de nouveaux usages : il faut penser utilité, efficacité, sécurité et frugalité ! Les organisations doivent être en mesure de protéger efficacement leurs données, et si une fuite se présente, de comprendre son origine afin de la corriger rapidement. La gouvernance des données est un aspect véritablement stratégique, d’autant que les citoyens expriment désormais une forte délimitation de l’utilisation des données opérée par les organisations.
Par ailleurs, l’approche data centric implique un plus grand niveau de collaboration autour de ce qui constitue de la donnée utile. Elle doit devenir la possession de tous et être facilement accessible par l’ensemble des parties prenantes de l’entreprise, afin de générer une valeur commune. Il faut mettre en place des mécanismes de gouvernance de la donnée, avec pour objectif de mettre les données pertinentes à disposition des métiers tout en contrôlant leur utilisation. C’est l’une des clés de la transformation numérique de l’entreprise.
Pour se démarquer de la concurrence et faire face à un time to market de plus en plus réduit, les entreprises doivent optimiser leurs processus tout en donnant du sens aux métiers et à la valeur apportée par leurs collaborateurs. L’intégration des données dans le cloud contribue à l’atteinte de ces objectifs. Elle offre aux métiers l’agilité dont ils ont besoin pour innover et en proposer rapidement de nouveaux services, leur permettant de se positionner sur de nouveaux marchés. Elle permet aux collaborateurs de se concentrer sur leur cœur de métier, vient soulager les efforts de MCO, et donne l’opportunité de construire des usages à partir d’un champ de données désaliénées des applicatifs.
Le cloud permet en quelque-sorte de se libérer des enjeux matériels et d’infrastructure pour se concentrer sur ce qui a réellement de la valeur : l’intelligence collective et la donnée, cet actif essentiel qui permet de prendre des décisions toujours plus pertinentes au quotidien.