Vous trouvez qu’il est parfois difficile de s’y retrouver dans le jargon de la data ? Vous n’êtes pas seul.e ! La data science et l’analytique évoluent vite, et les messages marketing brouillent parfois certains concepts. Alors pour clarifier tout cela nous vous proposons ces définitions des termes de la data. Avec des exemples concrets.
De la donnée aux mégadonnées
-
Big data
On attaque les définitions par le gros morceau, avec le big data. Synonyme de mégadonnées ou données massives. Mais la taille des données stockées n’est qu’un des éléments de la définition exacte du big data. On parle en fait des 3 V du big data, pour Volume, Vélocité et Variété des données. La vélocité fait référence à la fréquence à laquelle les données sont générées, capturées, partagées et mises à jour. Enfin la variété nous fait toucher du doigt la complexité des big data. Car elles peuvent être structurées ou non structurées et provenir de sources multiples, des bases de données de l’entreprise jusqu’aux réseaux sociaux.
-
Data Mining
Quel que soit le volume ou la complexité des données, les explorer reste un défi. Cette exploration est appelée data mining, littéralement le forage des données. L’objectif est d’extraire un savoir ou une connaissance à partir des données. Pour y parvenir, une approche classique en trois étapes consiste à explorer les donner, construire un modèle d’analyse à base d’algorithmes, puis déployer ce modèle pour en tirer des enseignements ou prévisions.
Airbnb est un exemple intéressant d’entreprise qui améliore constamment son offre grâce au datamining de ses big data. La plateforme communautaire met à la disposition des loueurs un moteur de recommandation de prix, qui simule la probabilité de louer selon le prix et les dates. Cet outil repose sur l’analyse de plus de 5 milliards de points de données sur les lieux et leurs zones géographiques. Le résultat : les loueurs qui suivent à 5% près les recommandations de prix de Airbnb ont 4 fois plus de probabilité de louer.
-
Data Science
Enfin, on parle de science des données car extraire cette connaissance des données demande des compétences et outils au croisement de plusieurs domaines. Des mathématiques, aux statistiques, à l’informatique et jusqu’à la visualisation des données.
Ce qui nous amène maintenant aux étapes d’une stratégie data : avec le stockage de la donnée, son partage et sa mise en forme.
Le stockage de la donnée
-
Data Lake
Un « lac de données » est une méthode de stockage de données massives utilisée par le big data. L’idée est de stocker rapidement un gros volume de données hétérogènes, structurées ou non structurées, de sources internes ou externes. Les données y sont stockées dans leurs formats d’origine ou très peu transformées. Des outils d’analyse de données ou d’intelligence artificielle peuvent alors être directement connectés au data lake pour explorer et exploiter ces données. (Pour aller plus loin, notre article sur le Data Lake).
-
Data Swamp
Créer un data lake est donc relativement simple, et économiquement intéressant avec des approches cloud. Mais le lac peut vite se transformer en marécage (swamp) si on accumule les données, sans règles de contrôle ni nettoyage régulier. L’expression data swamp symbolise donc les risques en termes de sécurité, qualité des données, et conformité. Car ouvrir un accès à ses données implique de penser à la gestion du cycle de vie des données. En particulier pour des données sensibles, confidentielles ou encore des données personnelles.
-
Data Warehouse
A l’opposé du marécage, on peut imaginer un « entrepôt de données » bien rangé pour stocker des données nettoyées ou transformées. L’idée est de faciliter l’exploration et l’utilisation des données par des personnes des « métiers » et pas uniquement des experts aguerris au maniement des données. Un data warehouse va donc proposer des jeux de données préparés en fonction des besoins des utilisateurs. L’expérience utilisateur est ici importante, on va même parler de « datamart » ou magasin de données. Comme une boutique e-commerce où piocher ses données.
La différence entre data lake (données « brutes ») et data warehouse (« données préparées pour être consommées ») est aujourd’hui estompée. Car des solutions logicielles, comme celle de Snowflake, sont capables de gérer aussi bien un data lake qu’un data warehouse. (Pour en savoir plus sur la démarche de Snowflake, dont Solution BI est partenaire, notre article dédié).
Le partage de la donnée
-
Data Sharing
Le « data sharing » est une pratique qui consiste à partager les données de l’entreprise avec ses partenaires ou encore ses clients. Ce n’est pas une démarche nouvelle, notamment dans l’univers de la recherche. De nombreux organismes publics ont aussi ouverts leurs données, comme l’Insee, l’INPI et différents ministères. (plus de détails dans notre article sur le « data sharing »). Mais le partage de données est aujourd’hui démocratisé pour les entreprises, avec l’accès à plus de données et des technologies abordables pour les exploiter (en particulier la BI dans le cloud).
-
Open Data
Le partage des données peut concerner les données ouvertes ou « open data », proposées en accès libre pour les utilisateurs. Il s’agit donc souvent de données de sources publiques mais des entreprises peuvent aussi décider d’ouvrir des jeux de données.
Par exemple le groupe BPCE, 2ème acteur bancaire en France, a lancé en 2017 un portail Open Data qui compte aujourd’hui 167 jeux de données (bpce.opendatasoft.com). On y trouve la liste des distributeurs bancaires sur les territoires, des catalogues d’API bancaires ou encore les analyses de l’observatoire de la BPCE. Une stratégie qui développe la culture de la donnée au sein du groupe, et nourrit le dialogue avec les acteurs publics et privés dans toutes les régions.
-
Data exchange
Tous les échanges de données ne sont pas gratuits, ni ouverts à l’ensemble du marché. De nombreuses entreprises préfèrent des stratégies d’échange de données entre partenaires, qui pourront être payantes. Ce qui nous amène aussi au concept de « data marketplace » ou place de marché de donnés. Une logique qui va bien plus loin que la simple vente de données d’entreprises pour la prospection commerciale.
On peut citer l’exemple de NumAlim (plateforme-numalim.fr), un hub d’échange de données et de services destiné aux 18 000 entreprises de l'agroalimentaire. Face aux questions sur la nutrition, la santé, l’environnement, les consommateurs recherchent des informations « augmentées » sur les aliments. Les industriels peuvent alors faire appel à NumAlim pour valoriser, acquérir et enrichir des données « Open » et des données payantes sur l’alimentation (comme des panels de ventes, des avis consommateurs, des référentiels réglementaires…).
-
Data Product
Nous avons parlé de magasins et places de marché de données, on reste dans les mêmes analogies avec la notion de « data product » : un produit créé à partir de vos données. Par exemple à partir de vos rapports de vente ou encore des données de consommation de vos clients.
Parmi les initiatives de data product, on trouve le moteur de recommandation de Netflix, basé sur l’analyse des choix des abonnés. Ou encore dans le retail les rapports et analyses de ventes en temps réel que le géant de la distribution Walmart vend à ses partenaires. Le « data café » de Walmart traite chaque heure 2,5 pétaoctets de données de plus d’1 million de clients. (pour aller plus loin, notre livre blanc dédié au data product)
La mise en forme de la donnée
-
Data visualisation
Notre exploration du jargon de la data nous amène enfin aux méthodes pour rendre la donnée plus compréhensible et plus impactante. La data visualisation consiste à représenter les données sous forme graphique ou visuelle, pour aider à dégager une tendance ou un message. Et ainsi gagner en clarté, pédagogie et force de conviction. Besoin d’idées pour présenter vos données autrement qu’avec un histogramme ou un diagramme circulaire (camembert ou pie chart) ? Retrouvez nos conseils pour bien débuter en data visualisation.
-
Data Storytelling
Vous pouvez aussi aller un cran plus loin avec le data storytelling, l’art de raconter des histoires avec les données. Parce que les données seules restent complexes à appréhender. Il est désormais possible de présenter les données de façon interactive et personnalisée, en fonction des utilisateurs. Et même d’ouvrir un portail d’accès aux données pour guider leur exploration. (pour aller plus loin, « 4 conseils de Data Storytelling, l'art de faire parler les données »).
Les médias en particulier font appel au data storytelling. Pour aider à comprendre des phénomènes complexes ou encore impliquer émotionnellement les lecteurs face aux enjeux environnementaux et de société. Le New York Times a ainsi créé son département « Data and insights » (nytco.com/careers/data-and-insights-group/) pour mieux comprendre ses lecteurs et développer l’analyse de données. Son équipe éditoriale est à présent reconnue mondialement pour la qualité de ses infographies dynamiques et personnalisées. Mais le data storytelling n’est pas réservé qu’aux médias. En fait l’un des secteurs qui en tire le plus de bénéfices est la finance. Car les données comptables et financières prennent vie lorsqu’elles sont mises en perspective avec les bons visuels et les bons messages. Un Directeur Financier pourra ainsi utiliser le data storytelling pour mobiliser son comité de direction et orienter les choix de futurs investissements.
Les nouveaux métiers de la data
Enfin, ces nouvelles pratiques autour de la donnée impliquent de nouvelles compétences et de nouveaux métiers. Pour comprendre les différences entre data engineer, data scientist, data analyst et architecte Big Data, consultez notre article dédié aux métiers de la Data
À lire également
Les métiers de la Data : au croisement des sciences et de l'expérience utilisateur