Stratégie digitale

Une feuille de triche Big Data : ce que les dirigeants veulent savoir

En avril, j’ai eu l’occasion de présenter Aide-mémoire d’un dirigeant sur Hadoop, l’entrepôt de données d’entreprise et le lac de données lors de la conférence exécutive du SAS Global Forum à Dallas. Au cours de cette séance en salle debout, j’ai abordé ces cinq questions :

  1. Que peut faire Hadoop que mon entrepôt de données ne peut pas faire ?
  2. Nous ne traitons pas de « big data », alors pourquoi avons-nous besoin d’Hadoop ?
  3. Hadoop est-il prêt pour l’entreprise ?
  4. Un lac de données n’est-il pas simplement l’entrepôt de données revisité ?
  5. Quels sont les avantages et les inconvénients d’un lac de données ?

Voici un récapitulatif de mes commentaires, ainsi que quelques captures d’écran. Voyez ce que vous en pensez.

1. Que peut faire Hadoop que mon entrepôt de données ne peut pas faire ?

La réponse courte est : (1) Stockez toutes sortes de données à moindre coût et (2) traitez toutes ces données plus rapidement (et à moindre coût).

La réponse la plus longue est la suivante : j’ai fait référence à ma déclaration d’ouverture de « boîte à savon » : « Les mégadonnées ne sont pas nouvelles ». Ils disent que 20% des données que nous traitons aujourd’hui sont des données structurées (voir les exemples dans les encadrés orange ci-dessous). J’appelle aussi cela des données relationnelles traditionnelles. Les 80 % restants sont des données semi-structurées ou non structurées (exemples dans les cases bleues), et c’est ce que j’appelle les « big data ».

Les mégadonnées ne sont pas nouvelles.

L’un de ces exemples de types de données de boîte bleue est-il nouveau ? Bien sûr que non. Nous collectons, traitons, stockons et analysons toutes ces données depuis des décennies. Ce que nous n’avons pas été en mesure de faire très bien, cependant, voire pas du tout, c’est de mélanger les données des boîtes orange et bleue.

Voici donc les nouveautés : nous disposons désormais des technologies pour collecter, traiter, stocker et analyser toutes ces données ensemble. En d’autres termes, nous pouvons désormais mélanger et faire correspondre les données des boîtes orange et bleue – à une fraction du coût et du temps de nos systèmes relationnels traditionnels.

2. Nous ne traitons pas de « big data », alors pourquoi avons-nous besoin d’Hadoop ?

J’ai proposé six cas d’utilisation courants d’Hadoop, dont trois ne nécessitent pas du tout de « grandes » données pour tirer pleinement parti d’Hadoop. Ces cas d’utilisation proviennent de mon livre blanc intitulé Le manuel de Big Data des non-geeks : Hadoop et l’entrepôt de données d’entreprise.

Voici un bref résumé de chaque cas d’utilisation :

  • Données structurées par étapes. Utilisez Hadoop comme plate-forme de transfert de données pour votre entrepôt de données.
  • Traiter des données structurées. Utilisez Hadoop pour mettre à jour les données de votre entrepôt de données et/ou de vos systèmes opérationnels.
  • Archiver toutes les données. Utilisez Hadoop pour archiver toutes vos données sur site ou dans le cloud.
  • Traitez toutes les données. Utilisez Hadoop pour tirer parti des données non intégrées et non structurées qui ne sont actuellement pas disponibles dans votre entrepôt de données.
  • Accédez à toutes les données (via l’entrepôt de données). Utilisez Hadoop pour étendre votre entrepôt de données et le maintenir au centre de l’univers de données de votre organisation.
  • Accédez à toutes les données (via Hadoop). Utilisez Hadoop comme plate-forme d’atterrissage pour toutes les données et exploitez les atouts de l’entrepôt de données et d’Hadoop.

Si vous souhaitez voir ces cas d’utilisation expliqués et démontrés plus en détail avec des visuels faciles à comprendre, je vous invite à télécharger le livre blanc.

3. Hadoop est-il prêt pour l’entreprise ?

J’ai deux réponses à cette question :

  • Pour votre organisation : Peut-être.
  • Pour toutes les organisations : Non.

Tout dépend de quoi et comment vous souhaitez utiliser Hadoop dans votre organisation. Si vous souhaitez simplement l’utiliser comme référentiel de stockage supplémentaire (ou alternatif) et/ou comme processeur de données à court terme, alors par tous les moyens, Apache Hadoop est prêt pour vous.

Cependant, si vous souhaitez aller au-delà du stockage et du traitement des données et que vous recherchez certaines des mêmes capacités de gestion et d’analyse des données que celles dont vous disposez actuellement avec vos systèmes relationnels existants, vous devrez d’abord explorer le vaste écosystème des logiciels open source et liés à Hadoop. projets et produits propriétaires. Ce ne sera pas une petite entreprise.

Étant donné que bon nombre de ces nouvelles technologies liées à Hadoop arrivent encore à maturité assez rapidement, je pourrais ajouter – c’est pourquoi je dis que Hadoop – comme dans l’écosystème Hadoop – n’est pas prêt à 100% pour l’entreprise.

4. Un lac de données n’est-il pas simplement l’entrepôt de données revisité ?

Beaucoup d’entre nous en ont appris davantage sur le lac de données, en particulier au cours des 6 derniers mois. Certains suggèrent que le lac de données n’est qu’une réincarnation de l’entrepôt de données, dans l’esprit « été là, fait ça ». D’autres se concentrent sur la qualité de ce « nouveau et brillant » lac de données, tandis que d’autres se tiennent debout sur le rivage en criant : « N’entrez pas ! Ce n’est pas un lac, c’est un marécage !

Blague à part, le point commun que je vois est qu’ils sont tous deux des référentiels de stockage de données. Au-delà de cela, le tableau ci-dessous met en évidence certaines différences clés. Il ne s’agit en aucun cas d’une liste exhaustive, mais cela nous permet de dépasser cette mentalité « été là, fait ça ». Un lac de données n’est pas un entrepôt de données.

Entrepôt de données et lac de données

5. Quels sont les avantages et les inconvénients d’un lac de données ?

Certains d’entre vous connaissent peut-être la série de blogs Data Lake Debate à laquelle j’ai récemment participé avec ma collègue, Anne Buff, sur SmartData Collective. J’ai pris la position Pro, Anne a pris la position Cons et notre patronne, Jill Dyché, a modéré.

Ce fut une intense discussion de 8 semaines – vaguement structurée comme un débat Lincoln-Douglas – et de nombreux points clés sur le lac de données ont été abordés. Lors de ma présentation, j’ai résumé ces points clés à l’aide d’un diagramme SWOT :

SWOT du lac de données

Si vous souhaitez en savoir plus sur le lac de données, je vous invite à :

  • Consultez la série de blogs Data Lake Debate ; et/ou
  • Inscrivez-vous à la webdiffusion du débat Data Lake le 27 maie où Anne et moi allons « aller vivre » avec le débat.

Et voilà, votre feuille de triche Big Data. Veuillez partager avec d’autres si vous l’avez trouvé utile. Merci!

Erwan

Rédigé par

Erwan

Erwan, expert digital pour Coeur sur Paris, offre des insights pointus sur le marketing et les réseaux sociaux. Avec une plume vive et une analyse fine, il transforme les complexités du digital en conseils pratiques et tendances à suivre.