Vous lisez

Le lac de données : une perspective plus équilibrée

Stratégie digitale

Le lac de données : une perspective plus équilibrée

Le récent débat sur les lacs de données avec ma collègue, Anne Buff, est peut-être terminé, mais la discussion dans de nombreuses organisations ne fait que commencer. Ce que nous avons appris au cours du débat – et vous le découvrirez peut-être dans votre propre organisation – c’est que cela force le débat plus large sur la gestion de volumes croissants de données dans un monde de mégadonnées. Avec l’assaut des technologies Big Data ces dernières années, les organisations doivent chercher encore une fois aux technologies sous-jacentes soutenant leurs activités de collecte, de traitement, de stockage et d’analyse de données. Et à l’heure actuelle, le lac de données basé sur Hadoop est une option très populaire.

À propos du lac de données

Avant de nous lancer dans la discussion « vers le lac de données ou pas vers le lac de données », définissons ce qu’est un lac de données. Voici la définition que nous avons utilisée lors de notre débat :

UNE lac de données est un référentiel de stockage qui contient une grande quantité de données brutes dans son format natif, y compris des données structurées, semi-structurées et non structurées. La structure des données et les exigences ne sont pas définies tant que les données ne sont pas nécessaires.

James Dixon, qui s’identifie comme le Chief Geek de Pentaho, a inventé le terme lac de données et le décrit ainsi :

« Si vous considérez un datamart comme une réserve d’eau en bouteille – nettoyée, emballée et structurée pour une consommation facile – le lac de données est une grande étendue d’eau dans un état plus naturel. Le contenu du lac de données circule d’une source à remplir le lac, et divers utilisateurs du lac peuvent venir examiner, plonger ou prélever des échantillons. »

Analyse SWOT du lac de données

Pour aider à garder la discussion équilibrée (puisque je me rends compte que je viens à la table avec mes propres préjugés), j’utilise le tristement célèbre diagramme SWOT pour identifier certains des facteurs clés associés à un lac de données. [Some of you may recognize it from a recent post.] Cet instantané rapide est conçu pour vous aider à démarrer la conversation sur le lac de données au sein de votre propre organisation :

Forces

  • Coûts inférieurs. Un lac de données basé sur Hadoop dépend en grande partie de logiciels open source et est conçu pour fonctionner sur du matériel de base à faible coût. Donc, d’un point de vue logiciel et matériel, il y a d’énormes économies de coûts qui ne peuvent être ignorées.
  • Achat de données à guichet unique. Hadoop ne respecte pas les données. Il stockera et traitera tout – structuré, semi-structuré et non structuré – à une fraction du coût et du temps de vos systèmes traditionnels existants. Il y a beaucoup à gagner à avoir toutes (ou une grande partie) de vos données au même endroit – en mélangeant et en faisant correspondre des ensembles de données comme jamais auparavant.

Faiblesses

  • Gestion de données. Nous pouvons nous attarder à parler du volume, de la variété et de la vitesse des (grandes) données, mais il est tout aussi important pour cette discussion de pouvoir les gouverner et les gérer, quelles que soient les technologies sous-jacentes. Pour un lac de données basé sur Hadoop, les projets open source et les produits des fournisseurs continuent de mûrir/d’être développés pour prendre en charge cette demande croissante. Nous avançons dans la bonne direction – rapidement – mais nous n’en sommes pas encore là.
  • Sécurité. La sécurité basée sur Hadoop est un problème de longue date, mais des efforts et des progrès importants sont réalisés par la communauté open source et les fournisseurs pour répondre aux exigences de sécurité et de confidentialité d’une organisation. Bien qu’il soit facile de toucher du doigt cette « faiblesse » particulière, il est important de reconnaître que les rapports hebdomadaires (et presque quotidiens) que nous entendons à ce sujet – et – cette violation de données sont principalement des attaques contre les systèmes traditionnels existants, pas ces nouveaux systèmes de Big Data. .

Opportunités

  • Découverte. Cette fonctionnalité permet aux utilisateurs de découvrir les « inconnus inconnus ». Contrairement aux entrepôts de données existants où les utilisateurs sont limités à la fois avec les questions et les réponses qu’ils peuvent poser et obtenir des réponses, avec un lac de données basé sur Hadoop, le ciel est la limite. Un utilisateur peut accéder au lac de données avec le même ensemble de questions qu’il avait pour l’entrepôt de données et obtenir les mêmes réponses, voire meilleures. Mais elle peut également découvrir des questions jusque-là inconnues, la conduisant ainsi à plus de réponses et, idéalement, à de meilleures idées.
  • Analyse avancée. De nombreuses applications logicielles incluent des analyses descriptives, montrant à l’utilisateur de jolis visuels sur ce qui s’est passé. Nous avons cette capacité depuis des décennies. Avec le Big Data, cependant, les organisations ont besoin d’analyses avancées, telles que prescriptives, prédictives et diagnostiques, pour vraiment obtenir en avant du jeu (et on pourrait même argumenter rester dans le jeu). Un lac de données basé sur Hadoop offre cette opportunité.

Des menaces

  • Status Quo. Ce n’est pas une nouvelle menace, en particulier pour les éditeurs de logiciels, mais c’est une menace très réelle. Le coût et le temps requis pour migrer vers ces nouvelles technologies Big Data ne sont pas négligeables. Il ne s’agit pas de technologies de remplacement à chaud pendant que personne ne regarde. Cela aura également un impact sur les personnes, les processus et la culture de votre organisation, si cela est fait correctement.
  • Compétences. Il ne fait aucun doute qu’il existe une pénurie de compétences pour ces technologies de mégadonnées. Même si cette pénurie peut être considérée comme une menace pour l’adoption d’Hadoop, elle ne doit pas être considérée comme négative. Ces technologies Big Data sont nouvelles, elles évoluent, et il y a beaucoup d’expérimentation en cours pour déterminer ce qui est nécessaire, ce qui ne l’est pas, ce qui devrait rester, ce qui ne devrait pas, etc. Ainsi, il n’est pas surprenant que, comme notre les technologies évoluent, les compétences requises aussi. Nous avons l’opportunité de porter ce que nous avons et de savoir à un nouveau niveau et d’aider à préparer la prochaine génération à exceller dans notre société saturée de données.

La ligne de fond

Il existe des faiblesses et des menaces bien connues associées à un lac de données, dont certaines que j’ai soulignées ici. Nous ne pouvons pas les ignorer. Mais il y a aussi des forces et des opportunités importantes à explorer. Si une organisation souhaite tirer pleinement parti de toutes ses données, le lac de données peut vous fournir la voie pour y parvenir. N’oubliez pas de boucler votre ceinture !

Erwan

Rédigé par

Erwan

Erwan, expert digital pour Coeur sur Paris, offre des insights pointus sur le marketing et les réseaux sociaux. Avec une plume vive et une analyse fine, il transforme les complexités du digital en conseils pratiques et tendances à suivre.