Stratégie digitale

Cloudera fait d’Hadoop un acteur majeur du Big Data

J’ai eu le plaisir d’assister au récent sommet des analystes de Cloudera. Les présentateurs ont passé en revue le travail accompli par l’entreprise depuis sa création il y a six ans et ont décrit son intention d’utiliser Hadoop pour renforcer davantage la technologie des mégadonnées afin de prendre en charge ce que j’appelle l’optimisation de l’information.

L’équipe de direction de Cloudera compte les co-fondateurs de Hadoop qui ont travaillé chez Facebook, Oracle et Yahoo lorsqu’ils ont développé et utilisé Hadoop. L’année dernière, ils ont recruté le PDG Tom Reilly, qui a dirigé des organisations prospères chez ArcSight, HP et IBM. Cloudera compte aujourd’hui plus de 500 employés, 800 partenaires et 40 000 utilisateurs formés à sa version commerciale d’Hadoop. La technologie Hadoop a mis sur le marché une intégration de l’informatique, de la mémoire et du stockage sur disque ; Cloudera a étendu les capacités de ce logiciel open source pour ses clients grâce à une extension et une commercialisation uniques de l’open source pour une utilisation en entreprise. L’importance des mégadonnées est désormais incontestée : par exemple, nos dernières recherches sur l’analyse des mégadonnées révèlent qu’elles sont très importantes dans 47 % des organisations. Cependant, nous constatons également que seulement 14% sont très satisfaits de leur utilisation des mégadonnées, il y a donc beaucoup de place pour l’amélioration. L’avancement de Cloudera cette année et l’année prochaine déterminera sa capacité à rivaliser dans le Big Data au cours des cinq prochaines années.

La technologie de Cloudera prend en charge ce qu’elle appelle un hub de données d’entreprise (EDH), vr_Big_Data_Analytics_04_types_of_big_data_for_analyticsqui relie une série de composants intégrés pour le Big Data, notamment le traitement par lots, le SQL analytique, un moteur de recherche, l’apprentissage automatique, le traitement des flux d’événements et la gestion de la charge de travail ; cela ressemble beaucoup à la façon dont les bases de données et les outils relationnels ont évolué dans le passé. Ces fonctionnalités peuvent également traiter les types de big data les plus souvent utilisés, selon nos recherches : 40 % ou plus utilisent cinq types, des données transactionnelles (60 %) aux données machine (42 %). Hadoop combine des couches de la pile de données et d’analyse, de la collecte, la mise en scène et le stockage à l’intégration des données et à l’intégration avec d’autres technologies. Pour sa part, Cloudera se concentre à la fois sur l’ingénierie et le support client. Son objectif est de permettre la gestion du Big Data d’entreprise qui peut se connecter et s’intégrer avec d’autres données et applications de sa gamme de partenaires. Cloudera cherche également à faciliter l’analyse convergée. L’un de ces partenaires, Zoomdata, a démontré le potentiel de l’analyse des mégadonnées dans la découverte et l’exploration analytiques grâce à sa visualisation sur la plateforme Cloudera ; son outil intégré et interactif peut être utilisé par les gens d’affaires ainsi que par les professionnels de l’analyse, de la gestion des données et de l’informatique.

La dernière version majeure de Cloudera avec Cloudera Enterprise 5 a apporté une gamme d’avancées d’entreprise du traitement en mémoire, vr_Big_Data_Analytics_11_implementing_analytics_through_hadoopgestion des ressources, gestion des données, protection des données pour n’en nommer que quelques-uns. Cloudera propose une gamme d’options de produits qu’ils ont annoncées pour faciliter l’adoption de leur technologie Hadoop. Cloudera Express est sa version gratuite d’Hadoop et propose trois éditions sous licence par abonnement : basic, flex et data hub. L’édition Flex de Cloudera Enterprise prend en charge le SQL analytique, la recherche, l’apprentissage automatique, le traitement des flux d’événements et NoSQL en ligne via les composants Hadoop HBase, Impala, Spark et Navigator ; une organisation cliente peut en avoir un par cluster Hadoop. L’édition Enterprise Data Hub (EDH) permet d’utiliser n’importe quel composant dans n’importe quelle configuration. Cloudera Navigator est un produit de gestion des métadonnées, de la découverte et du lignage, et en 2014, il ajoutera la recherche, l’annotation et l’enregistrement sur les métadonnées. Cloudera utilise Apache Hive pour prendre en charge SQL via HiveQL, et Cloudera Impala fournit une interface unique au système de fichiers Hadoop HDFS à l’aide de SQL. Cela correspond à ce que nos recherches montrent que les organisations préfèrent : plus de la moitié (52 %) ​​utilisent le SQL standard pour accéder à Hadoop. Cette gamme de choix pour accéder aux données dans Hadoop aide les clients de Cloudera à réaliser un large éventail d’utilisations qui incluent le service client prédictif, la gestion des risques de marché, l’expérience client et d’autres domaines où de très gros volumes d’informations peuvent être appliqués pour des applications qui n’étaient pas coûteuses. efficace avant. Avec EDH Edition, Cloudera peut concurrencer directement les grands acteurs IBM, Oracle, SAS et Teradata, qui ont tous pour ambition de fournir la plaque tournante des opérations Big Data pour les entreprises.

Ayant des racines open source, la communauté est particulièrement importante pour Hadoop. vr_Big_Data_Analytics_07_dissatisfaction_with_big_data_analyticsUne partie de la construction d’une communauté consiste à fournir une formation pour certifier et valider les compétences. Cloudera a inscrit plus de 50 000 professionnels dans son université Cloudera et travaille avec le fournisseur de formation en ligne Udacity pour augmenter le nombre d’utilisateurs certifiés Hadoop. Il a également développé des relations académiques pour promouvoir les compétences Hadoop enseignées aux étudiants en informatique. Notre recherche révèle que ce type d’activité est nécessaire : le défi le plus courant dans les processus d’analyse des mégadonnées pour deux organisations sur trois (67 %) est de ne pas disposer de ressources qualifiées suffisantes ; nous avons trouvé des problèmes similaires dans la mise en œuvre et la gestion des mégadonnées. L’autre aspect d’une communauté est d’enrôler des partenaires qui offrent des capacités spécifiques. Je suis impressionné par la gamme de partenaires de Cloudera, des OEM et intégrateurs de systèmes aux revendeurs tels que Cisco, Dell, HP, NetApp et Oracle pour prendre en charge dans le cloud d’Amazon, IBM, Verizon et d’autres.

Pour l’aider à suivre le rythme, Cloudera a annoncé avoir levé 160 millions de dollars supplémentaires auprès de T. Rowe Price, Michael Dell Ventures et Google Ventures pour compléter le financement de sociétés de capital-risque. Avec ce financement, Cloudera a défini son objectif d’investissement pour 2014, qui se concentrera sur l’avancement des bases de données et du stockage, la sécurité, l’informatique en mémoire et le déploiement dans le cloud. Je pense qu’elle devra aller plus loin pour répondre aux besoins croissants d’intégration et d’analyse et prouver qu’elle peut proposer une offre intégrée à forte valeur ajoutée en direct comme par l’intermédiaire de partenaires. Il est également important d’investir dans son produit Navigator, car notre recherche révèle que la qualité et la cohérence des données sont l’aspect le plus difficile du processus d’analyse des mégadonnées dans 56 % des organisations. Dans le même temps, Cloudera devrait se concentrer sur l’optimisation de son infrastructure pour les quatre types de découverte de données requis selon notre analyse.

L’avantage de Cloudera est d’être le point central de l’écosystème Hadoop, tandis que d’autres essaient toujours de faire correspondre ses nombres de développeurs et de partenaires pour répondre aux besoins de Big Data. Notre recherche trouve ici une opportunité de croissance substantielle : Hadoop sera utilisé dans 30 vr_Info_Optimization_12_big_data_is_widely_usedpour cent des organisations jusqu’en 2015 et 12 pour cent prévoient de l’évaluer. Notre recherche trouve également une avance significative pour Cloudera dans les distributions Hadoop, mais d’autres options comme Hortonworks et MapR se développent. La recherche révèle que la plupart de ces organisations recherchent la capacité de réagir plus rapidement aux opportunités et aux menaces ; pour ce faire, ils devront disposer d’une nouvelle génération de compétences à appliquer aux projets de Big Data. Notre recherche sur l’optimisation de l’information révèle que plus de la moitié (56%) des organisations envisagent d’utiliser le Big Data et Hadoop sera un objectif clé pour ces efforts. Cloudera occupe une position solide sur le marché en pleine expansion du Big Data, car il se concentre sur les principes fondamentaux de la gestion et de l’analyse de l’information via Hadoop. Mais il fait face à une concurrence féroce de la part des fournisseurs établis de SGBDR et d’appliances de données qui mélangent Hadoop avec leur technologie, ainsi que d’un nombre croissant de fournisseurs de versions commerciales d’Hadoop. Cloudera est bien géré et dispose des moyens financiers pour relever ces défis ; maintenant, il doit être en mesure de montrer de nombreux déploiements de production à haute valeur ajoutée en 2014 comme le centre des stratégies de Big Data de l’entreprise. Si vous élaborez une stratégie Big Data avec Hadoop, Cloudera doit figurer dans la priorité d’évaluation d’une organisation.

Erwan

Rédigé par

Erwan

Erwan, expert digital pour Coeur sur Paris, offre des insights pointus sur le marketing et les réseaux sociaux. Avec une plume vive et une analyse fine, il transforme les complexités du digital en conseils pratiques et tendances à suivre.