Données Big: une brève introduction

Print E-mail
Technologie - Général
Wednesday, 19 October 2011 15:17

Certaines fois que j'ai été la collecte d'informations sur les données de Big et notions d'introduire sur le sujet dans certains de mes cours, mais aujourd'hui tout en préparant une conférence, j'ai réalisé que c'était une question qui n'avait pas encore mentionné sur la page, en dépit d'être l'une des tendances les plus marquées dans l'industrie aujourd'hui .

Pour les données Big nous entendons exactement ce que son nom suggère: le traitement et l'analyse des référentiels de données volumineux, donc disproportionnée qu'il est impossible de les traiter avec les outils de bases de données analytiques et conventionnelles. La tendance est partie d'un environnement qui ne sonne pas étrange du tout: la prolifération de pages Web, images, vidéo, réseaux sociaux, les appareils mobiles, les applications, les capteurs, l'internet des choses, et ainsi de suite. capable de générer, selon IBM, plus de 2,5 trillion d'octets par jour, dans la mesure où 90% des données du monde ont été créés au cours des deux dernières années . Nous parlons d'une tout à fait pertinente à de nombreux aspects de l'analyse des phénomènes naturels tels que le climat et les données sismiques à des environnements tels que la santé, la sécurité ou, bien sûr, l'environnement des affaires. C'est précisément dans cette zone où ils opèrent les entreprises où les pays émergents d'intérêt qui rend les données Big en quelque chose comme «le mot d'ordre suivant» , le mot clairement entendre venant de partout: des fournisseurs de technologies, d'outils, consultants,. À une époque où la plupart des gestionnaires n'ont jamais assis en face d'une seule page de Google Analytics et puissamment surpris quand ils voient ce que peut faire, il arrive un panorama des outils conçus pour rendre les choses beaucoup plus importantes et plus complexes à à faire sens. Qu'il soit peur, très peur.

Quel est exactement derrière le mot à la mode? Fondamentalement, la preuve que les outils d'analyse ne parviennent pas à convertir en informations utiles pour la gestion des données d'affaires généré. Si votre entreprise ne dispose pas d'un problème avec les données analytiques, c'est simplement parce que c'est là où il appartient ou ne sait pas comment obtenir des informations provenant de l'environnement: en tant traditionnelle joindre à des questions opérationnelles et des transactions en tant que plus intense interaction bidirectionnelle client et Web Analytics mouvement généré par toutes sortes de réseaux sociaux, on trouve un scénario dans lequel il commence à être un désavantage important par rapport à ceux qui le sont. Il est tout simplement qui opèrent dans l'environnement avec une plus grande capacité de génération de données de l'histoire implique l'adaptation des outils et des processus. Bases de données non structurées, non conventionnel, qui peut atteindre pétaoctets, exaoctets ou zettaoctet, et nécessitent des traitements spécifiques à leurs besoins à la fois le stockage et le traitement ou l'affichage.

Données de Big était, par exemple, l'étoile au cours du dernier OpenWorld d'Oracle: La prise de position est de fournir aux massifs énormes machines avec des capacités, multiparalelo traitement, l'analyse visuelle, sans limitation, le traitement des données hétérogènes, etc. Des évolutions telles que Exadata et acquisitions Endeca soutenir une offre basée sur la pensée grande, ce qui certains n'ont pas hésité à discuter : le visage de cette approche, la réalité est que certaines entreprises sont davantage axées sur le sujet, tels que Google, Yahoo! ou Facebook ou presque toutes les startups ne pas utiliser les outils d'Oracle et d'opter plutôt pour une approche basée sur la source distribué, les nuages ​​et ouvert. Sont open source Hadoop , un cadre très populaire dans ce domaine qui permet aux applications de travailler avec les référentiels de données et de milliers de nœuds, initialement créé par Doug Cutting (qui a donné le même nom que le jouet d'éléphant pour votre enfant ) et inspiré des outils Google comme MapReduce et Google File System , ou NoSQL systèmes, bases de données relationnelles ne sont pas nécessaires pour héberger et traiter l'énorme complexité de toutes les données générées et, dans de nombreux cas, ne suivez pas la logique des garanties ACID (atomicité, cohérence, isolation, durabilité) caractéristique des bases de données conventionnelles.

Dans l'avenir: un aperçu de l'adoption croissante, et beaucoup, beaucoup de questions. Implications dans le visage des utilisateurs et leur vie privée, ou d'affaires et de la fiabilité réelle ou potentielle des résultats obtenus: Comme le Technology Review du MIT, de grandes responsabilités . Pour l'instant, une chose est certaine dans les données de Big: préparer vos oreilles pour entendre le terme.


Font