Introduction aux Big Data





Blog Language



Le terme « Big Data » attire une grande attention de nos jours comme nouveau sujet qui ne cesse d’évoluer. En conséquence, les entreprises ont besoin de différentes sources pour réunir l'information sur de nouvelles façons de stocker et d'accéder à ces données et d’en faire une bonne utilisation. De nouvelles infrastructures sont introduites pour gérer l’énorme volume de données avec une grande variété de types de données, conduisant à l'intégration de nouvelles données avec les données traditionnelles d’entreprise.

Les entreprises peuvent utiliser « Big Data » pour personnaliser les produits et recueillir toutes les informations nécessaires pour maximiser les profits et obtenir un avantage concurrentiel. L'importance croissante des gros volumes de données est due à l'avancement des technologies telles que les capteurs ayant conduit à plusieurs sources de données telles que des caméras vidéo et des télescopes qui augmentent également les types de données stockées. Cependant, Internet et les réseaux sociaux ainsi que les objets connectés et IoT, représentent les sources importantes d'expansion du stockage de données.

Les systèmes informatiques cluster offrent la possibilité de stocker la donnée et aussi de l’analyser et de l’organiser, ce qui augmente la fiabilité de grands ensembles de données, et enfin la technologie « Cloud Computing » permet la location des espaces de stockage et d'économiser donc tant d’argent.

« Big Data » a été créé en conséquence de plusieurs facteurs dont les principaux comprennent la baisse des prix de mémoire ; il est devenu facile d'avoir d’énormes mémoires et aussi d’y traiter les données. L'autre facteur est l’émergence de technologies permettant de partager un traitement sur plusieurs ordinateurs liés ensemble.

Selon SAP, « Big Data » se réfère aux données traditionnelles de l'entreprise, les données générées par les machines et les données sociales. Les données traditionnelles de l'entreprise comprennent les données de CRM, ERP ou le grand livre, les données générées par les machines comprennent des informations provenant des équipements (les logs web ou les détails des enregistrements d'appels par exemple), et enfin les données des réseaux sociaux comme Facebook et Twitter.

« MassTLC » a ajouté que les « Big Data » sont les données dont la taille est supérieure à la capacité de toute base de données standard capable de les stocker et de les analyser. Tout d'abord quelques grandes entreprises telles que SAP et IBM étaient en mesure d'avoir des bases de données qui ont été considérées comme capables de stocker les Big Data, mais avec l'augmentation des dispositifs et des outils de communication, il est devenu nécessaire d’avoir de nouvelles bases de données pour

stocker cette énorme quantité de données. Manyika de McKinsey Global Institute était en désaccord pour définir la Big Data par sa taille (supérieure à des milliers de giga-octets)  mais il est préférable de considérer que la technologie a bien évolué pour gérer les gros volumes de données. Mais sa capacité à stocker et à analyser les données est de moins en moins en phase avec l’évolution importante du volume des données. Le volume n’est pas la seule caractéristique des Big Data. IBM décrit les Big Data sous forme de données qui répondent à au moins deux des quatre Vs : vitesse, volume, variété et valeur.

·         Volume : sur la base des quantités de données qui sont collectées et stockées, telles que des données des logs d’une machine ou des données collectées sur un vol d’une compagnie aérienne. Le volume des données varie en fonction de la taille de l'organisation ; une grande organisation peut avoir plusieurs péta-octets tandis que les petites organisations de taille moyenne peuvent avoir plusieurs téraoctets de données. Quand la gestion  des données collectées et stockées devient un problème, elle peut alors être appelée « Big Data » dans le contexte de la taille de l'organisation.

·         Vitesse : la fréquence à laquelle les données sont recueillies, telles que des données collectées à partir des réseaux sociaux (Facebook et Twitter), y compris les opinions et autres renseignements personnels mis à jour à vitesse très élevée. En outre, elles peuvent être très bénéfiques pour l’organisation en vue de la personnalisation d'un produit par exemple. Les données collectées par le biais des pages web telles que la publicité en ligne fournissent une quantité énorme de données à filtrer et à organiser en temps réel afin d’en tirer le maximum de profit. D'autre part, la vitesse comme le temps pris pour le traitement des données doivent être considérés ; on peut envisager des centaines de giga-octets comme Big Data  à cause de la vitesse ou le temps nécessaire pour les traiter.

·         Variété : le fait d'avoir différents types de données, structurées et non structurées. Il y a deux types importants de données structurées et non structurées. Le type de données structurées comprend les données transactionnelles traditionnelles, tandis que les types de données non structurées ont plusieurs formes telles que celles collectées à partir des réseaux sociaux comme « Youtube » par exemple. Le principal défi concerne les données non structurées. Les type de données traditionnelles sont généralement facilement gérés et stockés ; d'autre part, les nouveaux types de données introduites telles que des photographies et d'autres ne sont pas faciles à stocker.

·         Valeur : la caractéristique la plus importante est la valeur économique des informations capturées ; qu’il s’agisse de données traditionnelles ou non, le but est de trouver les informations cachées pour accroître les bénéfices.

 

Big Data a plusieurs applications et peut donner un avantage concurrentiel si elle est utilisée correctement ; les applications de Big Data sont dans différents domaines tels que la santé, la fabrication, les téléphones intelligents et les médias sociaux. Dans la santé, les appareils sont conçus pour enregistrer les données sur les patients tels que l'histoire de la maladie à travers les années et aussi des sommaires sur les différents médicaments ou symptômes. Big Data est nécessaire dans les soins de santé en raison de l'énorme quantité d'informations nécessaires à stocker avec l'utilisation de techniques avancées telles que l'imagerie médicale.

Ces données peuvent être utilisées pour connaître les progrès d'un patient, la nécessité de diminuer des visites chez un médecin et réduire également l'admission en milieu hospitalier.

Dans le secteur manufacturier, les entreprises utilisent des capteurs sur les produits qui renvoient des données sur l'utilisation des modèles ou les échecs, cela peut être utilisé pour améliorer encore les produits.

Les capteurs sont également utilisés dans les lignes de production pour réduire les coûts et éviter les risques d’erreurs humaines qui peuvent être très coûteuses.

En utilisant GPS dans les téléphones intelligents, il est facile de connaître la position d'un client, s'il est à côté d’un restaurant ou un magasin. Cela peut aider au ciblage des clients.

Les médias sociaux comme Facebook sont principalement basés sur les Big Data qui sont recueillies pour construire un profil personnalisé pour chaque utilisateur. Outre l'avantage pour les médias sociaux eux-mêmes, les entreprises utilisent ces informations pour le marketing ciblé et aussi pour récupérer les commentaires des clients grâce à leurs mises à jour.



blog comments powered by Disqus