Big data formation gratuite en ligne

User Rating: 5 / 5

Details: Created: Wednesday, 19 August 2020 18:49; Written by Sylvain

Big data formation gratuite en ligne : Principes

Principes: D'où ça vient, et pourquoi aujourd'hui on est dans la situation où il est possible de traiter de très gros volumes de données.

Enjeux: applications, les champs d'investigation, de mise en oeuvre des technologies Big-Data et quelques éléments d'architecture comment ça s'utilise, comment ça se met en oeuvre?

Exemple, une entrepris utilise 1Go de données stockées dans une base de donnée relationnelle, tout se passe bien. Pas de problèmes particuliers.

Ensuite, l'entreprise se développe, les données augmentent, 10GO, 100Go, 1To, et on atteint les limites du serveur et de la base de donnée.

On investis dans un plus gros serveur, on reste à jour pour quelques mois…

La direction veut tirer profit des données relationnelles et non structurées, et surtout , que cette information soit disponible dès que possible

Les données augmentent de 1To à 10To, pusi 100TB… On attend les limites du serveur.

Des sources de données, comme Facebook, Instagram génèrent de très gros volumes.

Solution :
SGBDR traditionnelle (pour indexer, et les données structurées) + BIG DATA (traitement volume variété et vitesse)

Avec Java JEE, on peut mettre en cluster un certain nombre de serveurs, pour répartir la charge. Mais on reste dans des configurations assez traditionnelles. Ca s'intègre dans l'architecture des serveurs d'applications.

Une question? Posez-la ici

Besoin de la formation complète Big Data (Cours + illustrations + QCM de validation des connaissances) ?

Big data formation gratuite en ligne : Les « 3V »

Les « 3V »

Trop de volume
Trop de variété
Trop de vitesse

On atteint les limites. Plus on traite de données, plus ça a un cout en installation, en paramétrage, en matériel.

Cout de la modélisation

Chaque prise en compte de nouvelle information. Chaque information a sa raison d'être. Nombre de clients, nombre de produits, etc.

On définit un modèle de données pour un modèl de processus (dans un certain formalisme)

On va vouloir prendre de plus en plus de données non struturées, c'est à dire, des informations qui n'ont pas été modélisées. Ces informations ne peuvent pas rentrer dans des bases de données relationnelles classiques (smartphones, IMEI, identifiants uniques, fingerprints, capteurs RFID, capteurs vidéos audios, environnement numérique et digital)

Flux de plus en plus volumineux; Problèmes de volumes et de stockages!
Trop de volume, trop de sources, trop de variété, trop de vitesse (traiter en temps-réel si c'est possible, ce flot continu d'informations)

Au niveau de stockage, il faut s'adapter. Utiliser des architectures qui ne sont plus des bases de données relationnelles SGBDR, ou elle les utilise pour juste indexer les résultats.

L'entreprise va vouloir tirer partie de ces données structurées et non structurées.

Solution: SGBDR traditionnel + “BIG DATA”

big data au départ est fait pour traiter du volume. Ensuite la variété.

“Big data” désigne des ensemble de données qui deviennent beaucoup trop volumineux pour être traités, pris en compte par les outils traditionnels.

Big data (littéralement « grosses données » ou « grande quantité de données ») est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Wikipedia.

1 journée Facebook génère 500 To de nouvelles données. 1 ou 2 BNF par jour. 20000 disques Bluray. 2 milliards de j'aime. Toutes les 1/2h : analyse avec la solution “Hive”

La proportion des données non structurées est de plus en plus importante

Les 4 “V” du Big Data: volume, vitesse et variété, valeur

4eme valeur: Valeur

Une entreprise ne crée pas forcement des emplois, elle crée de la valeur. Dès qu'il n'y a plus de valeur, les emplois disparraissent.

Les entreprises dépendent du marché: c'est la loi du marché.

Si une entreprise n'innove pas, elle meurt. Apple et Samsung n'ont pas vocation à faire de projets humains: on peut les voir comme des toupies qui tournent sur elles-mêmes. Si n'évoluent pas, (avec des milliards de budget en amrketing) elles tombent et meurent.

Augmentation de la valeur des résultats.

Une question? Posez-la ici

Besoin de la formation complète Big Data (Cours + illustrations + QCM de validation des connaissances) ?

Big data formation gratuite en ligne : Les « 4V »

Les 4 “V” complémentaires du Big Data, variance, véracité, viscosité, viralité.

La synthèse: thèse, antithèse, synthèse: après les traitements, on genère de la qualité dans les résultats.

Sur du Cloud, Hadoop, Cloudera…

La fusion des résultats des traitements est reintégrée dans des architectures classiques SGBDR, puis visualisation.

Au fil du temps

1970: OLTP, données au repos
1983: Datawarehouse, traitements de l'historique, l'histoire des données
2010: stream computing, traitements en temps-réel.

Comparaison entre données structurées et données non structurées

Map reduce, modèle qui prend en compte le système de stockage, sous clé-valeur

Ce qui nous intérésse c'est de regarder ce fonctionnement particulier: fichiers disribués, comment ça fonctionne?

Map Reduce, comment ça fonctionne? Comment est-ce qu'on peut l'utiliser?

Big data formation gratuite en ligne : Les modèles prédictifs

Les outils

Un exemple: le LHC, le grand accelerateur de particules entre la France et la Suisse
C'est la construction humaine la plus sophistiquée qu'il puisse exister.

Fait en sorte que 2 particules se rencontrent. On met des appareils photos pour voir ce qu'il se passe. Les particules sont petites, mas le tunnel est très grand.
Des detecteurs : des centaines de millions de canaux de mesures
Du traitement: le Big-Data ne suffit pas à traiter toutes ces infos.
Experiences de la taille de la hauteur de 4 cathédrales.
Experience “Atlas” en 2005.
2000 ordinateurs qui traitent l'information
60 000 fibres optiques pour transporter l'informations vers les centres de traitements, les laboatoires associés, les universités, etc.

Collision: le boson de X est detecté. Des photos sont prises à 100 millions de pixels. Il prend 50 millions de photos à la seconde. Haut comme un immeuble de 10 étages, 40 mètres de long. Il ne doit pas subir les agressions de l'environnement.

La lune a des influences sur ce dispositif. Il faut corriger.

Les modèles prédictifs

Ces produits font des prévisions.

Outils d'aide à la décision.

Technologie de prédiction. Mathématiques

Prévisions métérologiques, vols des compagnies aériennes.

Utilisation en finance de marché

Finance de marché: 99% des transactions sont faites automatiquement par des robots: “micro cracks”
Les “finance à haute fréquence” : les serveurs sont directement sur les places de marchés pour gagner en milli-secondes, ce qui crée des fois des catastrophes.

Big data formation gratuite en ligne : Le marketing digital

1er utilisateur des techologies des outils big datas.

Voie les documents de “data gueule”, sur leur chaine youtube.

Avec le fameux slogan : “quand c'est gratuit, vous etes le produit”

Ca peut révolutionner des secteurs entiers de l'activité.

L'idée est toujours un peu la même.

Modèles predictifs évolués: Drivetrain

On fonctionne souvent de cette manière, on a définit un modèle.

Se fixer des objectifs
Se poser la question: qu'est-ce que je veux faire, quel est le problème?
Quel est l'objectif du modèle prédictif que je veux mettre en place?

Quels sont les leviers d'action? Les leviers sur lesquels je peux agir?

Etude des leviers en fonction des uns des autres.

Campagne marketing, lancer un produit, etc?

Quels sont les paramètres sur lesquels j'ai un degrès de liberté? Le prix, le packaging, etc. Que l'on peut faire varier avec des leviers. En fonction des variations, on obtient des résultats.

Le modèle est instancié par les données qui lui sont fournies.

Les équations différentielles, modèles dérivables.

Modeler, simulator

Passage du marketing

Avec le Big-Data, on a l'emergence d'un nouveau métier, qui lui dans les prévisions va faire défaut.

Pénurie de “data-scientists”, forte culture de mathématiciens. Projections, corélations, modèles mathématiques.

Exemple de la voiture autonome, Testla…
objectif: eviter les accidents
Leviers: en fonction des situations, accélerer, ralentir...
Données: capteurs du véhicule, il fait beau, pas beau, chaussée glissante...
Modéles: simulations

Exemple: EDF/GDF suez utilise ces outils pour savoir où forer, optimiser et être le plus efficace possible dans leur exploration. Ca se retrouve dans la distribution, l'exploitation, etc.

Mais inquiétude énorme: problème des dérives liées à la vie privée.

Le “patrioct-act” c'est qu'on souhaite pouvoir accéder à toutes les données. Le gouvernement demande les clés pour pouvoir accéder à tout. Dérive possible. C'est de pire en pire.

Trucrypt a été banni. Prism.

Grandes tendances niveau marketing. Sociologie. Incursion dans la vie privée.

Marketing psychanalitique, individualisé. Message de plus en plus ciblés.

La pub, c'est de la manipulation.

Une question? Posez-la ici

Besoin de la formation complète Big Data (Cours + illustrations + QCM de validation des connaissances) ?

Big data formation gratuite en ligne : un grand acteur du big data, le cookie

Modèle de la session HTTP.
Identifiant de session créé lors de la 1ere connexion. Conservé coté serveur et coté client.
Representer un identifiant de session par les cookies.

Cookie de session créé et conservé sur le navigateur, uniquement le temps de la session.
Plugin cookie, lightbeam, Tout est tracé.
lightbeam for firefox

Amazon et les études comportementales de recommendation d'achat

Le problème de la bulle de filtres

Google, Facebook, Yahoo... L'idée de ces recommendations d'achats et de ces analyses retraduit les croyances des gens: “La droite et la gauche” en politique

Cette pensée se transforme en croyance, en dogme.

Les algorithmes d'apprentissage sont en open source.

On trouve beaucoup de data-scientists dans la finance, Tony Morisson, William Fau...

Modèle général pour une stratégie marketing “big data”

Protection des données? La loi n'est plus adaptée.

On a la possibilité de demander le déréfencement pour que les moteurs de recherche n'indexent plus nos données. Il faut insister, jusque dans une certaine mesure.

Les banques acceptent les demandes de prêt en fonction de votre lieu de vie, les assurances vie modulent leurs tarifs en fonction de votre activité physique lue sur votre montre connectée.

“Personnalisation” est un autre mot pour discrimination

Exemple d'étude Facebook et du nombre de clics sur un article: "les vrais trucs que les blancs aiment” : utiliser les informations pour en déduire la race.

Male Spitz et le mur de Berlin

Réglementer? Lier la donnée à son mode d'usage

Exemple de cartographies des epidemies faites sur twitter, en fonction des tweets. Le Big data permet d'éviter les contaminations (Coronavirus)

Big data formation gratuite en ligne : le paradoxe de l'information

Cornell Michael Schmidt ont découvert des lois naturelles à partir des données expérimentales.
Peut-on extraire des modèles automatiquement à partir de nos données?
Trouver un invariant?

Système de double pendule, dont les mouvements sonr régis par la mécanique classique.

Vidéo du pendule à double balance

2ème loi de Newton

L'intuition inconsciente: au lieu de traiter 5 ou 6 informations, notre cerveau traite des millions d'informations avec notre inconscient.

Le machine learning, la découverte, se fait par essai/erreurs, comme un enfant qui découvre son monde.

Cet article reflète exclusivement l'opinion de ses auteurs et n’engage en aucune façon Consultingit. J'espère que ça vous a plu.

Besoin de la formation complète Big Data (Cours + illustrations + QCM de validation des connaissances) ?