Google BigQuery : Analysez des données massives et accélérez vos insights. New
Explorez la puissance de l'analyse de données Big Data avec Google BigQuery.
BigQuery est un entrepôt de données cloud sans serveur, hautement scalable et rentable, qui vous permet d'exécuter des requêtes SQL sur des téraoctets de données en quelques secondes. Cette formation d'une journée vous permettra de comprendre le fonctionnement de BigQuery et de découvrir comment l'utiliser pour analyser des données massives, construire des data lakes et des data warehouses, et créer des pipelines de données performants.
La formation aborde les contenus techniques suivants :
- Connaissance des outils Google de traitement des données
- Connaissances des produits et services de calcul et de stockage Google
- Connaissance de Datalab
- Compréhension du fonctionnement de BigQuery
Niveau intermédiaire
Durée de la formation
Début de la formation
Objectifs de la formation
Les compétences visées par la formation sont les suivantes :
- Traiter des données par lot ou par flux en mettant en oeuvre des pipelines de données sur Dataflow
- Obtenir des insights métier à partir d’ensembles de données volumineux à l’aide de Big Query
- Exploiter les données non structurées
Prérequis pour la formation
Connaissances du langage SQL ou avoir suivi la formation Le Langage SQL
Programme
de la formation
- Construire un data lake
- Introduction aux data lakes
- Stockage de données et options ETL sur GCP
- Construction d’un data lake à l’aide de Cloud Storage
- Démonstration : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
- Sécurisation de Cloud Storage
- Stocker tous les types de données
- Démonstration : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
- Cloud SQL en tant que data lake relationnel
- Construire un data warehouse
- Le data warehouse moderne
- Introduction à BigQuery
- Démonstration : requêtes de Terabits de données en quelques secondes
- Chargement de données
- Démonstration : interroger Cloud SQL à partir de BigQuery
- Explorer les schémas
- Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
- Conception de schémas
- Champs imbriqués et répétés
- Champs imbriqués et répétés dans BigQuery
- Optimiser le partitionnement et le clustering
- Démonstration : tables partitionnées et groupées dans BigQuery
- Transformation de données par lots et en continu
- Introduction à la construction de pipelines de données par lots
- Les approches d'intégration EL, ELT et ETL (Extraction, chargement et transformation de données)
- Les considérations de qualité
- Comment effectuer des opérations dans BigQuery
- Démonstration : ELT pour améliorer la qualité des données dans BigQuery
- Les lacunes
- ETL pour résoudre les problèmes de qualité
- Exécution de Spark sur Cloud Dataproc
- L'écosystème Hadoop
- Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
- Optimiser Dataproc
- Traitement de données sans serveur avec Cloud Dataflow
- Cloud Dataflow
- Pourquoi les clients apprécient-ils Dataflow ?
- Pipelines de flux de données
- Templates Dataflow
- Dataflow SQL
- Exercices pratiques
- Charger une base de données dans Cloud SQL
- Charger des données
- Travailler avec des tableaux et des structures
- Exécuter des jobs sur Cloud Dataproc
- Mettre en place des pipelines de flux de données
Prix de la formation
Prix plein: 400€
En savoir plus sur nos tarifsPersonne de contact
Formateur :
bstorm est une entreprise belge de services informatiques comptant 50 experts, spécialisée dans la transformation digitale, l’analyse de données et le développement de solutions sur mesure. Son expertise en analyse de données permet de transformer des volumes d’informations complexes en insights exploitables, offrant des outils puissants pour optimiser la prise de décision et les performances des entreprises. En complément, bstorm est un acteur reconnu de la formation professionnelle.