BigQuery est un service webRESTful intégré à Google Cloud qui permet l'analyse interactive massive de grands ensembles de données en collaboration avec l'espace de stockage Google. C'est un logiciel en tant que service (SaaS) qui peut être utilisé en complément de MapReduce.
BigQuery est également un entrepôt de données d'entreprise de Google, en mode sans serveur, donc sans infrastructure à gérer. Les requêtes peuvent être écrites en SQL legacy ou en SQL standard. Cet outil google permet d'analyser les données situées dans un entrepôt logique. Un entrepôt logique contient des datasets (bases de données). Les datasets contiennent des tables ou des vues. Le service est gratuit jusqu'à 1 To de données analysées par mois et 10 Go de données stockées[1].
Histoire
Après une période de tests en 2010, BigQuery a été rendu globalement disponible en novembre 2011, lors de la conférence Google Atmosphère[2].
En 2014, MapR a présenté le projet Apache Drill, qui vise à résoudre des problèmes similaires[3].
En avril 2016, les utilisateurs européens du service ont subi une interruption de 12 heures[4].
Depuis mai 2016, les Feuilles de calcul Google peuvent utiliser BigQuery[5].
Conception
BigQuery fournit un accès externe à la technologie Dremel[6],[7], un système évolutif, interactif ad hoc sur le système de requête pour l'analyse de la lecture seule de données imbriquées. Pour utiliser des données dans BigQuery, celles-ci doivent d'abord être téléchargées sur le stockage de Google et ensuite importées à l'aide de l'API HTTP de BigQuery. BigQuery exige que toutes les demandes soient authentifiées via un mécanismes d' authentification OAuth.
Surveillance et journalisation complètes avec Stackdriver.
Maîtrise des coûts
Caractéristiques
La gestion des données - créer et supprimer des tables sur la base d'un schéma codé JSON, importer des données codées au format CSV ou JSON à partir de l'espace de stockage Google.
Requête - les requêtes sont exprimées dans la norme du langage SQL[8] et les résultats sont retournés en JSON avec une réponse de taille maximale de 128 Mo, ou de taille illimitée, lorsque le critère "grands résultats" est activé[9].
↑Sergey Melnik, Andrey Gubarev, Jing Jing Long, Geoffrey Romer, Shiva Shivakumar, Matt Tolton et Theo Vassilakis, « Dremel: Interactive Analysis of Web-Scale Datasets », Proc. of the 36th International Conference on Very Large Data Bases (VLDB),