Le Global Azure Bootcamp, c’est une conférence sur les technologies Azure qui a lieu le même jour dans de très nombreuses villes autour du monde.
Il est organisé par les communautés locales. En France, c’est AZUG FR qui est aux commandes avec, pour la 5ème édition, l’organisation de l’événement dans 6 villes : Paris, Lyon, Nice, Aix-en-Provence, Strasbourg et Bordeaux.
Pour ma part, j’ai eu le privilège de présenter une session à Paris sur Azure Data Lake. J’avais déjà donné cette session au SQLSaturday de Montréal le mois dernier. J’étais cette fois-ci brillamment secondé par Fabien Adato, MVP Data Platform.
Avec Fabien, nous avons également animé un Lab de 2 heures sur Azure Data Factory et Power BI Embedded.
Azure Data Lake, le Big Data 2.0
Azure Data Lake est LA technologie « big data » maison de Microsoft. En provenance de MS Research (nom de code Cosmos), elle est utilisée en interne par les équipes X-Box, Bing, O365 depuis quelques années déjà. Cette technologie est disponible depuis l’été dernier dans Azure et s’enrichit mois après mois.
ADL, concrètement, c’est quoi ? C’est la possibilité de stocker et analyser une quantité illimitée de données et de requêter avec un nouveau langage : le U-SQL
Dans cette session, vous découvrirez Azure Data Lake et toutes les possibilités qui s’ouvrent à vous
Vous pouvez retrouver les slides de notre session sur mon Slideshare. Si vous voulez récupérer les sources (requêtes U-SQL), contactez-moi directement (@Djeepy1)
Questions sur Azure Data Lake
En fin de session, nous avons eu les questions suivantes auxquelles nous n’avons pas répondu totalement. Je les retranscris ici, avec les réponses évidemment.
Azure Data Lake Store (ADLS) est-il géo-redondant ?
ADLS ne dispose pas de redondance géographique entre différentes régions Azure contrairement au stockage Azure Blob. ADLS est uniquement « Locally-redudant« , c’est à dire qu’il y a de multiples copies des données dans une région Azure.
Plus d’infos : https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-with-blob-storage
Quelle est la version de HDFS pour ADLS ?
Plus précisément, Azure Data Lake Store est compatible WebHDFS (API REST), ce qui lui permet d’être utilisé dans un cluster HADOOP HDInsight. La version de l’API est la 2.7.2.
Plus d’infos : https://docs.microsoft.com/fr-fr/rest/api/datalakestore/webhdfs-filesystem-apis