PASS Summit – Keynote 2

Quentin Clark, Corporate VP, nous parle du Data Lifecycle (tiens, ça me rappelle ma première présentation BI il y a quelques années qui s’appelait "le voyage de la donnée").

La présentation fait une synthèse des outils que l’on a autour des données (et de SQL Server évidemment) ainsi que de ses usages, que ce soit dans un cluster HADOOP, dans un DWH PDW, dans un ETL ou dans une analyse Power View.

La démo s’appuie sur une histoire, certes simplifiée, mais tellement représentative de ce que les entreprises pourraient tirer comme bénéfices en analysant leurs données (et que certaines font déjà).

L’histoire tourne autour d’un cinéma qui cherche à optimiser ses places par film.

 

HADOOP & PolyBase

L’histoire commence avec des données provenant de Twitter (tiens, il y avait longtemps) et vous vous doutez bien qu’elles vont atterrir dans un Cluster HADOOP. A côté, nous avons un DataWarehouse sur PDW.

Évidemment, l’analyste (en l’occurrence Julie Strauss, Program Manager), a besoin de croiser les 2 ; les “sentiments” sur les films en provenance des réseaux sociaux avec les films et les salles qui viennent du DataWareHouse maison.

Cela est possible avec PolyBase qui sait requêter et joindre des données SQL Server et HDFS.

Tout ceci pour remettre une louche sur les annonces de la veille évidemment. On a même vu un peu de PDW pour le côté “management” de la donnée.

 

Data Explorer

L’idée ensuite est de nettoyer ces données. Evidemment, nous sommes toujours avec notre Data Analyst Julie qui ne connait rien aux ETL et n’a que Excel comme outil.

L’an dernier, je vous parlais de Data Explorer (j’ai même fait une session d’une heure aux TechDays). Il a bien grandi depuis févier.

Il est maintenant intégré dans Excel ! Et le moins qu’on puisse dire, c’est que l’ergonomie a grandement été améliorée avec de meilleures interfaces. Pour faire une opération sur une colonne (cache, split, merge, etc.), il suffit de faire un clic-droit dessus par exemple.

Data Explorer avait déjà une bonne gestion des types mais elle semble avoir encore été améliorée. Par exemple, un merge de 3 colonnes contenant jour/mois/année est converti en date automatiquement.
(mais j’attends de voir ce que ça donne dans une culture comme fr-FR)

Un changement dans la présentation de l’outil, on ne parle plus de Publish (ETP) mais de Copie.
En sauvegardant une copie, d’autres utilisateurs pourront réutiliser le mashup.

On peut évidemment l’intégrer dans la feuille Excel ou l’importer directement dans le Data Model (PowerPivot).

Data Explorer est en passe de devenir un vrai ETL for masses comme on l’imaginait dès le départ. Le trou dans la raquette va être comblé.

Je n’ai pas de capture d’écran à vous montrer mais dès que je peux, je ferai un petit article dessus.

 

PowerPivot

PowerPivot ? Il ne vient pas d’y avoir une mise à jour récemment ? Exact mais ce n’est pas pour autant que le produit ne continue pas à évoluer.
Ce qui a été présenté rejoint Data Explorer et sa version présentée l’année dernière.

Dans PowerPivot, on a une proposition de catégorisation des données (des colonnes en fait). Cela ajoute toutes les méta-données qui font d’une simple table un élément d’un modèle sémantique.

L’exemple présenté montre des données géographiques  et on les tag comme telles (pays, région, etc.).
(Ca ne vous rappelle pas la propriété Type sur un attribut de dimension en multidimensionnel ? Sourire)

Mais le truc fantastique qui en découle, c’est qu’on peut ensuite aller chercher des données associées à notre qualification dans l’Azure Data Market.
La démo montre l’ajout des ZipCodes sur nos données géographiques (il n’y avait que les villes).

Enfin, le détail final, la possibilité de rafraichir directement depuis Excel / PowerView (dans la démo, Julie change une valeur dans le DWH avant).

 

Transformation en BISM

Le Data Life Cycle ne peut pas être bouclé si on ne parle pas de la gestion opérationnelles des données (ie. le boulot des admins qui maintiennent les infrastructures derrière)

Dans la démo, en regardant les statistiques d’usage de PowerPivot dans SharePoint 2013, on voit que notre classeur prend beaucoup de ressources. L’idée est donc de le transformer en un vrai modèle BISM et de le déployer dans SSAS, plus adapté pour gérer des workload d’analyse (notamment avec la prise en charge des partitions).

La démo montre un import de notre classeur PowerPivot dans SSDT qui le transforme en fichier BIM que l’on pourra déployer dans un SSAS Tabular. Facile, mais on reste avec les limitations du tabulaires (cf. l’article de la FrenchConnection.BI).

 

Au cours de la démo, nous avons vu aussi le réplication synchronisation de nos données sur Azure. Histoire de partager rapidement des données entre filiales ou entre partenaires par exemple. Très facile avec Data Sync.

 

En conclusion

Evidemment, tout ce qui a été montré lors du second keynote n’est pas encore disponible (je pense à Data Explorer en particulier). Mais Microsoft nous donne ses orientations et on devine la RoadMap (même si nous n’avons aucune date Triste).

Je m’inscris totalement dans le direction que prend MS et je pense qu’ils affirment encore plus leur place de visionnaire et de leader sur ce marché.

Maintenant, il est important pour les entreprises de ne pas se laisser distancer. La BI est un avantage concurrentiel, un outil pour faire mieux son Business !

Les outils sont là. Les experts sont là. Allez-y !

Je terminerai en citant Quentin Clark :

How your business gonna change ?

Une réflexion sur “PASS Summit – Keynote 2

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s