Articles Tagués ‘Data Explorer’

Slides et sources de mes sessions aux TechDays

11 février 2012

J’espère que j’aurai le courage de faire quelques posts sur les TechDays mais dans un premier temps, je vous livre les slides (et les sources quand il y en a) sur mes sessions.

Pour les impatients, tout le contenu sur mon SkyDrive

 

Data Explorer : Self-Service ETP (Extract-Transform-Publish)

Si j’avais dû en garder qu’une, ça aurait été celle la. Ce nouveau produit va faire du bruit dans les mois à venir !

image

La sécurité avec SQL Server

Une répétition de la session de l’année dernière mais la répétition des messages en matière de sécurité, c’est juste essentiel.

image

SQL Server et les développeurs

Merci David pour cette session d’initiation aux problématiques de base de données à des développeurs (certes très bons avec du C# ou du XAML mais peu aguerris à l’art ancestral du SQL ou des index).

image

Reporting Services en 2012

Une session sur Reporting Services de 2008 à 2012. Les nouveautés mais aussi un rappel sur les composants actuels (Sparklines, Cartographie, etc.).

image

Sharepoint et SQL Server pour les étudiants

Une session un peu spéciale pour présenter les métiers et le quotidien des Sharepointers et des spécialistes SQL. Affaire à suivre Sourire

image

Data Explorer aux TechDays

9 février 2012

Peu de monde à ma session Data Explorer mais des dizaines de convaincu sur la Self-Sevice BI.

image

Just for 4 fun, un petit rapport qui consomme une publication Data Explorer qui se connecte à l’API de foursquare pour récupérer mon historique de checkins…en live.

image

PS : je centraliserai les slides et le code de l’ensemble de mes sessions dans un prochain post.

Re-PS : vous aurez également le webcast bien évidemment

Data Explorer 101

18 janvier 2012

Je parle de Data Explorer depuis quelques articles mais sans rentrer dans le dur : une démo.

L’objectif de cet article est de vous proposer un tutorial pour démarrer, un one-o-one comme dit dans le jargon.

Avant de commencer

Il vous faut un accès à Data Explorer. La beta est publique mais il faut quand même une invitation. Ca se passe ici :  https://dataexplorer-signup.sqlazurelabs.com/

Vous pouvez aussi commencer avec la version on-premices : télécharger Data Explorer

En premier lieu, choisir la source

C’est simple, il suffit de piocher dans les types de sources disponibles. On retrouve les classiques (fichiers, SQL, web, etc.). Je détaillerai dans d’autres articles les sources un peu exotiques. Là on va faire simple, on va prendre un CSV.

image

On choisit donc notre source en cliquant sur Import File.

image

Un peu de vocabulaire et de bases :

  1. en haut à gauche, c’est le mashup, l’équivalent d’un package en ETL (retenez le, c’est là que vous faites Ctrl+S)
  2. dans la colonne de gauche, ce sont les ressources. On peut les comparer à des flux (Data Flow Task pour les SSIS-guys) mais c’est plus “compliqué” que cela, j’y reviendrai dans d’autres articles
    l’icone en forme d’oeil à côté indique si la ressource (ie. le flux) est visible, c’est à dire s’il sera publié, ou s’il est purement interne
  3. Tâches de la ressource : c’est un fil d’Ariane qui montre l’enchainement des tâches à appliquer sur le flux de données (comme des composants de DFT)
  4. Tools : c’est votre Toolbox où vous choisissez les tâches à ajouter dans la ressource
  5. Formule : toute tâche peut s’écrire avec une formule à la Excel. Vous noterez ici que lire un fichier se fait avec la méthode Embedded.Content().
  6. Configuration de la tâche : si vous ne connaissez pas la syntaxe des tâches, vous pouvez utiliser le panneau de configuration de la tâche

Ajouter des transformations

Nous avons notre source CSV dans la ressource qui s’appelle Musees (c’est la liste des musées de France). Appliquons maintenant des transformations pour exploiter cette source. Dans l’ordre, nous allons :

  • typer la source en CSV
  • déclarer la première ligne comme entête des colonnes
  • filtrer des lignes
  • supprimer des colonnes

Typage de la source

image

Il suffit juste de cliquer sur la tâche CSV dans la toolbox.

Déclaration des entêtes

image

On promeut la première ligne comme entête de colonnes

Filtrer les lignes

On ne veut que les musés ouverts (donc colonne ferme=NON).

image

On verra dans d’autres articles la notion de type; ici on considère le champ comme du texte (Text.Type) donc attention à la casse. Pour sécuriser, on aurait pu utiliser la fonction Text.Upper()

Supprimer des colonnes

La colonne “ferme” ne nous sert plus à rien donc on va la supprimer (masquer) du flux.

image

Vous devez avoir un flux qui ressemble à cela :

image

Note : vous pouvez renommer les tâches pour donner un peu plus de sens (documentez !)

Publication

Il nous reste à publier le flux pour une exploitation (PowerPivot, SSRS, etc.).

La première chose est de sauvegarder (en haut à gauche) et de revenir sur votre workspace (en haut à droite).

image

Clic-droit –> Publish, simple non ? Vous avez aussi un bouton Publish en bas et les options de publication.

image

Une fois publié, vous avez accès à une page contenant tous les liens d’accès aux données (OData, Excel, CSV, etc.).

image

Et voila.

Bon mashup !

Philosophie autour de Data Explorer : find the pony in your data

16 janvier 2012

imageIl y a quelques temps, lors d’une discussion BI, nous nous sommes interrogés mon interlocuteur et moi sur ce sujet : comment trouver des événements exceptionnels dans nos données ?

Événements exceptionnels ? J’entends par là des patterns dans les faits ou des faits suffisamment particuliers (ou hors-normes) pour avoir un “intérêt” métier. On peut appeler cela anomalies, cas aux limites, intuition, etc.

Tous les SI contiennent une masse impressionnante de données et je milite depuis toujours pour construire des projets décisionnels et de les exploiter.

Mais bien souvent lors de la modélisation, le réflexe est d’assainir les données, en ne prenant que le plus simple finalement. Cette simplification arrondit les angles et en conséquence rabote les événements exceptionnels.

Ce n’est pas par laxisme évidemment ; c’est parce que c’est le chemin le plus court (et donc celui qui rentre dans le budget) pour obtenir des résultats exploitables par le client et évidemment des résultats corrects, qui est un prérequis en BI.

Il y a une expression anglaise qui dit : “find the pony”. Je n’ai pas trouvé d’expression équivalente dans la langue française mais on pourrait la traduire par “trouver la pépite

On est tous d’accord que chercher cette pépite dans nos données est une tâche compliquée voire impossible quand la volumétrie s’exprime en To.

Comment le trouver ce poney ?
(non on ne va pas voir Bonjour Poney Florent)

La première piste est de trouver un outil qui va nous aider dans la recherche, c’est le propos du Data Mining. (NDM : j’ai failli mettre méthodologie au lieu d’outil – le débat est ouvert).
Soit, cet outil se base sur une logique humaine (si on considère que les dataminers sont humains) et le résultat doit être interprété par un œil humain (pour les algos de pure découverte).

La réflexion porte donc sur la capacité du cerveau humain à identifier rapidement des patterns, à détecter en un clin d’œil une anomalie ou tout simplement à imaginer des associations.
C’est le propre de l’homme et certains en font leur métier ; c’est le cas des artistes ou des marketeux (évidemment, dans le lot, certains sont talentueux).image

Donc imaginons que tout le monde soit "data miner", imaginons que des services entiers (marketing par exemple1) scrutent les données dans tous les sens.

 

Quelle force de frappe on aurait !

Eh bien, c’est un des aspects de la BI en Self-Service et de l’ouverture des données (OData par exemple). Cause ou conséquence, la poule ou l’œuf ?
En tout cas ces 2 courants, simples buzz il y a quelques années (note : je n’ai pas cru à OData en 2008 Triste), sont maintenant une réalité.

L’idée n’est pas d’avoir un outil magique qui trouverait tout seul mais donner accès massivement aux utilisateurs et de les laisser fouiller en libre accès. Ainsi on bénéficie d’un nombre important de cerveaux humains prêt à jouer avec les données dans tous les sens.

L’armée mexicaine en quelque sorte.

Armée mexicaine

 

Mais concrètement, ils doivent faire quoi mes utilisateurs ?

Evidemment, il faut quand même des outils car vous vous doutez bien que les utilisateurs ne vont pas écrire des SELECT *.

Là interviennent des outils comme PowerPivot et Data Explorer. Le premier est très mature et se concentre sur le croisement des données. Le second, encore en beta, va permettre de créer des mashup et de faire du traitement de données (nettoyage, consolidation, reformatage, etc.).

Leur point commun est que l’utilisateur est autonome dans sa relation avec les données dès l’instant où il y a accès.

Je reviendrais un peu plus sur Data Explorer dans les prochains posts et évidemment, je vous recommande ma session aux TechDays avec plein de démos.

Allez les utilisateurs, on fait chauffer les neurones et on augmente la maturité BI de sa boite.

 

1 j’ai une grande admiration pour les métiers du marketing, c’est pourquoi je les “chalenge” un peu. Il n’y a pas de mauvais esprit ou un contentieux à régler Tire la langue


Suivre

Get every new post delivered to your Inbox.

Joignez-vous à 204 followers