Philosophie autour de Data Explorer : find the pony in your data

imageIl y a quelques temps, lors d’une discussion BI, nous nous sommes interrogés mon interlocuteur et moi sur ce sujet : comment trouver des événements exceptionnels dans nos données ?

Événements exceptionnels ? J’entends par là des patterns dans les faits ou des faits suffisamment particuliers (ou hors-normes) pour avoir un “intérêt” métier. On peut appeler cela anomalies, cas aux limites, intuition, etc.

Tous les SI contiennent une masse impressionnante de données et je milite depuis toujours pour construire des projets décisionnels et de les exploiter.

Mais bien souvent lors de la modélisation, le réflexe est d’assainir les données, en ne prenant que le plus simple finalement. Cette simplification arrondit les angles et en conséquence rabote les événements exceptionnels.

Ce n’est pas par laxisme évidemment ; c’est parce que c’est le chemin le plus court (et donc celui qui rentre dans le budget) pour obtenir des résultats exploitables par le client et évidemment des résultats corrects, qui est un prérequis en BI.

Il y a une expression anglaise qui dit : “find the pony”. Je n’ai pas trouvé d’expression équivalente dans la langue française mais on pourrait la traduire par “trouver la pépite

On est tous d’accord que chercher cette pépite dans nos données est une tâche compliquée voire impossible quand la volumétrie s’exprime en To.

Comment le trouver ce poney ?
(non on ne va pas voir Bonjour Poney Florent)

La première piste est de trouver un outil qui va nous aider dans la recherche, c’est le propos du Data Mining. (NDM : j’ai failli mettre méthodologie au lieu d’outil – le débat est ouvert).
Soit, cet outil se base sur une logique humaine (si on considère que les dataminers sont humains) et le résultat doit être interprété par un œil humain (pour les algos de pure découverte).

La réflexion porte donc sur la capacité du cerveau humain à identifier rapidement des patterns, à détecter en un clin d’œil une anomalie ou tout simplement à imaginer des associations.
C’est le propre de l’homme et certains en font leur métier ; c’est le cas des artistes ou des marketeux (évidemment, dans le lot, certains sont talentueux).image

Donc imaginons que tout le monde soit "data miner", imaginons que des services entiers (marketing par exemple1) scrutent les données dans tous les sens.

 

Quelle force de frappe on aurait !

Eh bien, c’est un des aspects de la BI en Self-Service et de l’ouverture des données (OData par exemple). Cause ou conséquence, la poule ou l’œuf ?
En tout cas ces 2 courants, simples buzz il y a quelques années (note : je n’ai pas cru à OData en 2008 Triste), sont maintenant une réalité.

L’idée n’est pas d’avoir un outil magique qui trouverait tout seul mais donner accès massivement aux utilisateurs et de les laisser fouiller en libre accès. Ainsi on bénéficie d’un nombre important de cerveaux humains prêt à jouer avec les données dans tous les sens.

L’armée mexicaine en quelque sorte.

Armée mexicaine

 

Mais concrètement, ils doivent faire quoi mes utilisateurs ?

Evidemment, il faut quand même des outils car vous vous doutez bien que les utilisateurs ne vont pas écrire des SELECT *.

Là interviennent des outils comme PowerPivot et Data Explorer. Le premier est très mature et se concentre sur le croisement des données. Le second, encore en beta, va permettre de créer des mashup et de faire du traitement de données (nettoyage, consolidation, reformatage, etc.).

Leur point commun est que l’utilisateur est autonome dans sa relation avec les données dès l’instant où il y a accès.

Je reviendrais un peu plus sur Data Explorer dans les prochains posts et évidemment, je vous recommande ma session aux TechDays avec plein de démos.

Allez les utilisateurs, on fait chauffer les neurones et on augmente la maturité BI de sa boite.

 

1 j’ai une grande admiration pour les métiers du marketing, c’est pourquoi je les “chalenge” un peu. Il n’y a pas de mauvais esprit ou un contentieux à régler Tire la langue

6 réflexions sur “Philosophie autour de Data Explorer : find the pony in your data

  1. Mister Djeepy!

    Je suis convaincu que Data Exporer est un super outil. Microsoft fait un réel effort pour équiper nos utilisateurs et ça fait plaisir de voir que « BI self service » est bien plus qu’un slogan marketing pour notre éditeur préféré.

    Par contre pour le datamining, certes c’est une démarche humaine, mais faire ça sans les outils appropriés, à la mano, pour moi c’est aussi efficace que du pure random. A mon sens cette fameuse faculté humaine à voir des patterns partout part en sucette quand appliquée au décisionnel (et pas seulement). En effet elle a tendance à être dépassée dès que plus de 2 facteurs de causalité rentrent en ligne de compte, ce qui nous arrive tout le temps..

    Donc oui Microsoft nous équipe vraiment bien pour faire de la lecture de données, de l’analyse de premier niveau et de la correction. Mais pour le datamining à proprement parler, je laisse François Jehl me corriger, mais je pense qu’on est encore à la ramasse 😉

    Par dessus ça, je sais pas si tu as déjà essayé de mettre un poney dans une table avec des colonnes et des lignes, mais soit il se barre en arrachant ta cloture, soit ça finit en boucherie sans nom, genre à la Dexter 😀

    • Bon, j’avoue que le saut enter Data Explorer et le Data Mining est un peu grand pour le moment. Mais quand on voit l’avancée de la Self-Service BI, on peut espérer un Self-Service Mining dans quelques années.
      Je vois bien une convergence entre la maturité des utilisateurs (ie. qu’ils ne soient pas amorphes devant des données) et la simplicité du data mining (faut donner de soi quand même quand on utilise la logique naïve bayésienne).
      Maintenant, à nous de la porter (mais ça, on l’a déjà évoqué en apparté) !

      Pour le poney, celui là rentre dans un varchar(379)

      (\(\_
      _.o o`\\\\
      ("_ ))))
      '---' (((( .=,
      ) )))___.-""-./=;\\\
      / ((( \ ))))
      ; | |//
      /\ | | ((
      ( \ /__.-'\ / )
      / /` | / \ \ |
      / / \ ; \ (\ (
      \\_ || || ||
      \_] || || ||
      /_< /_</_<

      • C’est clair, moi aussi je l’attends l’équivalent de PowerPivot ou Data Explorer pour le data mining 🙂

        Pour ton poney, j’ai un peu l’impression que Dexter est passé par là :/

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s