Dis papa, c’est quoi l’Open Data

image

Récemment, on m’a demandé ma vision sur Open Data. Je me suis donc lancé dans une “courte” explication qui s’est terminée en un dump de toutes mes convictions sur le sujet. Un vrai éditorial.


Open Data peut se comprendre de 2 façons :

  • « Ouverture » des données
  • OData

 

Le protocole OData est un moyen technique de diffuser de la donnée simplement (en s’appuyant sur des protocoles comme REST et un format comme XML).

Il est notamment utilisé par les outils de BI pour exposer ou consommer des « flux de données ». Toute la stack MS en fait bon usage.

Le protocole est plutôt conventionnel sur le marché mais en règle général, il faut offrir plusieurs formats (dont l’indétrônable CSV sur un FTP) pour couvrir l’ensemble des consommateurs de données potentiels.

 

On parle également d’Open Data dans le contexte de rendre public des données. Là, on est sur une philosophie à la mode depuis 2 ans qui vise à “libérer” les données dites brutes pour qu’elles soient exploitées par tout un chacun.

Les Data-Journalistes et Data-Scientists sont les populations qui consomment le plus ces données là et on voit fleurir des créa graphiques dans les journaux et magazines utilisant ces données à des fins d’investigation.

On a vu aussi l’émergence de petites applications (le marché des smartphones et tablettes a eu son effet aussi) exploitant ces données dans un mode consultatif, souvent ludique de surcroit.

En France, on peut noter l’initiative des Data Tuesday qui fédère cette population et œuvre pour l’utilisation massive et intelligente des données, d’où qu’elles viennent.

Mais on est encore loin d’un usage par madame Michu.

Le problème est que ces données publiques arrivent au compte-gouttes (la France a souvent été pointé pour son retard) mais surtout, l’intérêt de ces données est discutable.

En effet, les données ouvertes par les administrations sont souvent très pauvres ou alors très spécifiques (ex : l’emplacement des sanisettes à Paris).

De plus, le format est très souvent inexploitable sans un retraitement manuel (fichiers Excel, format non tabulaires, etc.).

Les données de la France sont sur http://www.data.gouv.fr/; on notera que la France rattrape ses lacunes.

Dans un contexte Business Intelligence, on exploite de plus en plus des données dites exogènes en plus des données d’entreprise que l’on trouve dans les DataWarehouse. L’Open Data répond parfaitement à ces  besoins d’analyses croisées mais se posent 2 problèmes :

· Avoir des données propres et fiables

· Avoir des données à valeur ajoutée

C’est pourquoi dans un contexte professionnel l’Open Data dans sa philosophie première ne trouve pas son usage (hormis l’aspect données-vitrine).

En revanche, cette philosophie me semble très adapté dans un contexte ”marchand” (on dit premium, c’est plus hype).

Par exemple, si vous voulez des données de population, vous prenez un contrat premium avec l’INSEE qui vous fournit des données propres, fiables, à valeur ajoutée dans un format exploitable. Il est en de même avec ESRI ou IGN pour des données géographiques.

C’est un marché encore jeune mais plein d’avenir. Microsoft l’a bien compris et vois cela comme un enjeu de la Business Intelligence à court terme. On le comprend avec la démo du PASS Summit de Data Explorer dans Excel (encore en bêta) qui se branche sur Azure Data Market, véritable portail de donnée ouvertes.

Démo Data Explorer à la Keynote du PASS Summit (allez directement à 1h30)

Mais quelle différence en Azure Data Market et les données des administrations ?

Azure Data Market (https://datamarket.azure.com/) est une infrastructure gérant la diffusion, l’indexation, la recherche et surtout la monétisation des données à valeur ajoutée.

Une entreprise disposant de données « intéressantes » peut donc les vendre (ou les donner, c’est aussi possible) via ce portail (et donc gagner le stockage, la bande passante, le développement du portail, etc.).

Actuellement, c’est très américano-américain mais Microsoft cherche des acteurs pour enrichir ce portail.

L’intérêt pour une société :

  • Exposer des données publiques gratuitement, le portail assurant la logistique et une diffusion étendue
  • Monétiser des données à valeur ajoutée vers ses partenaires ou d’autres organismes qui les consommeraient

Mais attention, cela implique d’être mature sur sa gouvernance de données. En effet, il faut être déjà dans une démarche de MDM, disposer de référentiels établis, maîtriser le processus d’acquisition, de nettoyage (dédoublonnage par exemple), avoir ce que l’on appelle des Data-Steward, etc.

Bien gérer ses données est un gros sujet pour une entreprise dont la technique est loin d’être le principal enjeu.

Mais je pense (et les analystes Gartner, Forrester, HarryPotter, etc. s’accordent là-dessus), c’est un critère important pour sortir son épingle du jeu dans la crise le monde d’aujourd’hui et même rationnaliser ses couts et sa gestion.

J’espère avoir dressé un topo complet sur Open Data et pourquoi pas avoir répondu à vos interrogations.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s