Session avec SQLCAT – SSAS et Big Data

imageHier, je suis allé à une session présentée par l’équipe SQLCAT (Customer Advisory Team) sur le cube Analysis Services  de Yahoo! qui ne fait pas moins de 24To.

SQLCAT est une équipe dédiée à l’architecture et la mise en œuvre de SQL Server sur des (très) gros environnements. On leur doit presque tous les livres blancs sur les performances SQL Server.
Ce sont aussi eux qui ont battu le record de chargement de données avec 1To en 30 minutes avec SSIS.

La session était très complexe, les speakers survoltés (et donc parlant très vite avec tout un tas de traits humoristiques que j’avais du mal à suivre). Je ne vais donc pas en faire un compte-rendu détaillé.

Ce que je veux partager avec vous, c’est la philosophie qu’il y a derrière une solution de cette taille (on parle de milliers de milliards de lignes).

Vous aurez peut-être deviné, il y a de l’Hadoop et du HiveQL dans la solution pour extraire et traiter les logs depuis les systèmes de fichiers de Yahoo!.

Ce n’est que pure spéculation, mais j’ai bien l’impression que ce projet a été très impliqué dans les phases de développement du driver Hadoop de SQL Server 2012

Revenons à la BI. Derrière, il y a bien un cube SSAS ; et pas d’Hadoop de ce côté là.

La clé est le partitionnement.

C’est la solution pour intégrer 135Go de données par jour et pour les processer (les traiter – pardon pour l’anglicisme).
Les partitions sont très petites ; les 135Go sont eux mêmes partitionnés pour avoir du quasi temps réel (near-time). Et régulièrement, les partitions sont fusionnées (commande XMLA MergePartitions).

L’autre point important est une modélisation simple et relativement rigide. On le comprend aisément, si les dimensions changent tous les 4 matins, on a un risque de devoir reprocesser l’ensemble des 24To. On est donc dans du pur ProcessAdd (si je parle en XMLA).

Bref, de beaux challenges à résoudre et j’adorerais passer un jour dans l’équipe pour aborder tout cela avec eux.

 

Pour le fun, voici quelques notes sur les éléments physiques de la solution :

  • 128 Cores
  • 2TB RAM
  • SAN : 400TB
  • 1M IOPS
  • 36Go/s en lecture depuis le DWH

 

Le conseil du jour de la part de Denny Lee :

Créez une nouvelle partition dans SSAS dès que la taille de la partition atteint 4Go

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s