Meriam Lachkar | Devoxx

Meriam Lachkar
Meriam Lachkar Twitter

From CRITEO

Ingénieur à Criteo depuis bientôt 3 ans, je suis dans l'équipe en charge des clusters Hadoop. Mon travail consiste d'une part à maintenir un système en production critique au business Criteo et à developper les outils autour de l'écosystème Hadoop.

cldops Cloud ,Containers & Infrastructure

Resiliency for a 140 PB Hadoop cluster

Conference

Le cluster Hadoop de Criteo est le plus large d'Europe, avec plus de 3000 serveurs qui représentent 220 PB de stockage. C'est la platforme sur laquelle reposent les algorithmes de ciblage publicitaire de Criteo, qui constituent le coeur de son activité. Pour la fiabiliser, la mise en place d'une redondance multi-DC a été décidée, et un deuxième cluster de taille équivalente a été installé sur un autre site. Le projet se devait de respecter :

  • des contraintes de dimmensionnement et de fiabilité
  • un minimum d'impact sur le travail des équipes métier

Hadoop n'intégrant pas de fonctionnalité de redondance multi-cluster, nous avons développé un outil permettant de synchroniser les données nécessaires à la reprise sur l'autre cluster en cas de panne d'un DC. Cet outil, nommé Mumak et écrit en Scala vise :

  • Une interface simple d'accès pour les utilisateurs (interface Web et API pour les actions intégrées aux jobs)
  • Une gesion scrupuleuse de la fiabilité des copies
  • La résilience et la fiabilité de l'application

Nous reviendrons sur les étapes du projet et sur les difficultés rencontrées lors de la mise en place d'une solution innovante pour la résilience de clusters Hadoop.