
DuyHai DOAN
From Datastax
Duy Hai est évangéliste technique pour Datastax, l’entreprise commerciale derrière Apache Cassandra.
Il partage son temps entre donner des présentations/meetups/talks sur Cassandra, développer sur des projets open-source pour la communauté et aider les projets utilisant Cassandra.
Avant Datastax, Duy Hai a été développeur freelance Java/Cassandra

Apache Zeppelin, un notebook d'avenir pour l'éco-système Big Data
Spark et Cassandra sont des projets très populaires, mais avez vous entendu parler d'Apache Zeppelin ? Zeppelin propose un système de notebook pour pouvoir manipuler les données de manière interactive. Zeppelin repose sur un système de plugins qui permet de traiter des tâches Spark, des requêtes Spark SQL mais aussi des requêtes CQL de Cassandra.
Je montrerai comment construire un pipeline de transformation BigData en mélangeant du Spark, du Cassandra, du Shell, du Markdown, du ce-que-vous-voulez etc.
Votre framework préféré n'a pas encore de plugin pour Zeppelin ? Ecrivez-en un et partager le avec la communauté!

Algorithmes distribués pour le Big Data, saison 2
Vous avez aimé la première saison des algorithmes pour le Big Data avec HyperLogLog et Paxos ? La saison 2 est là et vous propose au menu 1 structure de donnée et un algorithme tout frais sorti des publications universitaires.
Créer une structure de données qui supporte des opérations distribuées sans coordination relève d'une gageure. Mais Marc Shapiro a relevé le défi avec les CRDT! Nous allons voir comment, sous réserve de respecter quelques propriétés, on peut obtenir une convergence des données distribuées sans besoin de recourir à un lock global.
Exécuter des opérations de manière atomique sur des architectures distribuées est théoriquement impossible sans coordination globale (donc quelque part un lock global). Par contre, il est possible d'obtenir une visibilité atomique sans coordination avec l'algorithme RAMP Transaction présenté par Peter Bailis en 2014. Cet algorithme ouvre la porte à des perspectives intéressantes pour des besoins comme des indexes distribués etc..
Comme toujours, chaque structure/algorithme sera présenté avec une implémentation concrète pour mieux illustrer les cas d'utilisation.

BOF Apache Cassandra
Pendant cette session, nous passerons en revue les grosses nouveautés (du très très lourd) qui vont arriver bientôt cette année dans Cassandra, en vrac:
des index secondaires pour faire du Full Text Search et qui scalent (enfin !). Vous allez pouvoir faire l'équivalent du SQL like %xxx% avec Cassandra, sans compter des clauses OR/AND pour donner plus de flexibilité à vos requêtes
de l'arrivée de la clause GROUP BY, qui, combiné avec les user-defined-aggregates, va offrir des perspectives intéressantes pour le use-case timeseries
de la mise en place d'un système de notification bas niveau sur les INSERT/UPDATE/DELETE. On aura enfin une primitive pour faire du push vers Spark/Kafka ou autre sans passer par les triggers.
de Achilles 4.x, un object mapper avec génération de code à la compilation pour vous fournir un DSL clé en main
un peu plus lointain, vers la fin de l'année 2016, peut-être verra t-on l'implémentation de RAMP Transaction pour offrir des mutations multi-partitions avec du read atomic
Venez nous voir pour posez vos questions sur Cassandra.