Kafka Stream

Reading time ~2 minutes

Talk de Jeremy sebayhi et Francois sarrasin @fsaradin

Présentation

Stack technique : Scala / Java / Go

Volumes : 1,7 TO

Kafka Stream

Scalabilité / Resilience / calcul distribué / déclaratif RocksDB est embarqué

On utilise la programmation impérative On utilise des topologies = Equivalent d’un tag en Spark

Tout un écosystème :

Les actions menées par les experts :

Les différence approche

Différence entre batch & streaming

Batch : file input & file output
Streaming : tyau avec des events => il faut gérer la retraction des messages incorrectes

Tapage des données dans Avro

Clé message : Pas de Champs optionnel pour faciliter l’équilibre des partitions
Valeur des messages : Mettre des champs optionnels / champs obligatoire (id / timestamp)

Solution :

Les jointures dans Kafka stream avec le compactage : rejouer l’historique ne donne pas le meme résultat

Solution temporaire :

Contient le nom de l’application (il ne faut pas le changer)

Si on change l’application id :

Les métriques de Kafka stream : CPU / RAM / Disque / JVM

Métrique propre :

On ne peut l’utiliser partout et ne peut pas remplacer les batchs tout le temps

Déploiement :

Obligé d’implémenter la couche de readiness / liveness
Métrique sur NGIX
Il faut mettre un webservice HTTP pour répondre à K8S
Il faut faire attention au nombre CPU pour que le thread de health check soit pris
Faire les jointures dans Kafka stream n’est pas évident