Apache Kafka, c’est quoi ?

apache kafka

Apache Kafka, c’est quoi ?

Le Framework Kafka a été développé initialement en 2011 chez LinkedIn puis mis à disposition par la fondation Apache depuis 2014. L’éditeur Confluent distribue également ce Framework en lui ajoutant des fonctionnalités intéressantes au sein de sa plateforme.

apache kafka

Qu'apporte le framework Kafka lancé par Apache ?

Kafka peut être défini de façon schématique comme un outil de diffusion de messages destinés à être lus par quiconque intéressé. Avec ce Framework, l’émetteur du message publie ce dernier dans un Broker sans savoir exactement qui va être intéressé par sa lecture. En plus du message originel, l’émetteur va ajouter des propriétés caractérisant ce message au moment de sa publication de façon à le typer. Chaque composant désirant lire des messages s’abonne au Broker en lui indiquant quels types de messages l’intéressent. Ainsi, dès qu’un nouveau message est publié par quiconque dans le Broker avec une typologie particulière, seuls les abonnés ayant souscrits à ce type de message seront notifiés de son arrivée, sans savoir qui l’a posté.

Kafka est donc une plateforme de distribution de messages – d’évènements, ou de logs selon la sémantique que l’on veut donner à l’information publiée – en temps réel, scalable et extrêmement fiable. Apache a constitué ce Framework afin qu’il puisse traiter des millions de messages par seconde en garantissant qu’aucun d’entre eux n’est perdu. L’ensemble des messages sont persistés sur disques dans des fichiers (principe de rétention). Leur suppression n’est effective qu’après l’écoulement d’un délai (par défaut 7 jour) ou si ces fichiers excèdent une taille donnée (1 Go par défaut). Le point essentiel est que la lecture d’un message ne le retire pas du Broker : il peut être lu à volonté par un même abonné ou généralement par plusieurs abonnés.

Apache Kafka peut à ce titre être considéré comme un système hybride entre une messagerie et une base de données.

Les composants de Kafka plus en détail

Faisons un zoom sur les constituants essentiels d’Apache Kafka pour bien fixer les idées.

Le cluster : le cœur du fonctionnement de Kafka

La mise en œuvre d’un serveur Kafka se fait par l’intermédiaire d’un cluster qui va regrouper les composants techniques essentiels, les Brokers. Le Broker est l’élément central par lequel vont transiter tous les messages depuis leur publication jusqu’à leur persistance sur disque, en passant par leur distribution vers les consommateurs. Afin de rendre le plus robuste possible un serveur Kafka, ce Broker est redondé par l’intermédiaire d’un autre Broker, voire plusieurs. Le Broker principal est nommé leader, les autres sont les réplicas. Les producteurs se connectent sur le leader pour publier leurs messages.

En plus de ces Brokers existe également un Broker Controller dont le rôle est d’assumer la gestion technique du cluster dans son ensemble et d’effectuer son monitoring. Chaque cluster Kafka contient donc au moins 3 Brokers : le leader, un réplica et le Controller.

Les messages et Topics

Un message contient la donnée, quelle qu’elle soit, qui va être envoyée par les producteurs dans le Broker. Il est intéressant de noter qu’un producteur peut envoyer des messages par batch, on parlera alors de groupe de messages. Chaque message envoyé concerne un Topic particulier qui a pour vocation de caractériser le message, et ainsi cibler les consommateurs concernés par ce dernier. Kafka autorise une gestion très fine de ces Topics en les découpant en partitions pour une gestion fine de leur redondance et de leur performance. Mais ceci est une autre histoire…

Les producteurs et les consommateurs

Ils n’ont plus de secret pour vous maintenant : un producteur écrit un message dans le Broker concernant un Topic en particulier. Chaque consommateur s’abonne au Broker pour les messages liés aux Topics qui les intéressent. Et lorsque qu’un message est posté, tous les consommateurs concernés par le Topic du message sont notifiés. Pour rappel, la lecture d’un message ne l’enlève pas du Broker, c’est la politique de rétention qui gère la durée de vie des messages au sein du serveur Kafka.

Dans la version Kafka de l’éditeur Confluent, un moteur de requêtes ksqlDB est également présent offrant ainsi aux producteurs et aux consommateurs une interface simple pour toute la manipulation des données dans le Broker. Un formalisme proche du langage SQL est ainsi disponible avec toutes les facilités afférentes.

cluster kafka apache

Kafka pour faire quoi ?

Le champ des possibles est assez vaste, et il serait fastidieux de dresser la liste exhaustive des cas d’usage pour lesquels Kafka se positionne correctement. Sa capacité à traiter sous la forme de flux des millions de messages par seconde peut s’appliquer à de nombreux domaines. Citons quelques exemples.

En tant que producteur, toute sorte d’application peut aller écrire des messages sur un serveur Kafka. En particulier les services ou micro services collectant des données venant du terrain par le biais de capteurs (appareils connectés, matériel médical, lignes de montage), des WebServices interrogeant des Data Center pour diffuser des évènements essentiels pour un domaine métier (finance, assurances, e-commerce), des services générant des logs de supervision, etc.

Du coté des consommateurs, tout applicatif intéressé par l’ingestion de données à la volée et/ou volumineuse est candidat : bases de données devant persister les données intéressantes, applicatif élaborant des rapports/synthèses, BigData, plateformes de traitement ETL, et bien sur tout type d’application métier et temps-réel.

Pour finir, quelques exemples de sociétés ayant mis en œuvre Kafka pour traiter en temps-réel les données en masse qui constituent leur cœur de métier (messages, notations, avis…) : Twitter, Netflix, Paypal, LinkedIn, Tinder, Uber.

Nous vous proposons des solutions autour de l’ingénierie logicielle : systèmes d’information, systèmes embarqués, édition logiciels… Découvrez nos expertises sans plus attendre !

Développement de logiciels critiques

développement logiciel critique

Introduction au Développement de logiciels critiques

A l’issue de la présentation technique de Jean-Pierre ROSEN, expert en langage Ada, les enseignements de base pour développer un logiciel critique ont été tirés :

développement logiciel critique

Qu’est-ce qu’un logiciel critique ?

Un logiciel est qualifié de « critique » si une panne peut avoir des conséquences graves (mort, accident, dégâts matériels, humains, financiers  ou environnementaux graves).  Les logiciels critiques sont présents dans de nombreux domaines comme l’aviation, le ferroviaire, l’automobile, le nucléaire, le médical et bien d’autres secteurs encore.

Compte tenu des conséquences possibles d’un défaut, les méthodes utilisées dans d’autres domaines qui acceptent un certain taux d’erreur ne sont pas acceptables. C’est pourquoi des standards, des processus, et des méthodes spécifiques aux logiciels critiques ont été développés.

Attention : les contraintes portent sur la sécurité (safety en anglais), et ne doivent pas être confondues avec celles portant sur la sûreté, c’est-à-dire qui concernent la résistance à des attaques malveillantes (security en anglais).

Selon les cas, les exigences en matière de sécurité s’appuieront soit sur le seul risque, soit sur un risque pondéré par sa probabilité, selon ce que l’on appelle une matrice de criticité.

Les fondamentaux du développement d’un logiciel critique

Deux aspects sont fondamentaux pour s’assurer qu’un logiciel exécute correctement la fonctionnalité demandée : d’abord,  s’assurer que l’intention est correcte en définissant clairement les exigences et en les vérifiant selon un processus rigoureux. Ensuite, il faut s’assurer que le code corresponde bien avec l’intention. Ceci demande d’assurer la traçabilité entre le code et la conception, de s’assurer de la lisibilité et de la compréhensibilité du développement , de tester le logiciel par rapport aux exigences, et d’utiliser les outils (vérifications, preuves) fournis par le langage.

Comme pour des véhicules, les mesures de sécurité se répartissent en deux classes :

  • La sécurité active qui permet de prévenir l’accident (typage fort, vérifications et preuves du programme).
  • La sécurité passive qui permet de minimiser les conséquences de l’accident (programmation défensive, traitement d’exceptions, mode dégradé).

Standards et certification

Plusieurs normes portant sur les logiciels critiques ont été mises en place selon le domaine d’application. La plus ancienne concerne les logiciels « aviation », et a servi de base aux autres normes : la fameuse DO-178B/ ED-12B, DO-178C. Dans le domaine ferroviaire, c’est la norme EN-50128 qui s’applique. D’autres standards sont  applicables pour l’automobile, les systèmes militaires et spatiaux, le nucléaire et le médical. Les différentes normes imposent des contraintes différentes pour tenir compte des différences dans les domaines d’application, mais toutes concernent principalement les processus à mettre en œuvre.

Il ne suffit pas que le logiciel soit correct. Il faut être capable de prouver que le logiciel est correct. Tout logiciel critique doit se faire certifier (exigence légale) et le certificateur doit être une organisation indépendante. Le bon déroulement de la certification est la responsabilité de l’équipe de sécurité, qui est, elle, interne à la société conceptrice du logiciel.

L’indépendance doit être garantie entre la conception et le développement du logiciel critique. Elle est également requise entre la vérification et les tests afin de repérer toute faille pouvant porter atteinte à la sécurité du logiciel.

En outre, le certificateur doit avoir l’autorité d’arrêter le projet. Quant aux hauts degrés de criticité, le certificateur ne doit pas dépendre hiérarchiquement du chef de projet.

Tests, et au-delà

Bien entendu, les logiciels doivent être testés. Les tests sont fondés sur les exigences : toute exigence doit être testée, mais réciproquement tout test doit correspondre à une exigence. Selon le niveau de criticité, diverses formes de tests de couverture sont exigés : couverture d’instructions, couverture de décisions, couverture de conditions, MC/DC (Modified Condition/Decision Coverage). Plus la couverture est exigeante, plus le nombre de tests requis (et donc le coût) augmente.

Mais si les tests permettent de montrer que le logiciel fonctionne dans certains cas, ils ne peuvent garantir l’absence de défauts dans tous les cas. L’étape suivante qui se développe actuellement est l’utilisation de techniques de preuve de programme au moyen de langages formels.

Pour en savoir plus, rendez-vous sur :

Nous vous proposons des solutions autour du système d’information, système expert, embarqué et édition de logiciels,  nous permettant de répondre à la plupart des exigences du marché. 

Comment savoir si votre projet est adapté au Développement en Architecture Microservices ?

microservices architectures

Comment savoir si votre projet est adapté au Développement en Architecture Microservices ?

Les applications développées en microservices procurent de nombreux avantages. Les utilisateurs jouiront entre autres d’une grande robustesse. De même, il sera plus facile de se lancer dans la maintenance, de par l’indépendance des services entre eux. Au vu des atouts, une entreprise peut envisager le projet. Elle devrait néanmoins connaître ses conditions. 

microservices architectures

Le découpage en blocs fonctionnels

Le principe fondamental d’une architecture microservices est que chaque micro service répond à une fonctionnalité métier, et une seule. Il y a donc un découpage en blocs fonctionnels à faire de l’application à réaliser. Plus le projet est d’importance, plus ce découpage, à condition qu’il soit bien fait (pas ou peu d’interdépendance), accélère l’indépendance du développement, du test et du déploiement de ces microservices. La question peut se poser sur des projets de petite taille.

Beaucoup de microservices = gestion plus complexe ?

La question peut être posée dès lors que l’application finale se constitue de beaucoup de microservices, dont il faut gérer leur intégration et leur répartition dans une architecture physique capable de digérer l’exécution parallélisée de ses microservices. Dans l’hypothèse où il existe des dépendances entre les services, les mises à jour des services peuvent être source de complexité tant sur le plan des tests (pour revérifier une chaîne de microservices dépendants) que sur le plan du déploiement.

Une infrastructure adéquate

La gestion de la mémoire avec une mise en cache, une architecture distribuée restent des points cruciaux dans la mise en place d’une application orientée microservices. Par ailleurs, à l’heure où toutes les entreprises sont concernées par la cybersécurité, un nombre important de microservices peut accroitre une vulnérabilité face à la menace. Il y a donc un travail important de dimensionnement des ressources physiques, et de vérification des potentielles défaillances au niveau de chaque service.

Certaines peuvent être de haut niveau et abstraites, lorsqu’une personne utilise par exemple une remarque sarcastique pour transmettre une information. Pour bien saisir le langage humain, il faut comprendre non seulement les mots, mais aussi comment les concepts sont reliés pour transmettre le message souhaité.

Le text mining : automatisation du traitement de textes volumineux

text mining definition

Le text mining : automatisation du traitement de textes volumineux

text mining definition

Définition

Le Text Mining (fouille de texte ou extraction de connaissances) est l’ensemble des méthodes et outils destinés à l’exploitation de textes écrits volumineux : emails, fichiers word, documents powerpoint…

Afin d’extraire du sens de ces documents, le text mining se base sur des techniques d’analyse linguistique. La fouille de textes s’utilise pour le classement de documents, la réalisation de résumés de synthèses automatiques ou en assistance des veilles technologique et stratégique.

Utiliser l’informatique pour l’automatisation de la synthèse de textes est une pratique aussi ancienne que l’informatique. En effet, un chercheur d’IBM, en 1958, est l’inventeur du terme de « Business Intelligence ».

Actuellement, Google propose ce service à grande échelle en déposant un brevet pour la création d’un contenu original via la synthétisation automatique d’articles lus sur le web.

Applications

La fouille de textes permet l’analyse de la base des emails que reçoit une entreprise et de détecter le motif principal de contact. Il est possible d’élaborer des modèles pour un classement automatique des mails dans plusieurs catégories de motifs de contacts. Cette automatisation permet un envoi plus rapide de la demande au service et à la personne concernée afin d’accroître la satisfaction client.

L’émergence des réseaux sociaux développe l’analyse de sentiments (opinion mining). Elle consiste à analyser les textes volumineux afin d’en extraire les sentiments principaux pour mieux comprendre les opinions et perceptions émanant des textes analysés.

Les données sensibles se rapportant à l’origine raciale, à la santé, à la politique et à la religion des clients, notamment, des partenaires ou collaborateurs sont interdites par la CNIL. Le prochain Règlement Général sur la Protection des Données augmente l’obligation de résoudre cette problématique. Des algorithmes de text mining sont développés à cette fin.

L’extraction de connaissances s’impose dans d’autres tâches : actions marketing (formulaires de contact, réseaux sociaux), gestion de la relation client ou, entre autres, optimisation du contenu web dans le but d’un référencement naturel.