Utilisation de bases de données orientée graphes pour l’analyse statique de code

Analyse statique code

Utilisation de bases de données orientée graphes pour l'analyse statique de code

La R&D du Groupe dans les systèmes temps réel critiques

Un des axes forts du Groupe Pacte Novation est la qualité et la sureté de programme opérationnels pour les systèmes temps réel sur lesquels nous disposons d’une forte expérience.

Dans ces systèmes les bugs sont très coûteux et la détection de fautes et de bugs de programmation est aussi extrêmement difficile.

C’est pour cela que pour développer de plus grand systèmes en toute sécurité, nous utilisons et développons toute une panoplie d’outils allant des spécifications à la vérification de programmes. Pour les très gros programmes, la détection d’erreurs statiques est un point clef : nous sommes notamment responsables du logiciel AdaControl, qui permet de vérifier au quotidien les millions de lignes des programmes de gestion en temps réel du trafic aérien européen.

Le Groupe Pacte Novation s’implique dans la R&D comprenant un plan d’action pluriannuel avec à sa tête Laurent GOUZÈNES, Directeur Scientifique du Groupe. Avec trois docteur en informatique et un boursier CIFRE, le Groupe acte pour l’innovation technologique et le progrès informatique.

Analyse statique code

Le sujet en deux mots

Notre ingénieur développement logiciel Quentin DAUPRAT effectue une thèse dans le cadre de son doctorat à l’Université de Caen Normandie, en collaboration avec le Laboratoire de recherche en sciences du numérique GREYC.

Sa thèse portant sur le sujet « Structures de données et système de requêtes optimisées » est encadrée par Novasys Ingénierie sous l’égide de notre Directeur Technique Pierre DUBOSCQ.

Par ailleurs, une partie de ses travaux abordant le langage Ada, il travaille donc en étroite collaboration avec Jean-Pierre ROSEN (Adalog) et sous la Direction Scientifique de Laurent GOUZÈNES.

Ce document traite de l’analyse statique du code. Les besoins d’analyse devenant de plus en plus complexes et les volumes de code devenant de plus en plus grands, l’évolutivité des outils d’analyse de code devient l’un des défis actuels.
Nous explorons l’utilisation de technologies récentes, comme les bases de données de graphes pour représenter le code source et les modèles pour trouver des informations dans un graphe. Nous espérons que cela réduira le temps d’analyse d’un code source et améliorera l’efficacité de l’analyse. En essayant de répondre à la même requête par rapport à AdaControl, nous avons réussi à trouver des résultats qui n’avaient pas été détectés par l’approche programmatique. Nous espérons une amélioration supplémentaire lors de futures analyses comparatives.

Nous vous proposons des solutions autour du système d’information, système expert, embarqué et édition de logiciels,  nous permettant de répondre à la plupart des exigences du marché. 

Une IA hybride pour contrer le Phishing ?

ia hybride phising

Une IA hybride pour contrer le Phishing ?

ia hybride phising

Le phising : une entreprise sur 2 attaquée en 2021

D’après le Baromètre de la cybersécurité en entreprise CESIN 2022, plus d’une entreprise française sur deux a vécu au moins une cyberattaque au cours de l’année 2021 avec parfois des conséquences très graves sur l’entreprise telles que l’interruption du business, la détérioration du business ou encore la fuite des données. Tout cela engendre inévitablement un impact sur la notoriété de l’entreprise.

 De plus, plus de 80 % des événements de cybersécurité impliquent des attaques de phishing. Le phishing, ou hameçonnage en français, est une cyberattaque essentiellement par courriel basée sur l’ingénierie sociale qui est une forme de manipulation psychologique visant à extirper des informations confidentielles d’une personne ou d’une entreprise. Il existe différents types de mails de phishing :

  • Le spearphishing, généralement basé sur l’usurpation d’identité, cible une personne ou un petit groupe de personnes dans le but d’obtenir des informations confidentielles.
  • Le whaling est identique au spearphising sauf qu’il vise exclusivement des personnes d’entreprise de haut rang.
  • Le phishing par URL a pour objectif que la victime clique sur un lien frauduleux, ce qui pourrait entraîner le téléchargement d’un virus ou mener à une page ou des données confidentielles seraient requises.

IA hybride et Deep Learning au service de la cybersécurité

Depuis quelques années, tout le monde en parle. La solution serait de se doter d’une Intelligence Artificielle, plus précisément d’un algorithme d’apprentissage profond (Deep Learning), pour aider à analyser et donc à détecter les cyberattaques. L’IA est en effet en capacité de s’appuyer sur d’énormes volumes de données pour détecter les mails de phishing et donc agir vite (plus vite que l’être humain ?) quant à cette cyberattaque.

Néanmoins et comme toujours avec le Deep Learning, cela nécessite préalablement la constitution d’une base de données regroupant un grand nombre d’emails labellisés de nature « emails de phishing » mais aussi « emails normaux ». De surcroit, cette base de données doit être équilibrée, c’est-à-dire qu’elle ne doit pas avoir une classe surreprésentée par rapport à une autre, pour éviter que lors de l’apprentissage par les algorithmes de Deep Learning, il y ait un surapprentissage, c’est-à-dire qu’un modèle apprenne trop les particularités de la base de données sur laquelle il s’est entraîné.

Par ailleurs, la détection reste d’autant plus complexe que le corps d’un email, même de phishing, peut être vaste. Il est donc nécessaire de mettre en place des prétraitements pour « nettoyer » le contenu de l’email d’informations à la fois non pertinentes et polluantes pour un apprentissage efficace. Par exemple :

  • Passage du corps de l’email en minuscule,
  • Réduction de la ponctuation,
  • Tokenization
  • Lemmatisation,
  • Etc…

Aujourd’hui, de plus en plus de solutions apparaissent sur le marché et revendiquent une capacité de détection fiable et automatisée 24h/24, 7jours/7, des cybermenaces.

Le BRMS au service de la détection du Phishing ?

Malgré tout, il y a sans doute une autre voix consistant à mettre en place une IA hybride qui conserve bien entendu un dispositif d’algorithme d’apprentissage, complété par un dispositif d’inférence cognitive.

Spécialiste de la mise en place de solution de moteurs de règles / BRMS (Business Rules Management System), Pacte Novation travaille depuis de nombreuses années sur la complémentarité du Deep Learning avec des techniques de systèmes expert / moteurs de règles. Ce qui s’appelle l’IA Hybride. Pour rappel, les solutions de BRMS permettent la transposition d’une expertise humaine en règles métier qui pour certaines solutions sont des expressions fonctionnelles écrites en langage naturel.

Dans le contexte de la détection d’emails de phishing, un email, quel qu’il soit, est toujours constitué des mêmes parties : l’expéditeur, l’objet, le corps du mail, l’heure, la date et de liens. Si le corps du mail est traité avec une IA de type algorithme d’apprentissage, on peut aisément constituer des règles de contrôles et de filtres sur l’adresse de l’expéditeur, le domaine utilisé, les plages d’horaires durant lesquelles ces emails sont reçus, l’objet de l’email et potentiellement les liens de l’email.

Ainsi, nous pourrions avoir par exemple :

  • Une table de décision donnant un score de détection d’un email de phishing en fonction du nombre de chiffres dans l’adresse email :
IA hybride
  • Une règle sur le pays d’origine de l’expéditeur :

Si le pays d’origine de l’expéditeur de l’email n’est pas parmi (« fr », « com », « net », « gov », « edu », « org », « info ») alors affecter le score expéditeur à 40.

  • Une table de décision donnant un score de détection selon l’heure d’envoi de l’email :
IA hybride phishing

Une IA hybride convaincante et adaptable

Cette approche hybride conserve donc sa capacité de détection fiable et automatisée tout en laissant la possibilité avec une expertise humaine d’adapter simplement et rapidement les règles de contrôle et de filtrage dans la détection d’une cyberattaque via un email de phishing.

ia hybride cybersecurite

Nous sommes intervenus dans le cadre d’atelier/ soutien au métier, Conception et réalisation des services de décisions. Nous avons également dispensé des formations ODM dans la partie Métier.

L’Intelligence Artificielle au service d’une e-Réputation écologique?

intelligence artificielle ecologie

L’Intelligence Artificielle au service d’une e-Réputation écologique?

De plus en plus, l’environnement et la protection de la planète deviennent un enjeu sociétal et politique fort. Appauvrissement des ressources naturelles, pollution, perte de la biodiversité… la terre se dégrade et notre qualité de vie avec.

intelligence artificielle ecologie

L’e-réputation de l'écologie : une valeur éthique indispensable

Tout d’abord, de nombreux facteurs expliquent cette dégradation : exploitation par des entreprises peu respectueuses, besoin de survie de populations locales, arrivées d’espèces invasives. En effet, les grandes entreprises, par leurs activités humaines, peuvent avoir un impact écologique fort (positif ou négatif). Celles dont l’activité aurait un impact négatif sur l’environnement se trouvent être la cible des ONGs, de la presse spécialisée et des activistes écologiques, au travers de l’écriture d’articles, de tweets, qui en l’espace de quelques lignes peuvent mettre à mal l’image de ces entreprises. 

Tout un chacun peut lire ces articles et avoir une perception de la « bonne » ou « mauvaise » réputation écologique d’une société. Mais est-ce qu’une Intelligence Artificielle pourrait avoir la même perception ?

Ainsi, rien n’existe ou n’est en partie réalisé en la matière. Si la e-Réputation est un enjeu en premier lieu pour les grands groupes, pour autant, les applications informatiques dédiées à la détection d’une mauvaise réputation, de surcroît en matière écologique, n’existent pas.

L’e-réputation : du « buzzword » à la réalité d’un enjeu

Internet a fait naître l’identité digitale de chacun et donc une prise de conscience qu’elle peut être à « charge » comme à « décharge » dans la construction d’une réputation et d’une image qui peut nous échapper. Cela a donné naissance au terme E-réputation (Chun & Davies) qui devient un « Buzzword ».

Ainsi, de nombreux grands groupes ont compris cela et ont mis en place des cellules d’expertises de gestion de de l’E-réputation, applicables à la sphère écologique, à travers le « monitoring » des publications du Web. Ainsi, il s’agit de surveiller l’ensemble des contenus mentionnant la personne, la société, la marque de produit, et estimer précisément la visibilité d’un sujet, surtout lorsque celui-ci est à « charge ». 

Par ailleurs, une célèbre chaîne de vêtements en a fait les frais en 2013. A l’époque le PDG avait déclaré que sa marque ne s’adressait pas aux personnes corpulentes. Les Tailles XL et XXL avaient été alors retirées des rayons. Quasi immédiatement sur le Web, la marque est devenue une marque pour « gens beaux » et une enquête journalistique a démontré que les vendeurs étaient choisis sur des critères physiques. Les internautes ont donc réagi en se saisissant de cette politique de recrutement discriminatoire et les mentions négatives se sont multipliées évoquant les valeurs de la marque et ses figures dirigeantes. 

La marque a été entachée entraînant une baisse de 18% de l’action et une perte nette de 6 M$ de bénéfices, avec une répercussion durable en interne. Comme quoi, dans l’écologie ou n’importe quel autre secteur, la réputation en ligne, c’est essentiel.

Comment surveiller automatiquement les indices réputationnels ?

Il existe aujourd’hui des éditeurs de plateformes permettant de réaliser des analyses quantitatives automatiques et sur-mesure comme Yext, Brand24, OBI Brand Monitor, LocalClarity, Yotpo, Djubo, Grade.us, Review Ninja, HootSuite, TalkWalker, Cision, BrandWatch, WizVille, TagBoard, Twitter Counter, Hearsay Social, BirdEye, Feefo, DialogFeed, Infegy Atlas … Mais la plupart sont des outils dont les principales fonctionnalités sont des mécanismes d’alertes d’avis et de surveillance de conversations. Or, personne ne peut maîtriser l’ensemble des conversations ou articles sur le web.

Dans le monde de l’écologie et de l’activisme environnemental, aucune des plateformes citées précédemment ne permet de détecter un risque réputationnel au regard de l’impact sur l’environnement sans analyse humaine.

Or la masse d’information est telle qu’il est quasi impossible de les analyser « à la main » et pour autant, une notation de e-réputation qu’elle soit écologique ou autre ne peut être juste que si la totalité de l’information est traitée.

C’est pourquoi l’usage de l’Intelligence Artificielle apparaît dans les projets d’automatisation de la perception d’un risque réputationnel à travers notamment des outils d’analyse de sentiments.

e reputation intelligence artificielle

Analyse de sentiments des articles

Pourquoi, comment ?

L’analyse de sentiment (parfois appelée opinion mining) est la partie du text mining qui essaie de définir les opinions, sentiments et attitudes présente dans un texte ou un ensemble de texte. Développée essentiellement depuis les années 2000, elle est particulièrement utilisée en marketing pour analyser par exemple les commentaires des internautes ou les comparatifs et tests des blogueurs ou encore les réseaux sociaux. Mais elle peut également être utilisée pour sonder l’opinion publique sur un sujet, ou encore pour chercher à caractériser les relations sociales dans les forums.

Par ailleurs, l’analyse de sentiment demande bien plus de compréhension de la langue que l’analyse de texte et la classification par sujet. En effet, si les algorithmes les plus simples considèrent uniquement les statistiques de fréquence d’apparition des mots, cela se révèle en général insuffisant pour définir l’opinion dominante dans un document, surtout lorsque le contenu est court comme des messages dans un forum ou des tweets.

De ce fait, l’analyse de sentiment « basique » se focalise sur une seule dimension : le sentiment général est-il positif ou négatif ? Les techniques visant à déterminer un (ou plusieurs) sentiments généraux comme l’envie, la colère, la frustration ou la joie relèvent plus d’une forme d’adaptation des méthodes de découverte de sujet ou de méthodes de classification.

L'analyse peut s'effectuer à différents niveaux :

  • Au niveau du document : détermine l’opinion générale de l’ensemble du document. Cette analyse fonctionne bien pour des documents qui présentent un point de vue précis, mais moins pour des comparaisons car elle ne fera pas la différence entre les sujets abordés.
  • Au niveau de la phrase : détermine l’opinion générale d’une phrase (positive, négative ou neutre). Cette analyse peut donner une mesure de la « neutralité » d’un texte. Les méthodes utilisées sont celle de l’analyse de subjectivité.
  • Au niveau des aspects (aussi appelé Feature level) : au lieu de déterminer les entités à analyser en fonction de critère structuraux (phrase, paragraphe, document) ces méthodes se basent sur une analyse de corrélation entre l’opinion émise et la cible de cette opinion. Par exemple, la phrase « Le sujet du cours me passionne mais le professeur est ennuyeux. » présente deux sentiments sur l’entité « cours » : le sujet qui est perçu comme positif et le professeur, qui est perçu comme négatif. Ce niveau d’analyse permet de différencier les aspects qui sont aimés ou non par les auteurs des textes et ainsi permet plus facilement de déterminer des remédiations possibles. En revanche il est très difficile à mettre en place car extrêmement complexe, notamment la mise en relation des entités mentionnées.

Aujourd’hui des solutions d’Intelligence Artificielle existent et progressent considérablement en la matière. Pour autant, aucune IA n’est encore capable de comprendre l’ironie ou les sous-entendus !

Nous vous proposons des solutions logicielles autour des problématiques en intelligence artificielle & BRMS nous permettant de répondre à la plupart des exigences du marché. 

La transformation digitale du ferroviaire en pleine avancée

automatisation trains ter

La transformation digitale du ferroviaire en pleine avancée

automatisation trains ter

Le monde du ferroviaire révolutionné par l’automatisation des trains

Face à la montée de la demande en transports en commun et en marge de la rénovation du réseau ferroviaire en France, l’automatisation des trains devient la solution inévitable. En plus de se définir comme une solution facilitante, elle est favorisée par divers facteurs déclenchants :

  • La modernisation des systèmes
  • L’augmentation de la charge des voyageurs
  • L’extension du réseau ferroviaire

Aucun secteur n’échappe à la transformation digitale, pas même le ferroviaire…

La transformation digitale du ferroviaire : une étape inéluctable

Face aux forts afflux du trafic et à la multiplication des voies des réseaux ferrés, l’automatisation des trains, permise grâce aux logiciels ferroviaires permet de répondre à de nombreuses problématiques. Ainsi, la transformation digitale du ferroviaire marquée par son automatisation permettrait en premier lieu d’optimiser un problème récurrent et nuisant au bon fonctionnement du trafic ferroviaire : la sécurité. En effet, l’automatisation des trains permet d’améliorer la sécurité du réseau ferroviaire grâce à ses infrastructures fortifiantes (portes automatiques). Cela permet ainsi de réduire les accidents voyageurs et de ne pas en causer de nouveaux (réduire la marge d’erreur).

Ainsi, la transformation du réseau ferroviaire permet l’optimisation de la qualité des services, des économies d’énergie, de la sécurité et des performances du réseau, améliorant ainsi l’expérience des passagers.

Mais comment l’automatisation des trains améliore-t-elle la qualité du trafic ferroviaire ?

Outre ses avantages sécuritaires et écologiques, l’automatisation ferroviaire permettrait d’apporter bien des solutions pour résoudre les déficits de la gestion du réseau ferroviaire. En effet, utiliser une machine (ici, des logiciels ferroviaires : systèmes embarqués) permet d’éviter des erreurs que l’homme aurait pu commettre. Il est donc intéressant de s’appuyer sur la transformation digitale dans n’importe quel domaine pour faire avancer son activité.

Les différents facteurs optimisés par la transformation digitale du réseau ferroviaire

La SNCF épaulée par Thalès, RATP et autres grands acteurs du ferroviaire démultiplient leurs travaux dans l’automatisation des trains, voyant le grand nombre de bénéfices s’offrant à son utilisation.

Tout d’abord, l’automatisation ferroviaire permet de réaliser des économies d’échelle non négligeables. Entre les économies liées à la maintenance et celles dues à un meilleur trafic, l’automatisation se définit comme LA solution miracle pour optimiser la productivité du réseau ferroviaire.

Outre l’économie générée par cette solution, l’aspect sécuritaire demeure l’une des révolutions des trains automatisés. Entre contrôle temps réel permis grâce à des logiciels ferroviaires toujours plus innovants, limitation des incidents grâce aux portes automatisées et réduction de la marge d’erreur grâce au facteur humain effacé, les promesses des trains autonomes sont nombreuses.

Ainsi, entre gain de temps (intervalles réduits entre les trains), d’argent (augmenter l’offre quotidienne en un coût marginal faible) et fiabilité (systèmes temps réels), l’automatisation des trains devrait s’accroître de plus en plus.

En outre, en plus d’être une solution économique, ergonomique, sécuritaire et écologique pour les distributeurs de trains en France, la transformation digitale des trains sert également et principalement les usagers. De ce fait, en leur garantissant des services simplifiés, en temps réel et désintermédiés (retour à la normale en quelques minutes suite à un incident), elle leur offre une expérience de leur voyage optimale. Elle met ainsi le progrès technique au service du progrès social.

Après les métros autonomes, TER lance ses premiers trains autonomes à l’essai

Dans le même élan que la RATP et ses métros autonomes, TER Hauts-de-France se lance dans les trains autonomes. Dans le cadre d’un projet mené par la SNCF, Thalès met à l’essai ses produits en France en vue de proposer les TER autonomes d’ici 2025. De ce fait, le train Metrolinx Go circule depuis janvier en collectant des données en temps réel pour entraîner les systèmes ferroviaires à détecter les dangers et reconnaître les obstacles.

Le but final de recourir aux trains autonomes : réduction des retards, renforcement de la sécurité, amélioration de la maintenance et optimisation de l’exploitation et de la gestion du trafic.

La transformation digitale du ferroviaire n’a donc pas fini de faire parler d’elle…

Nous vous proposons des solutions autour du système d’information, système expert, embarqué et édition de logiciels,  nous permettant de répondre à la plupart des exigences du marché.