Catégorie : actualité

Le contrôle des horaires de trains, un enjeu à chaque instant

Parce que « le temps c’est de l’argent », chaque minute voire chaque seconde de retard chamboule le reste de la journée. Pour une économie de temps et afin de limiter les impacts négatifs sur les usagers des lignes ferroviaires, un contrôle des horaires de trains est crucial. Le CTS (Compagnie des Transports Strasbourgeois) temps réel a été mis en place afin de connaître à l’avance, l’heure de passage des trains, des bus et des trams. Ce concept permet d’éviter les retards et de gagner plus de temps pour les autres activités.

Mettre les TIC au service du secteur ferroviaire

La mise en place du contrôle des horaires de train découle de la digitalisation du secteur ferroviaire et de l’utilisation des TIC (Technologies de l’Information et de la Communication) pour la collecte et la transmission des informations aux usagers. Grâce aux nouvelles infrastructures : les capteurs, le système de surveillance au sol, les outils et les différentes applications pour transmettre les données aux usagers des lignes ferroviaires, le contrôle des horaires des trains est devenu possible.

Cts temps réel : limiter les problèmes d’horaires

Être en retard à un rendez-vous, manquer le train pour se rendre au travail ou rater le dernier tram pour rentrer à la maison, nombreuses sont les difficultés auxquelles les usagers font face à cause des problèmes d’horaires. Dans la plupart des cas, c’est à cause d’un décalage lors de la transmission des données ou que l’information a fait l’objet d’un changement depuis le dernier contrôle. Avec le cts temps réel, vous recevez des informations en temps réel et sans le moindre écart. Vous obtenez des informations précises sur les horaires de votre ligne, suivant les jours et les heures de circulation des trains. Vous pouvez même consulter à l’avance si des perturbations et déviations ont lieu au cours de la journée ou dans un futur proche.

Fait Divers :

Au Japon, la ponctualité est de mise et on ne rigole pas avec ça. Et pour dire, après qu’un train soit arrivé en gare avec une minute de retard, une enquête a été menée (Mishima, Japon) en mai dernier.

Mais quelle en était la cause ? Eh bien une envie de pipi ! Le conducteur du train à grande vitesse avait en effet quitté son poste quelques instants pour aller aux toilettes, entrainant donc un léger retard…

Comme quoi, le cts temps réel, ça a son importance !

Quels sont les métiers les plus importants du Big Data aujourd’hui ?

De nos jours, le traitement des données est devenu vital pour de nombreuses entreprises et ne cesse de se développer. C’est donc très logiquement que les métiers du Big Data sont apparus. Découvrez quels sont les métiers les plus importants pour gérer et exploiter les masses de données.

Chief Data Officer

Le Chief Data Officer (CDO) a pour mission de gérer la data. En pratique, il est amené à trier de très grandes masses de données de manière à faciliter l’accès aux informations pertinentes pour l’entreprise. Pour cela, il établit et met en application des protocoles de gestion des données qui permettent de trier les données et vérifier leur fiabilité.

Un bon Chief Data Officer doit :

savoir travailler en équipe et disposer de compétences en management ;
être orienté business ;
disposer d’un bon esprit d’analyse ;
maîtriser les technologies de l’information (IT).

Pour prétendre au poste de Chief Data Officer, il est nécessaire de disposer de plusieurs années d’expérience en tant qu’informaticien ou data miner.

Data Engineer

Le Data Engineer (ingénieur de données) est spécialisé dans la gestion de données. En pratique, il doit récolter, croiser et trier l’ensemble des données dont dispose l’entreprise. Il se charge également du stockage et de l’exploitation de ces données à l’aide de modèles de calcul puissants.

Un bon Data Engineer doit :

avoir une excellente maîtrise des techniques de gestion de données ;
connaître les langages de programmation ;
avoir un bon esprit analytique et de synthèse ;
savoir travailler en équipe.

Data Scientist

Le Data Scientist intervient juste après le Data Engineer. En pratique, il se charge de valoriser les données qui ont été triées par le Data Engineer. Autrement dit, il retire des informations pertinentes des données afin que l’entreprise puisse prendre des décisions stratégiques. C’est à l’aide d’algorithmes qu’il est capable de traiter de très grandes quantités de données et de prévoir certains comportements.

Un bon Data Scientist doit :

avoir un bon sens de l’organisation ;
avoir un excellent esprit de synthèse ;
avoir de bonnes connaissances en informatique ;
être orienté business ;
savoir travailler en équipe.

L’IA pourrait-elle devenir un meilleur Product Owner que les humains ?

Le rôle crucial du Product Owner

Le choix d’une méthode agile de développement, comme Scrum, change complètement le cycle d’un projet. Les itérations sont beaucoup plus rapides que celles qui étaient possibles avec les méthodes traditionnelles, comme le cycle en V. Il est ainsi possible d’avoir très rapidement une première version utilisable. Cette réduction appréciable du temps avant mise sur le marché (“time to market“) s’accompagne cependant d’un nouveau risque, celui de la non-convergence vers une version stabilisée : la facilité de multiplier les itérations peut faire perdre la nécessité d’objectifs à long terme. Le Product Owner est en principe responsable d’éviter cet écueil, en garantissant la maximisation de la valeur résultante de chaque itération au regard des objectifs métiers : il doit assurer que les versions successives se rapprochent d’un idéal à un temps T, sans multiplier les “faire et défaire” consommateurs de ressources. L’une des plus grandes difficultés de la méthode agile est de trouver ce Product Owner idéal, à la fois disponible pour la réussite du projet et porteur des vrais besoins.

Le réseau de neurones au service de l’agilité

Le recours à l’intelligence artificielle, et en particulier à un réseau de neurones, peut pallier ces insuffisances humaines, qui sont souvent le talon d’Achille d’une méthode agile. Alors que le Product Owner humain n’est pas toujours disponible quand on aurait besoin de lui, par manque d’implication sur le projet ou par surcharge de travail par ailleurs, le réseau de neurones répond toujours présent. Il ne se lasse pas au fil des itérations et il améliore au contraire la qualité de ses propositions au fur et à mesure de sa courbe d’apprentissage. Il n’est pas influencé par l’humeur du moment ou la dernière personne qu’il a croisée mais uniquement par les priorités sous-jacentes. L’intelligence artificielle (IA) peut ainsi devenir un précieux allié des entreprises recourant au développement agile, en leur permettant de soulager notablement les PO humains.

Distinction des unités de sens dans un texte à destination des personnes dyslexiques.

Travail agréé par l'IJCAI (2019)

L’apparition du livre numérique est un progrès majeur pour permettre l’accès à la lecture, et donc souvent à la culture commune et au marché de l’emploi. En permettant l’enrichissement de textes par des béquilles cognitives, des formats d’accessibilité compatibles EPub 3 tels que FROG ont prouvé leur efficacité pour palier mais aussi réduire les troubles dyslexiques. Dans cet article, nous montrons comment l’Intelligence Artificielle, et en particulier le transfert d’apprentissage avec Google BERT, permet d’automatiser le découpage en unités de sens, et ainsi de faciliter la création de livre numériques enrichis pour un coût modéré.

Le deep learning au service des enfants dyslexiques

Les origines de la dyslexie sont multiples et encore sujettes à débat. Deux théories dominent l’études des troubles dyslexiques : La théorie phonologique (association incorrecte des graphèmes et des phonèmes) et la théorie visuelle (trouble du traitement visuel en amont du déchiffrement).

Les béquilles cognitives portant sur les mots ont prouvé leur efficacité (Snowling, 2000) pour une revue). La question est ici de mesurer l’apport d’une segmentation en rhèse en complément.

La segmentation en rhèse a été étudiée par (Chilles Hélène, 2012). La compréhension de textes de Littérature ou de mathématique par 9 élèves de 12 ou 13 ans en situation de dyslexie était évaluée. La conclusion est que le découpage en rhèse permet d’alléger la mémoire de travail et semble faciliter le traitement de l’information contenu, y compris sur des énoncés de mathématiques.

(Labal & Le Ber, 2016) a comparé les apports d’un prompteur inversé avec une granularité au mot ou à la rhèse. La population étudiée était de 18 enfants dyslexiques entre 8 et 12 ans. Il apparait que l’échelle du mot est en moyenne la plus pertinente pour la performance de lecture (Taux d‘ erreurs observés lors d’une lecture à voix haute, vitesse de lecture). Par contre l’écart type sur les scores obtenus sur les segmentations en rhèses est bien plus important que celui sur les découpages en mots : Pour certains enfants, le découpage en rhèses est plus pertinent. Surtout, la granularité « rhèse » a été préférée par deux tiers des enfants. Il semble que le découpage en mots facilite la lecture orale davantage que la compréhension. Il apparait que les deux approches sont complémentaires et à favoriser en fonction de chaque lecteur. Le livre numérique répond bien à cette problématique dans la mesure où la granularité utilisée peut être laissée au choix du lecteur.

En plus de la segmentation visuelle, le découpage en rhèse autorise plusieurs béquilles cognitive au sein d’un livre numérique :

L’utilisateur peut activer un soutien audio : Une unité de sens est lue si l’on pointe dessus.
Un masque gris s’applique sur le texte, une fenêtre de lecture met en valeur l’unité de sens qui est pointée
Les lettres et les mots sont espacés, l’interligne est augmenté, le paragraphe est ferré à gauche et les unités de sens ne sont pas tronquées.

Rhezor 2 : Découpage syntaxique et apprentissage

La bibliothèque open source SpaCy (Honnibal, 2015) inclue des modèles propose des modèles neuronaux convolutifs pour l’analyse syntaxique et la reconnaissance d’entités. Spacy permet d’analyser un texte en utilisant des modèles de prédiction sur les mots. Chaque modèle est spécifique à un langage et est entraîné sur un ensemble de données. Le modèle est pré-entraîné sur 34 langues.

De la sorte, SpaCy peut identifier entre autres la nature grammaticale d’un mot, ou les liens existant entre les mots d’une phrase. L’ensemble de ces informations peut être représenté par un arbre de dépendance grammaticale.

Le Rhezor 2 utilise l’arbre de dépendance de chaque phrase pour réaliser une segmentation en rhèse. Pour cela, un score est calculé pour chaque découpage possible en fonction de l’empan. Le score est défini en fonction des critères suivant : Type de dépendance segmentée ; Nombre de rhèses ; Équilibre dans les longueurs de rhèse ; Niveau du découpage dans l’arbre.

La pondération entre les critères est déterminée par un algorithme évolutif. Il est apparu que le type de dépendance était le critère principal.

Deep Rhezor : Transfer Learning

Jusqu’à il y a peu de temps, le volume du corpus de textes fragmentés manuellement était bien trop faible pour envisager une approche basée uniquement sur les données. Les avancées réalisées en 2018 sur le mécanisme d’attention et le concept de transformer (Vaswani, et al., 2017) permettent maintenant de spécialiser un modèle appris avec un volume raisonnable d’exemples. Ce procédé, dit de « Transfer Learning » est utilisé depuis plusieurs années pour la reconnaissance d’image, mais son application au traitement automatisé du langage est très récente.

La librairie retenue est le modèle BERT de Google (Devlin, et al., 2018), publié en open source en Octobre 2018. Le jeu de données d’apprentissage est automatiquement généré à partir de Wikipedia. D’abord, environ 15% des mots sont masqués dans chaque phrases pour essayer de les prédire. D’autre part, BERT a appris à prédire si deux phrases sont consécutives ou pas.

Google a généré plusieurs modèles. Deux modèles ont été générés pour l’Anglais et le Chinois. Un autre modèle deux fois plus petit (énorme néanmoins) et multilingue a également été créé. Deux modèle deux fois plus grand ont également été testés pour pour l’Anglais et le Chinois.

La base de textes étant principalement en Français, c’est ce modèle « BERT-Base, Multilingual Cased » qui a été retenu. La perte en précision sur une tache de traduction est d’environ 3% par rapport à un modèle de même taille entrainé sur une seule langue (Devlin, 2018). La taille maximum des phrase (max_seq_length) est fixée à 48 et celle du mini-lot à 16. Le Learning Rate est 2e-5 et le nombre d’epochs est de 3.

Le fine-Tuning mis en œuvre a consisté à associé une phrase avec une de ses sous-partie, et de créer un label indiquant s’il s’agit d’une rhèse ou non. Nous disposions de 10 051 phrases représentant 53 478 rhèses, dont un tiers environ ont été exclues de l’apprentissage et réservées pour l’évaluation.

Nous vous proposons des solutions autour du deep learning et machine learning dans divers domaines. Découvrez nos expertises sans plus attendre !