Distinction des unités de sens dans un texte à destination des personnes dyslexiques.

mobidys deep learning

Distinction des unités de sens dans un texte à destination des personnes dyslexiques.

Travail agréé par l'IJCAI (2019)

L’apparition du livre numérique est un progrès majeur pour permettre l’accès à la lecture, et donc souvent à la culture commune et au marché de l’emploi. En permettant l’enrichissement de textes par des béquilles cognitives, des formats d’accessibilité compatibles EPub 3 tels que FROG ont prouvé leur efficacité pour palier mais aussi réduire les troubles dyslexiques. Dans cet article, nous montrons comment l’Intelligence Artificielle, et en particulier le transfert d’apprentissage avec Google BERT, permet d’automatiser le découpage en unités de sens, et ainsi de faciliter la création de livre numériques enrichis pour un coût modéré.

deeplearning mobidys

Le deep learning au service des enfants dyslexiques

Les origines de la dyslexie sont multiples et encore sujettes à débat. Deux théories dominent l’études des troubles dyslexiques : La théorie phonologique (association incorrecte des graphèmes et des phonèmes) et la théorie visuelle (trouble du traitement visuel en amont du déchiffrement).

Les béquilles cognitives portant sur les mots ont prouvé leur efficacité (Snowling, 2000) pour une revue). La question est ici de mesurer l’apport d’une segmentation en rhèse en complément.

La segmentation en rhèse a été étudiée par (Chilles Hélène, 2012).  La compréhension de textes de Littérature ou de mathématique par 9 élèves de 12 ou 13 ans en situation de dyslexie était évaluée.  La conclusion est que le découpage en rhèse permet d’alléger la mémoire de travail et semble faciliter le traitement de l’information contenu, y compris sur des énoncés de mathématiques.

(Labal & Le Ber, 2016) a comparé les apports d’un prompteur inversé avec une granularité au mot ou à la rhèse. La population étudiée était de 18 enfants dyslexiques entre 8 et 12 ans. Il apparait que l’échelle du mot est en moyenne la plus pertinente pour la performance de lecture (Taux d‘ erreurs observés lors d’une lecture à voix haute, vitesse de lecture). Par contre l’écart type sur les scores obtenus sur les segmentations en rhèses est bien plus important que celui sur les découpages en mots :  Pour certains enfants, le découpage en rhèses est plus pertinent. Surtout, la granularité « rhèse » a été préférée par deux tiers des enfants. Il semble que le découpage en mots facilite la lecture orale davantage que la compréhension. Il apparait que les deux approches sont complémentaires et à favoriser en fonction de chaque lecteur. Le livre numérique répond bien à cette problématique dans la mesure où la granularité utilisée peut être laissée au choix du lecteur.

En plus de la segmentation visuelle, le découpage en rhèse autorise plusieurs béquilles cognitive au sein d’un livre numérique :

  • L’utilisateur peut activer un soutien audio : Une unité de sens est lue si l’on pointe dessus.
  • Un masque gris s’applique sur le texte, une fenêtre de lecture met en valeur l’unité de sens qui est pointée
  • Les lettres et les mots sont espacés, l’interligne est augmenté, le paragraphe est ferré à gauche et les unités de sens ne sont pas tronquées.

Rhezor 2 : Découpage syntaxique et apprentissage

La bibliothèque open source SpaCy (Honnibal, 2015) inclue des modèles propose des modèles neuronaux convolutifs pour l’analyse syntaxique et la reconnaissance d’entités. Spacy permet d’analyser un texte en utilisant des modèles de prédiction sur les mots. Chaque modèle est spécifique à un langage et est entraîné sur un ensemble de données. Le modèle est pré-entraîné sur 34 langues.

De la sorte, SpaCy peut identifier entre autres la nature grammaticale d’un mot, ou les liens existant entre les mots d’une phrase. L’ensemble de ces informations peut être représenté par un arbre de dépendance grammaticale. 

Le Rhezor 2 utilise l’arbre de dépendance de chaque phrase pour réaliser une segmentation en rhèse. Pour cela, un score est calculé pour chaque découpage possible en fonction de l’empan. Le score est défini en fonction des critères suivant : Type de dépendance segmentée ; Nombre de rhèses ; Équilibre dans les longueurs de rhèse ; Niveau du découpage dans l’arbre.

La pondération entre les critères est déterminée par un algorithme évolutif. Il est apparu que le type de dépendance était le critère principal. 

Spacy réseau de neurones convolutif

Deep Rhezor : Transfer Learning

Jusqu’à il y a peu de temps, le volume du corpus de textes fragmentés manuellement était bien trop faible pour envisager une approche basée uniquement sur les données.  Les avancées réalisées en 2018 sur le mécanisme d’attention et le concept de transformer (Vaswani, et al., 2017)  permettent maintenant de spécialiser un modèle appris avec un volume raisonnable d’exemples. Ce procédé, dit de « Transfer Learning » est utilisé depuis plusieurs années pour la reconnaissance d’image, mais son application au traitement automatisé du langage est très récente.

La librairie retenue est le modèle BERT de Google (Devlin, et al., 2018), publié en open source en Octobre 2018. Le jeu de données d’apprentissage est automatiquement généré à partir de Wikipedia.  D’abord, environ 15% des mots sont masqués dans chaque phrases pour essayer de les prédire. D’autre part, BERT a appris à prédire si deux phrases sont consécutives ou pas.

Google a généré plusieurs modèles. Deux modèles ont été générés pour l’Anglais et le Chinois. Un autre modèle deux fois plus petit (énorme néanmoins) et multilingue a également été créé.  Deux modèle deux fois plus grand ont également été testés pour pour l’Anglais et le Chinois.

La base de textes étant principalement en Français, c’est ce modèle « BERT-Base, Multilingual Cased » qui a été retenu. La perte en précision sur une tache de traduction est d’environ 3% par rapport à un modèle de même taille entrainé sur une seule langue (Devlin, 2018).   La taille maximum des phrase (max_seq_length) est fixée à 48 et celle du mini-lot à 16. Le Learning Rate est 2e-5 et le nombre d’epochs est de 3.

Le fine-Tuning mis en œuvre a consisté à associé une phrase avec une de ses sous-partie, et de créer un label indiquant s’il s’agit d’une rhèse ou non. Nous disposions de 10 051 phrases représentant 53 478 rhèses, dont un tiers environ ont été exclues de l’apprentissage et réservées pour l’évaluation. 

deep learning machine learning
mobidys deep learning

Nous vous proposons des solutions autour du deep learning et machine learning dans divers domaines. Découvrez nos expertises sans plus attendre !

Transformation digitale dans le ferroviaire, comment adapter les structures à ce nouveau mode de fonctionnement ?

ferroviaire CBTC

Transformation digitale dans le ferroviaire, comment adapter les structures à ce nouveau mode de fonctionnement ?

Aucun secteur n’échappe à la transformation digitale à l’instar de l’industrie ferroviaire. Quelques petites informations pour vous mettre sur les rails.

ferroviaire CBTC

La digitalisation, pourquoi ?

La transformation digitale est une étape nécessaire au développement du secteur ferroviaire ainsi que de ses divers acteurs. De la planification sur le long terme aux tâches quotidiennes, elle devrait être bénéfique aux entreprises (réduction des coûts), aux clients, mais aussi contribuer à améliorer la compétitivité du train face aux autres moyens de transport. La digitalisation contribue à apporter des améliorations incontestables et un grand choix d’opportunités pour exploiter les trains afin de faire évoluer le modèle économique des entreprises en activité et de favoriser l’arrivée de nouveaux acteurs ayant des approches disruptives.

Acteurs concernés

La digitalisation du ferroviaire dépasse amplement le domaine des passagers (wifi, billets électroniques) mais concerne tous les acteurs de la chaîne :

  • Entreprises ferroviaires (transport des passagers et du fret),
  • Fournisseurs d’équipements,
  • Constructeurs des matériels roulants,
  • Gestionnaires d’infrastructures,
  • Entités chargées de la maintenance,
  • Entités publiques, etc.).

Technologies utilisées

La transformation digitale se base principalement sur l’usage des technologies de l’information et de la communication (TIC) dans le but de collecter, traiter, transmettre les données et instaurer un réseau de communication pour les usagers du ferroviaire. Ces technologies digitales incluent essentiellement :

  • des capteurs destinés aux matériels roulants et aux infrastructures,
  • des caméras vidéo (surveillance embarquée et au sol),
  • des systèmes de communication et d’affichage des informations,
  • des outils pour transmettre les données dans les trains, gares et infrastructures,
  • des appareils mobiles (smartphones et tablettes).

Ces outils entraînent un grand nombre de données dynamiques et induisent une communication entre divers objets nantis de capteurs. On parle d’Internet des objets (IOT).

La plupart des technologies requises sont déjà disponibles et ne demandent qu’à être renforcées pour répondre aux difficiles conditions d’exploitation des trains. Les actuels développements technologiques concernent la communication sans fil avec haut débit et les solutions ayant une faible consommation d’énergie pour une meilleure autonomie et une augmentation de la durée de vie du matériel.

ingenierie SI ferroviaire expertise

Nous intervenons auprès des systèmes d’information, systèmes embarqués et plans de voie (et outils CAO) autour du transport ferroviaire. Découvrez nos expertises sans plus attendre !

Quelles sont les tendances des Smart Cities à l’horizon 2025

smartcity bots

Quelles sont les tendances des Smart Cities à l'horizon 2025

De nombreuses villes espèrent devenir des smart cities ou villes intelligentes en exploitant les nouvelles technologies à l’instar de lintelligence artificielle, de l’internet des objets (loT) et du big data. Quelles tendances se dessinent pour les prochaines années ?

smartcity bots

Smart city : prévisions

Les analystes de l’Indice de Disparité de la Consommation (IDC) prédisent qu’en 2025 90 % des villes émergentes ainsi que 10 % des villes déjà présentes à l’échelle mondiale utiliseront des possibilités de planifications d’espaces numériques et des nouvelles régulations afin de bénéficier des avantages de l’économie de partage. Ces analystes insistent sur l’importance que revêtent la réactivité des villes et leur politique numérique en ce qui concerne le changement climatique.

Défis à relever

Les lignes de force, bases de la réflexion des analystes, sont, d’une part, le défaut d’information et de compétence souvent en lien avec un manque de trésorerie. Le deuxième aspect est celui de la cybercriminalité qui paraît aller de pair avec la mise en place de nouvelles technologies connectées.

Le rapport de l’Observatoire de la vie connectée décrit la smart city en tant que marché prometteur. Alors qu’en 2016 il était évalué à 773 milliards de dollars, il devrait afficher une croissance annuelle, sur la période s’étendant de 2017 à 2025, de 20 % pour atteindre, en 2025, 3651 milliards de dollars.

Protocole à venir

Nos véhicules tendent à devenir de plus en plus autonomes et bavards. Nous devrons bientôt opter pour un protocole de communication : véhicule-to-infrastructure ou 5G ?

Au final, tout reste à faire et certains se mettent déjà à l’ouvrage : réseau 5G, navettes autonomes, routes munies de capteurs…

Human Horizons, réputée pour son HiPhi 1 (premier SUV électrique de série), a dévoilé fin 2019 sa conception de la smart city. La société projette de construire une ville intelligente en Chine dans une zone de 100 000 m2 dans un parc technologique de Shanghai.

Par ailleurs, une étude réalisée par Grand View Research prévoit que le marché mondial des transports intelligents atteindra les 285 milliards USD d’ici l’année 2024, enregistrant ainsi un taux de croissance de 22,5 % durant la période de prévision.

smart city solution

Nous vous proposons des solutions autour de la transformation digitale dans les systèmes d’information dans divers domaines. Découvrez nos expertises sans plus attendre !