Distinction des unités de sens dans un texte à destination des personnes dyslexiques.

Distinction des unités de sens dans un texte à destination des personnes dyslexiques.

Travail agréé par l'IJCAI (2019)

L’apparition du livre numérique est un progrès majeur pour permettre l’accès à la lecture, et donc souvent à la culture commune et au marché de l’emploi. En permettant l’enrichissement de textes par des béquilles cognitives, des formats d’accessibilité compatibles EPub 3 tels que FROG ont prouvé leur efficacité pour palier mais aussi réduire les troubles dyslexiques. Dans cet article, nous montrons comment l’Intelligence Artificielle, et en particulier le transfert d’apprentissage avec Google BERT, permet d’automatiser le découpage en unités de sens, et ainsi de faciliter la création de livre numériques enrichis pour un coût modéré.

Le deep learning au service des enfants dyslexiques

Les origines de la dyslexie sont multiples et encore sujettes à débat. Deux théories dominent l’études des troubles dyslexiques : La théorie phonologique (association incorrecte des graphèmes et des phonèmes) et la théorie visuelle (trouble du traitement visuel en amont du déchiffrement).

Les béquilles cognitives portant sur les mots ont prouvé leur efficacité (Snowling, 2000) pour une revue). La question est ici de mesurer l’apport d’une segmentation en rhèse en complément.

La segmentation en rhèse a été étudiée par (Chilles Hélène, 2012).  La compréhension de textes de Littérature ou de mathématique par 9 élèves de 12 ou 13 ans en situation de dyslexie était évaluée.  La conclusion est que le découpage en rhèse permet d’alléger la mémoire de travail et semble faciliter le traitement de l’information contenu, y compris sur des énoncés de mathématiques.

(Labal & Le Ber, 2016) a comparé les apports d’un prompteur inversé avec une granularité au mot ou à la rhèse. La population étudiée était de 18 enfants dyslexiques entre 8 et 12 ans. Il apparait que l’échelle du mot est en moyenne la plus pertinente pour la performance de lecture (Taux d‘ erreurs observés lors d’une lecture à voix haute, vitesse de lecture). Par contre l’écart type sur les scores obtenus sur les segmentations en rhèses est bien plus important que celui sur les découpages en mots :  Pour certains enfants, le découpage en rhèses est plus pertinent. Surtout, la granularité « rhèse » a été préférée par deux tiers des enfants. Il semble que le découpage en mots facilite la lecture orale davantage que la compréhension. Il apparait que les deux approches sont complémentaires et à favoriser en fonction de chaque lecteur. Le livre numérique répond bien à cette problématique dans la mesure où la granularité utilisée peut être laissée au choix du lecteur.

En plus de la segmentation visuelle, le découpage en rhèse autorise plusieurs béquilles cognitive au sein d’un livre numérique :

  • L’utilisateur peut activer un soutien audio : Une unité de sens est lue si l’on pointe dessus.
  • Un masque gris s’applique sur le texte, une fenêtre de lecture met en valeur l’unité de sens qui est pointée
  • Les lettres et les mots sont espacés, l’interligne est augmenté, le paragraphe est ferré à gauche et les unités de sens ne sont pas tronquées.

Rhezor 2 : Découpage syntaxique et apprentissage

La bibliothèque open source SpaCy (Honnibal, 2015) inclue des modèles propose des modèles neuronaux convolutifs pour l’analyse syntaxique et la reconnaissance d’entités. Spacy permet d’analyser un texte en utilisant des modèles de prédiction sur les mots. Chaque modèle est spécifique à un langage et est entraîné sur un ensemble de données. Le modèle est pré-entraîné sur 34 langues.

De la sorte, SpaCy peut identifier entre autres la nature grammaticale d’un mot, ou les liens existant entre les mots d’une phrase. L’ensemble de ces informations peut être représenté par un arbre de dépendance grammaticale. 

Le Rhezor 2 utilise l’arbre de dépendance de chaque phrase pour réaliser une segmentation en rhèse. Pour cela, un score est calculé pour chaque découpage possible en fonction de l’empan. Le score est défini en fonction des critères suivant : Type de dépendance segmentée ; Nombre de rhèses ; Équilibre dans les longueurs de rhèse ; Niveau du découpage dans l’arbre.

La pondération entre les critères est déterminée par un algorithme évolutif. Il est apparu que le type de dépendance était le critère principal. 

Deep Rhezor : Transfer Learning

Jusqu’à il y a peu de temps, le volume du corpus de textes fragmentés manuellement était bien trop faible pour envisager une approche basée uniquement sur les données.  Les avancées réalisées en 2018 sur le mécanisme d’attention et le concept de transformer (Vaswani, et al., 2017)  permettent maintenant de spécialiser un modèle appris avec un volume raisonnable d’exemples. Ce procédé, dit de « Transfer Learning » est utilisé depuis plusieurs années pour la reconnaissance d’image, mais son application au traitement automatisé du langage est très récente.

La librairie retenue est le modèle BERT de Google (Devlin, et al., 2018), publié en open source en Octobre 2018. Le jeu de données d’apprentissage est automatiquement généré à partir de Wikipedia.  D’abord, environ 15% des mots sont masqués dans chaque phrases pour essayer de les prédire. D’autre part, BERT a appris à prédire si deux phrases sont consécutives ou pas.

Google a généré plusieurs modèles. Deux modèles ont été générés pour l’Anglais et le Chinois. Un autre modèle deux fois plus petit (énorme néanmoins) et multilingue a également été créé.  Deux modèle deux fois plus grand ont également été testés pour pour l’Anglais et le Chinois.

La base de textes étant principalement en Français, c’est ce modèle « BERT-Base, Multilingual Cased » qui a été retenu. La perte en précision sur une tache de traduction est d’environ 3% par rapport à un modèle de même taille entrainé sur une seule langue (Devlin, 2018).   La taille maximum des phrase (max_seq_length) est fixée à 48 et celle du mini-lot à 16. Le Learning Rate est 2e-5 et le nombre d’epochs est de 3.

Le fine-Tuning mis en œuvre a consisté à associé une phrase avec une de ses sous-partie, et de créer un label indiquant s’il s’agit d’une rhèse ou non. Nous disposions de 10 051 phrases représentant 53 478 rhèses, dont un tiers environ ont été exclues de l’apprentissage et réservées pour l’évaluation. 

Nous vous proposons des solutions autour du deep learning et machine learning dans divers domaines. Découvrez nos expertises sans plus attendre !

Pourquoi la Recherche et Développement au sein d’une entreprise est obligatoire aujourd’hui ?

Pourquoi la Recherche et Développement au sein d’une entreprise est obligatoire aujourd’hui ?

Qu’est-ce que la recherche et développement (R&D)?

Pour l’entreprise, la stratégie R&D repose sur plusieurs axes. En premier lieu, il s’agit d’effectuer une veille technologique, dont les ingénieurs R&D sont en charge, qui la tient informée de ce que font ses concurrents. En second lieu, il s’agit de développer de nouvelles offres propres à séduire et à apporter de la valeur ajoutée à ses clients actuels et à en attirer de nouveaux. Les ingénieurs R&D ont à ce niveau un rôle prépondérant à jouer. C’est sur eux, sur leur vision, leur capacité à se projeter dans l’avenir et sur leur créativité que repose la capacité innovatrice de l’entreprise et donc la prise potentielle de parts de marché.

La recherche et développement, facteur de croissance économique

La recherche et développement est un enjeu majeur de l’économie. Source d’innovation, elle permet à l’entreprise de proposer à ses clients des produits nouveaux. Elle se démarque ainsi de ses concurrents et renforce sa position dans un secteur donné. La R&D garantit à la fois la pérennité de l’entreprise mais aussi sa croissance. Particulièrement si l’entreprise évolue dans un secteur de pointe où les connaissances et la technologie évoluent sans cesse, la R&D est un service dont aujourd’hui elle ne peut se passer.

La recherche et développement, un service coûteux

La première caractéristique d’un service R&D est que non seulement il ne produit aucune valeur ajoutée mais qu’en plus il est coûteux. Dans un contexte de concurrence et de difficultés économiques, il pourrait être tentant pour l’entreprise de s’en séparer. Si sur le court terme et d’un point de vue comptable, l’effet est visible, il n’en reste pas moins que sur le moyen ou le long terme cette décision est dévastatrice. Privée de nouveaux produits, l’entreprise voit ses clients partir à la concurrence et son chiffre d’affaires chuter de telle façon que très vite son avenir même est en jeu.

La transformation digitale des entreprises au cœur des futurs business model

La transformation digitale des entreprises au cœur des futurs business model

Depuis plusieurs années, les entreprises ont amorcé une révolution profonde de leurs usages en s’appuyant de plus en plus sur les nouvelles technologies de l’information et de la communication. Certains secteurs ont même complètement adapté leur business model à la transformation digitale des entreprises et ne proposent plus que des produits et services en ligne. La crise sanitaire a encore accentué ce phénomène et crée de nouvelles opportunités de rattrapage, voire d’accélération.

Les business model de demain, entre physique et digital

L’omniprésence du web et des solutions en SaaS (Software As A Service) alliées à des méthodes de développement informatique plus agiles permettent aux entreprises d’innover et de produire dans des délais courts. Par ailleurs, les périodes de confinement ont imposé à la plupart des établissements de dématérialiser intégralement leur parcours client. Certaines TPE et PME bénéficient même d’un chèque numérique à cet effet. Ainsi, le domaine de l’UX Design explose, valorisant la fluidité de l’expérience utilisateur tout en conservant certains guichets physiques.

Le Big Data et l‘intelligence artificielle s’orientent vers l’analyse systématique des corrélations et donc de la prédictibilité des comportements, avec des cas d’usage extrêmement divers comme le ciblage publicitaire et la vente, mais aussi la lutte anti-fraude et le blanchiment de capitaux.

Quant à l’Internet des objets, ou IoT, son potentiel est encore fortement sous-évalué. La crise actuelle et le vieillissement de la population supposent une surveillance accrue des indicateurs de santé (rythme cardiaque, glycémie, pratique du sport) rendue possible par la performance des objets connectés. Le succès de la commande vocale ne se dément pas non plus.

L’expertise de Pacte Novation au service de la transformation digitale des entreprises

Les possibilités sont infinies, et seuls des profils experts peuvent vous aider à tirer le meilleur parti des technologies actuelles. Pacte Novation vous accompagne à chaque étape dans le développement de vos logiciels, la gestion de vos données, l’informatique décisionnelle, le traitement du signal pour le secteur du transport … dans le respect des coûts et des délais. Votre réussite est notre succès, construisons-la ensemble !

Reconnaissance vocale de locuteurs : Comment, pourquoi

La reconnaissance vocale de locuteurs : comment et pourquoi

Reconnaitre une personne par sa voix est de plus en plus un enjeu fort en matière d’authentification des personnes à des fins de vérification et de sécurité. La reconnaissance de locuteurs est un sous-ensemble de la reconnaissance vocale qui, par le deep learning en lieu et place des méthodes statistiques, progresse très fortement.

Reconnaissance dépendante ou indépendante

Il existe deux types de reconnaissance de locuteur : soit par la reconnaissance dépendante du texte (Text-dependant speaker recognition), soit par la reconnaissance indépendante du texte (Text-independant speaker recognition). Dans le premier cas, l’algorithme est entrainé par des phrases pré établies et dites par un panel de locuteurs à reconnaitre. Dans le second cas, il n’y a pas d’entrainement sur une phrase spécifique, ce qui rend la méthode sans doute moins efficace.

Identification ou authentification vocale

La majorité des solutions développées en reconnaissance de locuteurs ont une objectif d’authentification, c’est-à-dire vérifier avec un niveau de doute minimal qu’une personne est bien celle qui a enregistré sa voix pour vérification. Cela répond aux besoin des entreprises de minimiser les risques de fraude (usurpation d’identité notamment) vis-à-vis de leurs clients. Maintenant ces solutions ne permettent pas reconnaitre la personne, parmi un groupe de locuteurs, qui nous a principalement adressé la parole. Dans ce cas, il s’agit de mettre en place un algorithme d’identification. L’approche est d’autant plus complexe si plusieurs personnes (locuteurs) parlent en même temps, auquel cas la méthode d’authentification vocale doit intégrer le principe de diarisation, c’est-à-dire une segmentation de l’enregistrement vocal de sorte d’obtenir des segments vocaux ne contenant si possible qu’un seul locuteur.

Python, Pyannote et DeepSpeaker

Il existe aujourd’hui une offre commerciale de solutions de reconnaissance de locuteurs (Microsoft Azure, Oxford Wave Research Vocalize …). Cela reste un domaine pour lequel beaucoup de travaux de recherche sont en cours. Pacte Novation s’est essayé à la construction d’un logiciel en s’appuyant sur le langage Python, la librairie Panda pour la gestion des données, la librairie Tensorflow de Google avec une surcouche Keras pour la construction du réseau de neurones, Pyannote.audio pour la diarisation des locuteurs et enfin DeepSpeaker, un système d’intégration de haut-parleurs neuronaux. Après 6 mois d’effort, l’algorithme de d’authentification vocale est efficace à 73%.

Nous vous proposons des solutions autour du système d’information, système expert, embarqué et édition de logiciels,  nous permettant de répondre à la plupart des exigences du marché.