loader image
06
octobre
Auteur
La Rédaction

Sémantique : "Bigger does not mean better, we prefer specificity"!

semantique taille corpus

Chez Eloquant, l’analyse semantique est gérée par des ingénieurs linguistes experts du domaine, qui cumulent 30 ans d’expérience de modélisation et d’analyse des verbatim. Ces équipes sont rompues aux techniques du Traitement Automatique des Langues (TAL, ou NLP en anglais).
En parallèle, elles effectuent un travail de veille continue, participent à des projets de recherche et publient des articles scientifiques sur le sujet de la semantique.

 

Un article d’Emmanuelle Dusserre, linguiste informaticienne chez Eloquant, a ainsi été présenté à un ensemble d’experts en semantique, lors d’une conférence internationale à Montpellier. En voici une synthèse.

 

 

 

Adapter un algorithme Google pour industrialiser nos procédés

Word2vec est un outil qui a été développé chez Google. Très à la mode, il permet d’extraire les mots sémantiquement proches, par exemple pour pomme, on doit obtenir pêche, poire, etc.
Dans le cadre de nos travaux de recherche, nous avons adapté cet algorithme dans le but d’industrialiser nos procédés ; dès que nous avons un nouveau client, nous pouvons nous en servir afin de détecter de façon automatique la terminologie propre au domaine. Ainsi, si nous travaillons sur le corpus d’un opérateur téléphonique, nous voulons détecter tous les mots du type : téléphone, portable, forfait, etc.

 

Si demain nous avons un client dans le secteur automobile nous voulons extraire les mots tel que : voiture, pneu, carrosserie, pare-brise, etc. Cela permet d’enrichir de manière rapide et semi-automatique nos grammaires, au lieu de parcourir les données, souvent conséquentes, manuellement.

 

Semantique : bigger does not mean better…

En réalisant ces travaux, nous avons tenté d’utiliser différents types de données afin d’améliorer au maximum nos résultats. Pour cela, nous avons comparé l’utilisation de word2vec sur un corpus de petite taille spécifique à un domaine (la télécommunication) d’une part, et sur un corpus générique d’une taille beaucoup plus grande d’autre part. Nos meilleurs résultats ont été obtenus avec le petit corpus spécifique. Voilà ce que nous démontrons dans l’article.

 

En effet, la tendance générale dans le domaine du Natural Language Processing est d’observer de bien meilleurs résultats sur des grosses quantités des données pour les algorithmes de ce genre (machine learning, deep learning…).

 

Ainsi, dans notre article, nous démontrons que la quantité de données n’est pas le seul facteur influençant les résultats, la spécificité du corpus aussi. D’où le titre : « Bigger does not mean better, we prefer specificity » !

 

En savoir plus sur la conférence