Un système permettant aux ordinateurs d'apprendre nos langues ?

Depuis plus de 10 ans, les informaticiens et les linguistes tentent de faire assimiler aux ordinateurs les langues humaines grâce à la sémantique de programmation en utilisant des logiciels. La sémantique est l’étude des signifiés, c’est-à-dire les rapports de sens entre les mots et les phrases.

Katrin Erk, chercheuse en linguistique à l’Université du Texas à Austin, utilise des superordinateurs afin de développer de nouvelles méthodes permettant aux ordinateurs de mémoriser naturellement les langues humaines.

Les scientifiques avaient pour habitude de coder en dur la logique humaine ou bien de déchiffrer les dictionnaires afin de faire apprendre les langues aux ordinateurs. Cependant, Katrin Erk a testé une approche différente : elle alimente les ordinateurs de longs textes qui agissent comme un reflet de la connaissance humaine et créent une cartographie des relations, en utilisant les liens implicites entre les mots.

Cette technique requiert un grand nombre de mots et de textes afin de développer un modèle pouvant recréer correctement la capacité intuitive de distinction des significations de mots.

Erk a affirmé que « l’extrémité inférieure pour ce type de recherche est un recueil de texte de 100 millions de mots. »

Initialement, cette chercheuse avait mené sa recherche sur des ordinateurs de bureau mais a ensuite commencé à utiliser des systèmes informatiques parallèles. Avec l’aide de sous-systèmes optimisés pour Hadoop, les chercheurs ont pu étendre leur champ d’analyse.

Hadoop est un framework libre destiné à faciliter la création d’applications distribuées et échelonnables.

Erk explique que les humains pensent soit à des mots très éloignés les uns des autres (par exemple des charges financières et une charge de batterie) ou bien très proches (par exemple des charges financières et des dépenses). Les humains visualisent donc les significations des mots comme des points dans l’espace.

La signification d’un mot dans une relation contextuelle spécifique est un point dans cet espace. Les humains n’ont pas besoin de préciser combien de significations différentes un mot peut avoir, mais ils choisissent un mot dont le sens est proche dans une autre phrase, bien qu’éloigné sans contexte, affirme Erk.

Jusqu’à présent les ordinateurs ne peuvent reconnaitre que la manière dont les humains disent des choses (la syntaxe), mais pas la signification des mots (sémantique). Lorsque l’on utilise un moteur de recherche, des milliers de documents contenant les mots ou les phrases que l’on recherche sont examinés, mais ce processus de recherche de mot correspondant est en réalité un niveau de recherche plutôt bas.

Si les ordinateurs étaient capables de comprendre les significations réelles des mots que nous utilisons, ils seraient non seulement plus bénéfiques pour les moteurs de recherche, mais aussi pour les services de traduction automatique. Les ordinateurs fonctionnant avec le Web sémantique, qui comprend comment les choses sont connectées entre elles, seraient capables de détecter le contexte à partir de la métadonnée contenue à l’intérieur de la page Web, puis d’appliquer la traduction automatique correcte en se basant sur le langage de balisage.

Nous ne pouvons qu’imaginer le nombre incalculable de possibilités qui pourrait découler d’une telle innovation. De quelle manière la compréhension sémantique des langues par les ordinateurs pourrait-elle faciliter votre vie ?