Transformateurs génératifs pré-entraînés

jcgi Par Le 07/10/2023

Les transformateurs génératifs pré-entraînés (GPT) sont une famille...

de modèles de langage artificiel qui ont révolutionné le domaine du traitement automatique du langage (TAL). Ils sont capables de générer un texte de type humain pour une variété de tâches, notamment la traduction, la génération de résumés, la réponse aux questions et la création de contenu créatif.

Traitement du Langage Naturel (NLP)

Les premières tentatives de traitement automatisé du langage naturel (NLP) remontent aux années 1950 et 1960. À l'époque, les chercheurs utilisaient des règles manuelles pour analyser et générer du texte, mais ces approches étaient limitées en termes de flexibilité et de précision.

L'ère des réseaux neuronaux : L'essor de l'apprentissage profond

Le véritable tournant dans le NLP est survenu avec l'avènement des réseaux neuronaux profonds, en particulier des réseaux de neurones récurrents (RNN) et des réseaux de neurones à convolution (CNN). Ces modèles ont permis des avancées significatives dans des tâches telles que la traduction automatique et la classification de texte. Cependant, ils souffraient toujours de limitations en matière de compréhension contextuelle.

L'arrivée des transformateurs :

Les Transformers ont été introduits en 2017 par Vaswani et al. dans leur article "Attention is All You Need" par Vaswani  (juin 2017). Cette architecture a introduit un mécanisme d'attention qui permet aux modèles de traiter les séquences de manière contextuelle, en prenant en compte les relations entre les mots. Les Transformers ont rapidement dépassé les RNN et les CNN dans de nombreuses tâches NLP en raison de leur capacité à capturer des dépendances à longue distance dans le texte.

Les transformateurs génératifs pré-entraînés (GPT)

Cet article a présenté une nouvelle architecture de réseau neuronal (modèle d'apprentissage automatique qui est inspiré du système nerveux humain), appelée transformateur, qui a été conçue pour traiter des séquences de données longues et complexes. Cette architecture (mathématique-algorithmique) a le potentiel de transformer le domaine du traitement automatique du langage

La révolution dans la modélisation du langage

Le transformateur est composé de deux principaux composants : les couches d'attention et les couches de transformation

Les couches d'attention permettent au transformateur de se concentrer sur les parties les plus pertinentes d'une séquence de données. Les couches d'attention permettent au transformateur de se concentrer sur les parties les plus pertinentes d'une séquence de données en attribuant un poids plus élevé aux mots ou aux phrases qui sont les plus importants pour la tâche à accomplir.

Les couches de transformation transforment la représentation d'une séquence de données en une nouvelle représentation plus informative.

Elles font cela en appliquant une série de transformations mathématiques à la séquence de données.
 

GPT

Les GPT ont été initialement développés par OpenAI, une organisation de recherche en intelligence artificielle. Le premier modèle GPT, appelé GPT-1, a été formé sur un corpus de 600 millions de mots. GPT-2, publié en 2019, a été formé sur un corpus de 1,56 milliard de mots. GPT-3, publié en 2020, a été formé sur un corpus de 175 milliards de mots. 2023 Chat GPT-4 est formé sur un corpus de 500 milliards de mots évolutif.

Un corpus est composé de texte provenant d'une variété de sources, notamment des livres, des articles de journaux, des sites Web et des forums de discussion...

Un langage surpuissant

Les GPT sont capables de surpasser les modèles de langage traditionnels sur une variété de tâches, notamment la traduction, la génération de résumés et la réponse aux questions. Les transformateurs ont connu un développement rapide au cours des dernières années. Ils sont désormais utilisés dans une variété d'applications, notamment :

Traduction : les transformateurs sont utilisés pour traduire des langues de manière plus précise et efficace que les méthodes traditionnelles.

Résumé de texte : les transformateurs sont utilisés pour résumer des textes longs et complexes de manière concise et informative.

Réponse aux questions : les transformateurs sont utilisés pour répondre aux questions de manière informative, même si elles sont ouvertes, difficiles ou étranges.

Création de contenu créatif : les transformateurs sont utilisés pour générer des formats de texte créatifs, tels que des poèmes, des code, des scripts, des pièces musicales, des e-mails, des lettres, etc.

Il est probable que les modèles GPT continueront à croître en taille, ce qui pourrait améliorer leurs performances, mais pose également des défis en matière de ressources de calcul et de stockage. Les chercheurs devront trouver un équilibre entre la taille du modèle et son utilité pratique.

La question de l'éthique et de la responsabilité dans l'utilisation des modèles de langage pré-entraînés restera un sujet brûlant. Il faudra élaborer des normes et des pratiques pour minimiser les abus potentiels.

 

information technique informatique INTERNET numérique intelligence artificielle logiciels libre