On refait le match : IA générative

Thierry Grenot

27/11/2023

L’IA générative a le vent en poupe. Et pour cause !

ChatGPT est l’application qui a connu le succès le plus rapide (> 100 millions d’utilisateurs) de l’histoire de la technologie. Devant TikTok, Instagram, et les autres. Sa capacité bluffante à répondre à (presque) toutes les demandes (« prompts ») dans un style léché, met en œuvre une caractéristique qui était jusqu’ici le propre des humains : la communication dans langage de tous les jours, autrement dit le langage naturel.

Il y a également les applications multimodales de l’IA générative, c’est-à-dire dont le produit n’est pas (que) du texte :

Dall-E, Midjourney et Jasper Art sont capables de générer des images élaborées à partir de consignes textuelles ;
MusicLM (Google) sait maintenant transformer du texte en composition musicale ;
Les avatars Zae-In, Hermes, Lisa, Fedha exposent les nouvelles du jour en simulant de ‘vraies’ présentatrices de chaînes TV ou Internet. Et sont même capables de répondre à une interview, comme récemment Zae-In auprès du Guardian .

Le côté spectaculaire des IA génératives, immédiatement accessibles par le grand public, a fait de l’ombre aux autres usages de l’IA.

Et pourtant, l’équation IA = chatGPT ou plus largement IA = LLM (Large Language Model) est fausse, et de beaucoup.

Pour rester seulement dans le domaine du traitement automatique du langage (TAL, ou NLP en anglais), d’autres technologies ouvrent des possibilités d’usages bien différentes, et en particulier l’IA conversationnelle.

IA générative

L’intelligence artificielle générative est une solution capable de générer du texte, des images ou d’autres produits en réponse à des invites exprimées en langage naturel.

Les architectures utilisées sont les réseaux antagonistes génératifs (GAN) et les transformateurs génératifs pré-entraînés (GPT). Plus répandus, les GPT utilisent de grands modèles de langage (LLM, pour large language model).

LLM : big is beautiful

D’un point de vue mathématique, les LLM sont des fonctions dont l’entrée et la sortie sont des listes de nombres ; ces nombres représentent des mots, des images, du son…

D’un point de vue informatique, les LLM sont des réseaux de neurones profonds, dont les milliards de paramètres. Jusque mille milliard (10^12) d’entre eux, sont entraînés à partir d’une quantité considérable de texte non étiqueté pouvant également dépasser mille milliard éléments.

Ils sont vraiment « larges ».

Une caractéristique « magique » (en tout cas contre-intuitive) des LLM est le phénomène d’émergence soudaine de leur compétence. En deçà d’un certain niveau d’entrainement, ils sont nuls. En tout cas pas meilleur qu’un tirage au hasard.

La droite en pointillé rouge dans le schéma suivant est assez révélatrice. Et subitement ils deviennent très compétents pour la tâche qui leur est fixée ! Un peu comme apprendre à nager ou à faire du vélo : on passe rapidement de l’avant à l’après.

Ça sert à quoi une IA générative ?

Les IA génératives peuvent remplir de nombreuses tâches, pour l’essentiel autour de l’exploitation de bases de connaissances. Par exemple, la base de connaissances de chatGPT est tout simplement l’Internet.

De plus en plus d’applications métier et de sites de e-commerce font appel à un LLM (essentiellement ceux d’openAI pour le moment), en tant qu’assistant ou co-pilote pour les utilisateurs.

Quelques exemples de recherche d’informations :

Trouver le document utile dans une librairie non structurée de fichiers ;
Trouver le bon texte de loi ou la jurisprudence qui s’applique dans une situation donnée ;
Répondre à des questions générales (sur la connaissance pré-entraînée) ou particulière (dans le cas d’un complément d’entraînement sur mesure) ;
Assistance aux diagnostics médicaux…

Quelques exemples de génération de texte :

Produire des résumés à partir de documents trop longs ou complexes pour être lus entièrement ;
Rédiger des textes et articles, par exemple pour la presse, la communication d’entreprises, etc.
Répondre à des devoirs et examens pour le compte d’étudiants (trop) pressés…

Autres usages :

Traduction automatique de textes ;
Développement de logiciels ;
Assistance aux clients ;
Assistance au recrutement…

Sécurité, confidentialité, biais

Au-delà des précautions usuelles appliquées à des services cloud ou on-premise, signalons l’opacité sur les conditions et le corpus de pré-entraînement des LLM. Cela ne permet pas d’évaluer sérieusement le niveau de biais des réponses fournies.

Mieux vaut en être conscient, en particulier pour les applications tournées vers le public (par exemple, critères de recrutement), mais aussi vers les employés (évaluations, analyse des entretiens annuels…)

Hallucinations des IA génératives

Les LLM ont une faculté originale : ils hallucinent.

Un LLM ne sait pas qu’il ne sait pas. Aussi, il va produire la réponse la plus probable sur la base de ses données d’apprentissage, même si cette « probabilité » n’a aucun fondement. D’ailleurs, il est quasiment impossible à un LLM de fournir ses sources.

Parfois c’est amusant, d’autres fois plus inquiétant. Il est possible, à partir d’un jeu de règles, d’anticiper des situations classiques de type l’œuf ou la poule. Mais le champ des requêtes que ne sait pas résoudre un LLM est infini. Il est donc de la responsabilité des utilisateurs de faire le tri.

Comment rejoindre Mulhouse par les canaux depuis Dijon ?

Pour rejoindre Mulhouse depuis Dijon en empruntant les canaux, suivez ces étapes :

1.Départ de Dijon, située sur la Saône.

2.Naviguez vers le sud-est sur la Saône.

3.Rejoignez le Rhône.

4.Naviguez sur le Rhône en direction du sud-est jusqu'à l'entrée du Canal du Rhône au Rhin.

5.Accédez au Canal du Rhône au Rhin depuis le Rhône.

6.Suivez le Canal du Rhône au Rhin en direction du sud jusqu'à Mulhouse.

ChatGPT

Mulhouse au sud de Lyon… ! C’est évidemment une formulation crédible mais une très mauvaise idée dans la réalité (au fait, Dijon n’est pas sur la Saône non plus).

Quels sont les LLM disponibles ?

ChatGPT ayant eu le succès médiatique et l’impact que l’on connaît, le domaine est en ébullition et de très nombreux LLM sont apparus dans les derniers mois. Certains étaient en gestation depuis longtemps, d’autres sont plus récents. Pour cette raison, il est impossible de tenir une liste vraiment à jour. Néanmoins, on peut signaler quelques tendances :

Les LLM propriétaires : Open AI (GPT3 et ses suivants), Google (LaMDA) ;
Les LLM pré-entraînés en accès libre : Meta (LLaMA) ;
Les LLM hybrides repartant souvent d’un modèle GPT avec un entraînement spécifique (OpenMind, Bloomberg, Hugging Face…)

IA générative ou LLM : Puissant, mais coûteux

Maryam Ashoori, directrice produit de watsonx.ai (IBM) a récemment publié un article sur le coût des IA génératives, en fonction de leur utilisation.

En quelques mots, les coûts peuvent se décomposer de la façon suivante :

Le coût d’appel (inférence) d’un LLM et de générer une réponse ; il dépend du nombre de tokens (éléments de mots) de l’invite et de la réponse : typiquement quelques centimes d’€ ;
Le coût d’entraînement d’un LLM pour générer des réponses sur mesure à partir d’un modèle pré-entraîné ; pour un ‘fine tuning’ de 48 heures, compter 1.000 euros ;
Le coût de pré-entraînement pour former un nouveau LLM à partir de zéro : au moins 1 million d’€ (training de 5 mois), beaucoup plus pour de très gros modèles de type GPT ;
Le coût d’hébergement, déploiement et de maintenance d’un modèle derrière une API, prenant en charge l’inférence et l’entraînement : environ 20k€/mois.

Naturellement, ces coûts dépendent du modèle de mise en œuvre : accès à un service commercial à travers une API, fine tuning d’un modèle pré-entrainé ou pré-entrainement à froid.

Pour sa part, Nicolas Oulianov (QuantumBlack, AI by McKinsey), met en évidence un autre phénomène : l’augmentation pratiquement quadratique du nombre de token (donc du prix) en cas d’utilisation d’un LLM en mode conversation.

En conclusion, l’usage généralisé d’un LLM peut nécessiter un budget significatif. Par conséquent une analyse coût/bénéfice approfondie est nécessaire pour prendre les bonnes décisions, tant pour la technologie (choix du LLM et du mode de production) que pour les usages que l’on veut promouvoir.

Cet article vous a plu ?

Vous avez maintenant une vision claire de ce qu’est une IA générative ?

Vous voulez comprendre ce qui la différencie d’une IA conversationnelle ?

Nous vous recommandons la lecture de notre second article dédié à ce sujet :

On refait le match : IA conversationnelle ou générative.