AI21 Labs ressemble un peu à la réponse israélienne à OpenAI, basée aux États-Unis. C'est à la fois un laboratoire de recherche, effectuant des travaux de pointe sur le traitement du langage naturel (NLP), et aussi une entreprise commerciale, espérant rapidement pousser ces développements de pointe dans des produits que les vraies entreprises peuvent utiliser—et payer.
AI21 Labs a été fondé par Yoav Shoham, professeur émérite d'intelligence artificielle à l'Université Stanford ; Amnon Shashua, fondateur de la société de logiciels de conduite autonome Mobileye, qui a été acquise par Intel ; et Ori Goshen, fondateur de la plateforme de financement participatif CrowdX. L'objectif ambitieux de l'entreprise est de « réimaginer la façon dont les gens lisent et écrivent, pour le mieux. »
Le laboratoire a construit un nouveau système qu'il appelle avec une certaine audace « Miracle », une version plus conviviale de MRKL, un acronyme pour Modular Reasoning, Knowledge and Language system (système de raisonnement modulaire, de connaissance et de langage). MRKL est important en raison de ce qu'il dit sur quatre tendances clés dans la façon dont les entreprises utiliseront l'IA à l'avenir.
Premièrement, MRKL est conçu pour gérer toutes sortes de tâches en langage naturel, pas seulement un travail spécifique comme la plupart de ces systèmes jusqu'à récemment. Par exemple, si vous vouliez un chatbot de service client, la même IA ne pouvait pas aider à analyser les sentiments des appels de résultats des PDG. Mais maintenant, un seul moteur NLP peut aider à gérer les deux tâches. C'est un autre exemple de la véritable révolution dans le NLP et de l'impact qu'il commence à avoir sur les entreprises.
La deuxième tendance, étroitement liée, à noter est que ces systèmes NLP à usage général seront de plus en plus construits sur des « modèles de langage ultra-larges », des algorithmes uniques qui apprennent des milliards de relations statistiques entre les mots. Ils sont entraînés sur de vastes quantités de texte extraites d'internet, y compris des livres écrits en anglais et dans d'autres langues, ainsi que des sources publiques comme Wikipedia et les fils Reddit. La plupart de ces systèmes sont entraînés soit à prédire un mot manquant dans une phrase, soit le mot suivant dans une phrase. Mais il s'avère que, lorsque vous construisez un système d'IA aussi grand et que vous l'entraînez à faire une chose, il est également capable de faire beaucoup d'autres choses avec peu ou pas d'entraînement supplémentaire : traduction, réponse aux questions et rédaction de passages de texte originaux.
De plus, avec juste un peu plus d'entraînement sur un nombre relativement petit d'exemples, ces grands modèles de langage peuvent souvent surpasser des systèmes d'IA plus petits qui ont été entraînés sur de grands ensembles de données—souvent organisés à grands frais—pour accomplir une seule tâche étroite. C'est cette capacité à fonctionner avec « peu de données » qui rend les modèles de langage ultra-larges si potentiellement attractifs pour les entreprises, car les utiliser pourrait être plus rapide et moins cher.
L'exemple le plus connu d'un modèle de langage ultra-large disponible pour un usage commercial est peut-être le GPT-3 d'OpenAI. OpenAI entretient une relation étroite avec Microsoft, qui a investi plus d'un milliard de dollars dans l'entreprise, et, sans surprise, Microsoft a intégré GPT-3 dans un produit qui écrit automatiquement du code informatique. Il met également la technologie à la disposition de ses clients cloud Azure.
AI21 Labs possède son propre modèle de langage ultra-large appelé Jurassic-1, qu'il a commercialisé l'année dernière et qu'il affirme être supérieur à GPT-3, en partie parce qu'il possède un « vocabulaire de tokens » plus large. Cela fait référence au nombre de mots et de parties de mots qu'il connaît. Jurassic possède un vocabulaire de tokens de plus de 250 000, soit cinq fois celui de GPT-3.
Il existe des problèmes bien documentés avec ces modèles de langage ultra-larges, notamment qu'ils peuvent être incités à produire un langage toxique. Mais un autre défaut majeur est qu'ils ont tendance à produire des informations inexactes en réponse à des questions factuelles.
Par exemple, demandez à GPT-3 d'additionner deux plus deux, et il vous dira avec assurance quatre, mais demandez-lui d'additionner plusieurs nombres à quatre et cinq chiffres, et il y a de fortes chances qu'il vous donne tout aussi confidemment la mauvaise réponse. Demandez-lui quel temps il fait actuellement à New York, et il vous le dira, mais ce sera probablement la température à New York au moment où les données d'AccuWeather ont été extraites dans son ensemble d'entraînement, pas la météo d'aujourd'hui. Le même problème s'applique aux questions sur l'actualité ou même la science. Et parce que ces grands modèles de langage sont si volumineux, ils sont extrêmement coûteux à entraîner—dans les millions de dollars—il n'est donc pas pratique de les mettre à jour constamment pour s'assurer que leurs données sont à la minute près.
C'est le problème qu'AI21 Labs a entrepris de résoudre avec MRKL (j'ai écrit sur l'une des innovations précédentes du laboratoire ici). Ce qui nous amène à la troisième grande tendance que MRKL représente : MRKL est un système hybride. Il n'utilise pas uniquement l'apprentissage profond, la méthode d'IA responsable de la plupart des grandes avancées technologiques au cours de la dernière décennie. Au lieu de cela, il combine différents modules, dont certains utilisent l'apprentissage profond, et d'autres utilisent une forme plus ancienne d'IA, le raisonnement symbolique, pour fournir des réponses précises et à jour aux questions factuelles.
Ce qui est ingénieux dans MRKL, c'est un module appelé routeur qui prend une question d'un utilisateur et détermine quel type d'information l'utilisateur recherche. Si la question implique des mathématiques, il envoie cette question à une simple calculatrice scientifique à l'ancienne. Si elle implique des taux de change, il la dirige vers un convertisseur de devises. Si elle concerne la météo, il l'envoie vers un site de prévisions météorologiques. Il y a 55 de ces modules spécifiques à des tâches que MRKL prend actuellement en charge, selon Shoham. Si le routeur n'est pas sûr du meilleur module, il fait appel à Jurassic-1. Jurassic aide également à composer le langage contextuel autour de la réponse de MRKL.
Une autre innovation ingénieuse ici est la façon dont AI21 Labs est capable d'obtenir le bon type de réponse de Jurassic. Il le fait avec une méthode appelée « prompt tuning », dans laquelle la façon dont une question initiale ou un fragment de texte est soumis au modèle de langage ultra-large aide à déterminer la nature du résultat. C'est une façon d'ajuster l'IA pour un type particulier de tâche sans avoir à l'affiner avec des données d'entraînement supplémentaires. Le problème avec l'entraînement supplémentaire est que, à mesure que le système s'améliore dans une tâche étroite, il se dégrade en réalité dans d'autres. Les chercheurs appellent ce problème « l'oubli catastrophique ».
Certains chercheurs en IA surmontent l'oubli catastrophique en entraînant le modèle pour une variété de tâches disparates en même temps, mais cela nécessite beaucoup de puissance informatique, de temps et d'argent. Le prompt tuning évite cela. L'innovation d'AI21 Labs avec MRKL est de créer de petits modules d'apprentissage profond qui peuvent automatiquement effectuer un prompt tuning de Jurassic à la volée, en prenant la requête d'un utilisateur et en composant le meilleur ensemble de prompts pour inciter Jurassic à fournir des réponses dans le style et le format corrects.
Et avec cela, voici le reste des nouvelles de cette semaine en matière d'IA.
Jeremy Kahn
@jeremyakahn
jeremy.kahn@fortune.com
Cette histoire a été initialement publiée sur Fortune.com


