PaLM (Pathways Language Model) est un grand modèle de langage de 540 milliards de paramètres développé par Google AI[1]. Les chercheurs ont également formé des versions plus petites de PaLM, des modèles à 8 et 62 milliards de paramètres, pour tester les effets de la taille du modèle[2].
PaLM est capable d'effectuer un large éventail de tâches, notamment le raisonnement de bon sens, le raisonnement arithmétique, l'explication de blagues, la génération de code et la traduction[2],[3],[4],[5]. Lorsqu'il exploite la technique de la chaîne de pensée, PaLM a obtenu des performances nettement meilleures sur des tests nécessitant un raisonnement en plusieurs étapes, par exemple en logique[1],[2].
Le modèle a été annoncé pour la première fois en avril 2022, et est resté privé jusqu'en mars 2023, lorsque Google a lancé une interface de programmation, permettant ainsi d'envoyer des requêtes automatisées à PaLM et à d'autres technologies[6]. Cette interface était au début seulement disponible pour un nombre limité de développeurs inscrits sur une liste d'attente, mais a ensuite été rendue publique[7].
Google et DeepMind ont développé une version de PaLM 540B appelée Med-PaLM, qui a été spécialisée sur des données médicales et surpasse les systèmes précédents de réponse aux questions médicales[8],[9]. Med-PaLM a été le premier à passer les examens de médecine aux États-Unis. Et, en plus de répondre avec précision aux questions à choix multiples et aux questions ouvertes, il fournit également un raisonnement et est capable d'évaluer ses propres réponses[10].
Google a également étendu PaLM à l'aide d'un transformateur de vision pour créer PaLM-E, un modèle de pointe pouvant à la fois voir et parler, et pouvant être aussi être utilisé pour la manipulation robotique[11],[12]. Le modèle peut effectuer des tâches de robotique de manière compétitive, sans avoir besoin de recyclage ou d'être ajusté pour le tâche à accomplir[13].
En mai 2023, Google a annoncé PaLM 2 lors du discours d'ouverture de Google I/O[14]. PaLM 2 est un modèle de 340 milliards de paramètres entraîné sur 3,6 billions de tokens[15].
En juin 2023, Google a lancé AudioPaLM, un système permettant la traduction directe et automatique de discours oral d'une langue à une autre, basé sur l'architecture PaLM-2[16].
Entraînement
PaLM est un transformeur pré-entraîné sur un corpus de haute qualité de 780 milliards de tokens. Cet ensemble de données comprend des pages Web filtrées, des livres, des articles Wikipédia, des articles de presse, du code source issu de GitHub et des conversations sur les réseaux sociaux[1],[2]. Il est basé sur les ensembles de données utilisés pour entraîner le modèle LaMDA de Google[2]. Les conversations sur les réseaux sociaux représentent 50 % du corpus, ce qui aide le modèle dans ses capacités conversationnelles[2].
PaLM a été entraîné sur deux clusters de 3072 TPU v4, chaque cluster lié à 768 hôtes avec de fortes contraintes de parallélisme des données et des modèles, ce qui représentait la plus grande configuration TPU[2],[17]. Cet entraînement sur un total de 6144 TPU a également été marqué par une efficacité particulièrement élevée pour l'entraînement d'un modèle de cette taille, avec un taux d'efficacité en utilisation de FLOPS de 57,8%[3].