Un petit modèle de langage est un système informatique qui utilise des techniques d'apprentissage automatique pour traiter le langage naturel mais, contrairement aux grands modèles de langage, les SLM nécessitent moins de données et de puissance de calcul pour fonctionner. Cette caractéristique les rend plus pratiques pour une utilisation dans des appareils avec des ressources limitées ou pour des applications nécessitant une réponse rapide[2].
Il n'existe pas de limite précise du nombre de paramètres permettant de distinguer entre les petits et les grands modèles de langage.
Applications
Les petits modèles de langage sont utilisés pour diverses fonctions, telles que la traduction automatique, la génération de texte, la complétion et la correction d'écrits, la reconnaissance vocale et la transcription, et les assistants virtuels[3]. Ces usages alimentent dans une grande variété d'applications, allant des assistants vocaux aux outils d'aide à la rédaction. Ils sont particulièrement utiles dans les environnements à ressources limitées, comme les appareils mobiles ou les systèmes embarqués.
Avantages
La taille plus petite des SLM les rend plus rapides et moins coûteux à entraîner, tout en étant suffisamment performants pour de nombreuses tâches. Les SLM sont appréciés pour leur efficacité et leur accessibilité, permettant une intégration plus large dans les produits et services[4].
Les avantages des SLM incluent leur coût réduit et leur empreinte carbone plus faible, car ils nécessitent moins d'énergie pour fonctionner. De plus, ils peuvent être mis à jour plus fréquemment et personnalisés pour des tâches spécifiques, offrant ainsi une flexibilité accrue[5].
Limitations
Malgré leurs avantages, les SLM ont des limitations. Leur compréhension du langage peut être moins nuancée que celle des grands modèles, et ils peuvent avoir du mal avec des tâches complexes ou des nuances subtiles du langage. De plus, la qualité des données utilisées pour leur entraînement est cruciale pour leur performance[6].
Exemples
Plusieurs SLM sont dérivés du grand modèle de langage BERT, fondé sur la technologie des transformeurs :
BERT Mini[7] est une version plus petite de BERT, conçue pour des appareils avec des ressources limitées.
DistilBERT[8] est une version condensée qui conserve une grande partie de la performance tout en étant plus léger.
TinyBERT[9] est une version encore plus réduite de BERT, optimisée pour les performances sur des appareils à faible capacité.
MobileBERT[10] est un modèle spécialement conçu pour les applications mobiles, offrant un bon équilibre entre performance et efficacité.
ALBERT[11] est une version allégée de BERT qui utilise des techniques de partage de paramètres pour réduire la taille du modèle.
D'autres petits modèles de langage n'utlisent pas la technologie des transformeurs :
LSTM[12] (Long Short-Term Memory) est un type de réseau de neurones récurrents qui peut apprendre des dépendances à long terme dans les séquences de texte. LSTM est utilisé pour interprêter des séquences de données temporelles[13].
ELMo (Embeddings from Language Models)[16] est un modèle de langage qui apprend des représentations contextuelles des mots à partir de deux réseaux de neurones récurrents bidirectionnels.