Modèle de langage

En traitement automatique des langues, un modèle de langage, modèle de langue ou modèle linguistique[1] est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage vise fondamentalement à prédire le mot suivant dans une séquence de mots[2].

Type de modèles

n-gram

Un modèle de langage n-gramme est un modèle de langage qui modélise des séquences de mots comme un processus de Markov. Il utilise l'hypothèse simplificatrice selon laquelle la probabilité du mot suivant dans une séquence ne dépend que d'une fenêtre de taille fixe de mots précédents. Un modèle bigramme considère un mot précédent, un modèle trigramme en considère deux, et en général, un modèle n-gramme considère n-1 mots du contexte précédent.

Les modèles n-grammes ne sont plus couramment utilisés dans la recherche et les applications du traitement du langage naturel, car ils ont été supplantés par les méthodes d'apprentissage en profondeur, plus récemment les grands modèles de langages.

Réseaux de neurones

Un modèle de langage de grande taille (large language model ou LLM en anglais) s'appuie sur de vastes corpus de textes de diverses sources, tels que livres, articles de presse, pages Web, forums, réseaux sociaux, etc. pour prédire, à partir d'un mot donné, les mots et les phrases suivants dans un texte.

Les LLM sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions. Parmi les exemples de LLM les plus connus, on peut citer GPT-3 et GPT-4 de OpenAI et BERT de Google.

Outre les grands modèles de langage, les petits modèles de langage (SLM ou small langage model) nécessitent moins de données et de puissance de calcul pour fonctionner. Cette caractéristique les rend plus pratiques pour une utilisation dans des appareils avec des ressources limitées ou pour des applications nécessitant une réponse rapide[3].

Usage

Les LLM sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions.

Plus précisement, Solaiman, I. et al. rapportent des usages dits bénéfiques dans une grande variété de domaines[4]. Ils ressortent :

Domaine Exemple d’usage
Génie logiciel Autocomplétion de code
Écriture Assistance grammaticale
Arts Générations de poèmes
Divertissement Jeux vidéos
Santé Systèmes médicaux de question-réponse

Critiques

Bender et al. 2021 remet en cause la pertinence des énormes modèles de langage préentraînés[5]. Ils extraient 3 catégories de problèmes : le coût environnemental de l’entraînement et de l’utilisation de modèles de grande taille, les problèmes issus des jeux d'entraînements tirés d’Internet, et les problèmes introduits par la “cohérence apparente” de ces modèles. Parmi les problèmes issus des jeux d’entraînements, se trouvent les biais que les modèles statistiques encodent souvent, le manque de supervision et de responsabilité dans le traitement des jeux de données, ainsi que l’idée que les mœurs sociales changent, mais que les modèles de langages sont incapables de se modifier sans réentraînement actif avec de nouvelles données.

Bender et al. critiquent aussi le fait qu’il n’y a pas de pensée derrière la communication des LLM ; parce que c’est un modèle statistique, la sortie ne serait donc qu’une imitation d’une communication réelle.

Question des droits d’auteur

La question des droits d'auteur liés à l'utilisation de données textuelles protégées pour l'entraînement de modèles de langage préentraînés est une préoccupation majeure, comme l'explique Christopher T. Zirpoli 2023[6]. La controverse réside principalement dans la distinction entre l'utilisation transformative, qui peut être considérée comme une utilisation équitable, et la reproduction de travaux protégés par le droit d'auteur. Bien que ces modèles ne reproduisent pas directement le contenu source, ils génèrent des sorties basées sur ces données, pouvant éventuellement reproduire des segments de textes protégés. La législation actuelle ne couvre pas explicitement ce domaine, laissant une zone d'incertitude juridique. Cela souligne la nécessité d'une clarification légale et d'un débat éthique autour de la propriété intellectuelle dans le contexte de l'intelligence artificielle générative.

Adaptation au contexte

L'article “Challenges of Context and Time in Reinforcement Learning : Introducing Space Fortress as a Benchmark” par Akshat Agarwal et al. (2018) aborde des problématiques essentielles dans le domaine de l'apprentissage par renforcement. Les auteurs mettent l'accent sur la complexité d'intégrer le contexte et le facteur temporel dans les algorithmes. Ces derniers font face à des défis majeurs lorsqu'il s'agit de prendre des décisions optimales en temps réel, en raison des incertitudes et de la complexité inhérente aux situations réelles. La problématique est d'autant plus pressante qu'une mauvaise interprétation du contexte ou un manque d'adaptation à l'évolution rapide des environnements peut conduire à des résultats imprévus et loin d'être optimaux[7].

Présence de biais et proliférations de fausses informations

Tel que mentionné par Bender et al., les modèles de langage sont directement impactés par la qualité de leurs données d'entraînement. Plusieurs biais ont donc pu être démontrés dans des versions de modèles. On peut nommer comme exemple la priorisation des productions anglophones, pour les modèles entraînés en anglais. Les modèles peuvent aussi être affectés par les biais humains comme les stéréotypes de genre, religion, race, etc.[4]

De plus, il est possible d’utiliser des modèles open-source, même si souvent moins perfectionnés que ceux de l’industrie privée, et d’en accentuer une idéologie désirée en lui fournissant des données la supportant. Fraioli croit que cette facilité à automatiser la génération de textes pourrait augmenter la quantité de contenu de propagande accessible sur le web[8].

La présence d’opinion dans les modèles de langage peut influencer les opinions de ses utilisateurs, selon une étude de Jakesch et al[9]. Solaiman, I. et al. soutiennent qu’il est alors primordial d’analyser les modèles et de les tester pour ces biais. Selon eux, des méthodes standardisées au travers de l'industrie sont nécessaires[4].

Influence géopolitique

D’un point de vue politique, plusieurs pays prévoient une influence des modèles de langage sur leurs affaires internes. Par exemple, avec la montée de la désinformation, Fraioli croit qu’il faut surveiller les campagnes électorales prochaines et y mesurer l’impact des modèles[8].

De plus, la dynamique de la recherche en IA est largement dominée par quelques grandes entreprises technologiques, souvent américaines, qui disposent des ressources nécessaires pour développer et déployer des jeux de données volumineux, des modèles et des clusters de calcul. Les relations internationales se sont donc vues impactées par la montée en popularité des modèles de langage, car leur développement a créé une dynamique de nationalisme de l’IA avec une course à la scalabilité ascendante, principalement entre les États-Unis et la Chine. Fraioli ressort le contrôle par les États-Unis des exportations de semiconducteurs, souvent utilisés en AI, vers la Chine comme un exemple de ces nouvelles mesures. Il estime que ce serait pour préserver les avancées américaines dans le domaines ou pour limiter l’influence Chinoise à l’international. Par contre, il soutient que ça pourrait encourager la Chine à investir dans ses propres infrastructures[8].

Finalement, tous les pays n’ont pas la même approche quant à la régularisation des modèles de langage. L’Union Européenne, par exemple, prévoit être plus sévère et cela pourrait ralentir les développements de l’IA à long terme en Europe[8].

Liens externes

Notes et références

  1. « modèle linguistique », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le ).
  2. (en) Yoshua Bengio, « Neural net language models », dans Scholarpedia (lire en ligne).
  3. (en) Margaret Rouse, « Small Language Model (SLM) », sur Techopedia, (consulté le )
  4. a b et c (en) Irene Solaiman, « Release Strategies and the Social Impacts of Language Models », Aucun,‎ (lire en ligne, consulté le )
  5. (en) Emily Bender, Timnit Gebru, Angelina McMillan-Major et Shmargaret Shmitchell, « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 », FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency,‎ , p. 610–623 (DOI 10.1145/3442188.3445922)
  6. Christopher Zirpoli, « Generative Artifical Intelligence and Copyright Law »
  7. Akshat Agarwal, Ryan Hope et Katia Sycara, « Learning Context-Sensitive Strategies in Space Fortress », 2019 28th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN), IEEE,‎ (DOI 10.1109/ro-man46459.2019.8956452, lire en ligne, consulté le )
  8. a b c et d « Large language models: fast proliferation and budding international competition », Strategic Comments, vol. 29, no 2,‎ , iv–vi (ISSN 1356-7888, DOI 10.1080/13567888.2023.2198430, lire en ligne, consulté le )
  9. Maurice Jakesch, Advait Bhat, Daniel Buschek et Lior Zalmanson, « Co-Writing with Opinionated Language Models Affects Users' Views », Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems,‎ , p. 1–15 (DOI 10.1145/3544548.3581196, lire en ligne, consulté le )

Read other articles:

Pulled groin muscle Selangkangan atau dalam istilah medis inguinal adalah bagian tubuh yang terdapat di antara abdomen dan paha, dengan tuberkulum pubikum di sebelah medial dan spina iliaka superior anterior di sebelah superolateral.[1] Kanalis inguinalis merupakan struktur tubular yang berjalan secara inferomedial. Dasar kanalis inguinalis adalah ligamentum inguinale yang dibentuk oleh kemiringan sudut aponeurosis oblik eksterna.[1][2] Referensi ^ a b Cheuck, Lanna; C...

 

Erik LaRay Harvey (2019) Erik LaRay Harvey (* 1972 in Bainbridge, Georgia) ist ein US-amerikanischer Schauspieler. Bekanntheit erlangte er vor allem durch die Fernsehserie Boardwalk Empire und durch seine Rolle als Willis Stryker alias Diamondback in der Netflix-Serie Marvel’s Luke Cage. Inhaltsverzeichnis 1 Leben und Karriere 2 Filmografie (Auswahl) 3 Weblinks 4 Einzelnachweise Leben und Karriere Erik LaRay Harvey wurde im US-Bundesstaat Georgia geboren und wuchs in Washington, D.C. auf. E...

 

Market town in North Yorkshire, England For other uses, see Helmsley (disambiguation). Human settlement in EnglandHelmsleyHelmsley town square (June 2007)HelmsleyLocation within North YorkshirePopulation1,515 (2011 census)[1]OS grid referenceSE617838• London195 mi (314 km) SUnitary authorityNorth YorkshireCeremonial countyNorth YorkshireRegionYorkshire and the HumberCountryEnglandSovereign stateUnited KingdomPost townYORKPostcode...

البيان في تفسير القرآن غلاف الكتاب الاسم البيان في تفسير القرآن المؤلف أبو القاسم الخوئي الموضوع تفسير قرآن الكريم العقيدة الشيعة البلد خوي اللغة العربية معلومات الطباعة كتب أخرى للمؤلف معجم رجال الحديث، نفحات الاعجاز، تكملة منهاج الصالحين، مناسك الحج و... تعديل مصدري - ت...

 

Ugly AlertPoster promosi untuk Ugly AlertGenreRomansa, MelodramaDitulis olehJung Ji-wooSutradaraShin Yoon-subPemeranIm Joo-hwanKang So-raChoi Tae-joonKang ByulNegara asalKorea SelatanBahasa asliKoreaJmlh. episode133ProduksiProduserHong Sung-changLokasi produksiKorea SelatanDurasiSenin hingga Jumat pukul 19:20 (WSK)Rumah produksiShin-young ENC Co. Ltd. Human NatureRilisJaringan asliSeoul Broadcasting SystemRilis asli20 Mei (2013-05-20) –29 November 2013 (2013-11-29)Pranala lua...

 

Teater MariinskyBerkas:Mariinsky Theatre Logo.pngMariinsky Theatre, August 2022Alamat1 Theatre SquareSaint PetersburgRusiaKoordinat59°55′32″N 30°17′46″E / 59.92556°N 30.29611°E / 59.92556; 30.29611Koordinat: 59°55′32″N 30°17′46″E / 59.92556°N 30.29611°E / 59.92556; 30.29611KonstruksiDibuka2 Oktober 1860Tahun aktif1860–sekarangArsitekAlberto CavosSitus webwww.mariinsky.ru Teater Mariinsky (bahasa Rusia: Мариин...

Little Catworth MeadowSite of Special Scientific InterestLocationCambridgeshireGrid referenceTL 103 727[1]InterestBiologicalArea5.2 hectares[1]Notification1984[1]Location mapMagic Map Little Catworth Meadow is a 5.2-hectare (13-acre) biological Site of Special Scientific Interest between Catworth and Spaldwick in Cambridgeshire.[1][2] The meadow is traditionally managed grassland on calcareous loam, which is rare in Britain. It has mature hedgerows and ...

 

Albert Shanker vteCivil Rights Movement in northeasternUnited StatesState of New Jersey 1964 Democratic National Convention State of New York New York City school boycott New York City teachers' strike of 1968 Kanter v. Secretary of State State of Pennsylvania Pennsylvania Human Relations Act Pennsylvania v. Board of Trusts Chester school protests The New York City teachers' strike of 1968 was a months-long confrontation between the new community-controlled school board in the largely black O...

 

Prison in Manchester, UK Strangeways redirects here. For other uses, see Strangeways (disambiguation). Manchester PrisonLocationStrangeways, ManchesterSecurity classAdult Male/Category A+B Capacity744Population~624 (as of October 2021[1])Opened1868Former nameStrangewaysManaged byHM Prison ServicesGovernorRob KnightWebsiteManchester at justice.gov.uk HM Prison Manchester is a Category A and B men's prison in Manchester, England, operated by His Majesty's Prison Service. It is still...

American composer (born 1975) Jeremy ZuckermanZuckerman at San Diego Comic-Con in 2011Born (1975-07-31) July 31, 1975 (age 48)Newburgh, New York, U.S.EducationBerklee College of MusicCalifornia Institute of the ArtsOccupationsComposermusicianYears active2001–presentNotable workMusic for Avatar: The Last Airbender and The Legend of KorraWebsitewww.jeremyzuckerman.com Jeremy Zuckerman (born July 31, 1975) is an American composer of concert music, film and television music, music for...

 

2008 single by Metro StationSeventeen ForeverSingle by Metro Stationfrom the album Metro Station B-sideKelseyReleasedDecember 13, 2008Recorded2007Genre Synthpop dance-punk neon pop[1] Length2:54LabelColumbiaSongwriter(s) Trace Cyrus Mason Musso Blake Healy Anthony Improgo Producer(s)S*A*M and SluggoMetro Station singles chronology Shake It (2008) Seventeen Forever (2008) Japanese Girl (2009) Music videoSeventeen Forever on YouTube Seventeen Forever is a song by the American pop band M...

 

Electoral Law used by Ottoman Empire This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article may need to be rewritten to comply with Wikipedia's quality standards. You can help. The talk page may contain suggestions. (November 2020)This article relies largely or entirely on a single source. Relevant discussion may be found on the talk page. Please help improve this article by introdu...

German World War II submarine U-570 Type VIIC submarine that was captured by the British in 1941. This U-boat is almost identical to U-983. History Nazi Germany NameU-983 Ordered25 May 1941 BuilderBlohm & Voss, Hamburg Yard number183 Laid down7 September 1942 Launched12 May 1943 Commissioned16 June 1943 FateSunk on 8 September 1943 General characteristics Class and typeType VIIC submarine Displacement 769 tonnes (757 long tons) surfaced 871 t (857 long tons) submerged Length 67.10...

 

У Вікіпедії є статті про інші географічні об’єкти з назвою Тихе. село Тихе Країна  Україна Область Дніпропетровська область Район Синельниківський район Громада Васильківська селищна громада Облікова картка Тихе  Основні дані Засноване до 1932 р. Колишня назва Кіро...

 

The Internet in Croatia became a reality in November 1992 when the first international connection linking Zagreb and Vienna became operational. By 2016 an estimated 74.2% of the Croatian population was using the Internet from home, work, and school as well as from their mobile phones.[1] Internet has recently become widely accessible throughout Croatia. Good internet coverage is predominantly obtained within the urban areas of Croatia.[2] Mobile internet speed averages around ...

This article relies excessively on references to primary sources. Please improve this article by adding secondary or tertiary sources. Find sources: Madacy Lifestyle Marketing – news · newspapers · books · scholar · JSTOR (January 2009) (Learn how and when to remove this template message) Madacy Lifestyle Marketing (formerly Madacy Entertainment) was a company based in Mount Royal, Quebec, that published DVDs, CDs and VHS tapes.[1] Most of the ...

 

Village in northern outskirts of London Human settlement in EnglandCrews HillImage of Crews HillCrews HillLocation within Greater LondonPopulation566 [1][note 1]OS grid referenceTQ315995London boroughEnfieldCeremonial countyGreater LondonRegionLondonCountryEnglandSovereign stateUnited KingdomPost townENFIELDPostcode districtEN2Dialling code020PoliceMetropolitanFireLondonAmbulanceLondon UK ParliamentEnfield NorthLondon AssemblyE...

 

Tamils in FranceReligious Procession of TamilsTotal population100,000[1] in Overseas DOM-TOM Réunion, French Guiana, Guadeloupe, MartiniqueRegions with significant populations Réunion Martinique French Guiana Overseas departments and territories of France LanguagesTamil, French, EnglishReligionHinduismRelated ethnic groupsIndians in France, Sri Lankans in France Part of a series onTamils History History of Tamil Nadu History of Sri Lanka Sources of ancient Tamil history Sangam perio...

Confederate Army general William Dorsey PenderBorn(1834-02-06)February 6, 1834Edgecombe County, North Carolina, U.S.DiedJuly 18, 1863(1863-07-18) (aged 29)Staunton, VirginiaPlace of burialCalvary Church CemeteryTarboro, North CarolinaAllegiance United States of America  Confederate States of AmericaService/branch United States Army Confederate States ArmyYears of service1854–61 (USA)1861–63 (CSA)Rank First Lieutenant (USA) Major General (CSA)Commands held3rd ...

 

夜郎?—前27年漢武帝時夜郎國位置君主 • 不明 多同• 不明 興 兴衰• 不明 建立• 前135年 設爲犍為郡• 前111年 漢武帝賜印綬• 前109年 再賜滇王印• 前27年12月29日 遭漢軍誅滅亡國 前身 继承 百越 西漢 今属于 中國 貴、蜀、桂、滇 夜郎,又稱夜郎國,是中國漢朝時所謂西南夷中的一個國家,主体在现在的贵州境内[1]。 夜郎的中心...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!