Lingua Libre est un outil et un projet collaboratif en ligne visant à constituer un corpus audiovisuel multilingue. Développé par l'association Wikimédia France, les codes et fichiers téléchargeables par langues[2] sont placés sous licence libre, comme les autres projets du mouvement Wikimédia. 230 langues et 1,2 million de fichiers audios sont téléchargeables avec différentes quantités de mots enregistrés.
Description
Lingua Libre permet d'enregistrer des mots, des locutions ou des phrases de toutes les langues, orales (enregistrement audio) ou signĂ©es (enregistrement vidĂ©o). Les mots sont prĂ©sentĂ©s au locuteur sous la forme dâune liste, crĂ©Ă©e en direct ou Ă lâavance, ou rĂ©utilisant une catĂ©gorie WikimĂ©dia existante. Le locuteur lit simplement le mot affichĂ© Ă l'Ă©cran, et le logiciel passe au mot suivant lorsquâil dĂ©tecte un silence aprĂšs le mot lu[3]. Ce principe, repris du logiciel open source Shtooka recorder avec l'aide de son crĂ©ateur, Nicolas Vion, permet d'enregistrer plusieurs centaines de mots par heure. Les enregistrements sont ensuite tĂ©lĂ©versĂ©s automatiquement depuis le client web vers la mĂ©diathĂšque libre Wikimedia Commons. Le projet est intĂ©grĂ© Ă et soutenu par la communautĂ© wikimĂ©dienne.
Utilisation des enregistrements
Les enregistrements sont consultables à la fois sur Lingua Libre et sur Commons. Ils sont principalement utilisés sur d'autres projets Wikimédia, afin par exemple d'illustrer des entrées sur le Wiktionnaire ou des noms propres dans des articles Wikipédia[3]. Ils sont également produits et utilisés par le Dico des Ados.
La réutilisation des enregistrements dans un cadre d'enseignement des langues est envisagée.
Les enregistrements sont également librement téléchargeables par langue[2], réutilisés dans des projets de traitement automatique des langues, notamment pour entraßner les moteurs de reconnaissance vocale DeepSpeech de Mozilla[4].
Versions
Lingua Libre est lancé le 23 janvier 2015[5]. Lingua Libre a connu trois versions principales.
Lingua Libre v.1 (2016)
Dans le cadre du projet Langues de France, ayant pour objectif de documenter et valoriser les langues rĂ©gionales de France sur les projets WikimĂ©dia et internet de maniĂšre gĂ©nĂ©rale, la conception de Lingua Libre dĂ©marre en novembre 2015, en partie subventionnĂ©e par la DĂ©lĂ©gation gĂ©nĂ©rale Ă la langue française et aux langues de France (DGLFLF). La premiĂšre version du projet est lancĂ©e en aoĂ»t 2016. Seulement adaptĂ©e Ă lâenregistrement audio, Lingua Libre est montrĂ© lors dâun atelier autour de lâoccitan en dĂ©cembre 2016[6],[7] puis est prĂ©sentĂ© Ă la communautĂ© WikimĂ©dia en ligne[8] et lors dâĂ©vĂ©nements internationaux en 2017.
Lingua Libre v.2 (2018)
Une reconstruction complĂšte est lancĂ©e fin 2017. La nouvelle version de Lingua Libre est basĂ©e sur MediaWiki, utilise Wikibase et OAuth pour mieux sâintĂ©grer Ă lâenvironnement WikimĂ©dia. Lâinterface est traduite via Translatewiki afin que le projet puisse ĂȘtre utilisĂ© par un grand nombre de communautĂ©s. La nouvelle version du site est prĂȘte en juin 2018[9] et ouverte au public en aoĂ»t 2018.
Lingua Libre v.2.2 (2020)
En 2020, dâimportants changements sont apportĂ©s Ă la plateforme ; une nouvelle apparence est dĂ©veloppĂ©e pour le site et le domaine en .org remplace le domaine en .fr utilisĂ© jusque-lĂ [10]. Lingua Libre prend en charge les langues signĂ©es grĂące Ă l'enregistrement vidĂ©o.
Ăvolution
-
Interface de
Shtooka recorder, sur lequel Lingualibre se base.
-
Studio dâenregistrement en septembre 2017 (v.1)
-
Studio d'enregistrement en décembre 2018 (v.2)
-
Studio dâenregistrement en octobre 2020 (v.2.2)
Statistiques
Durant les deux premiĂšres annĂ©es de lancement du projet, environ 10 000 enregistrements ont Ă©tĂ© rĂ©alisĂ©s. Le passage Ă la v.2 est accompagnĂ© dâune forte augmentation de la contribution. Le nombre dâenregistrements est multipliĂ© par 10 en moins dâun an, dĂ©passant le seuil de 100 000 en mai 2019. Ces enregistrements ont Ă©tĂ© rĂ©alisĂ©s par 127 locuteurs, dans prĂšs de 50 langues[11]. Le cap des 500 000 enregistrements est dĂ©passĂ© au cours du mois de juin 2021. En avril 2023, la plateforme comptabilise plus de 800 000 enregistrements, dans 170 langues et grĂące Ă plus de 1400 locuteurs[12]. Le 5 octobre 2023, Lingua Libre a atteint plus dâun million de contributions avec lâenregistrement du mot âà°à°à°à°€à°źà±â qui veut dire Ă©pineux en tĂ©lougou, (Inde du Sud)[13].
Notes et références
- â (en) « LinguaLibre.org », sur GitHub (consultĂ© le ).
- â a et b « Lingualibre Languages Gallery », sur lingualibre.org (consultĂ© le )
- â a et b (de) Sabine Buchwald, « Wie Wikipedia Bairisch lernt », sur SĂŒddeutsche Zeitung,
- â Forum de Mozilla mentionnant Lingua Libre comme source de donnĂ©es dâentraĂźnement
- â RĂ©my Gerbet, « Lingua Libre : un nouvel outil collaboratif pour le public et les chercheurs », Culture et recherche, no 137, printemps-Ă©tĂ© 2018, p. 52 (ISSN 1950-6295, lire en ligne)
- â « Oc-a-thon 2016 : deux journĂ©es contributives sur l'occitan les 9 et 10 dĂ©cembre », sur MinistĂšre de la Culture - DGLFLF,
- â Mathieu Denel, « Lâoc-a-thon, un edit-a-thon pour enrichir les projets Wikimedia et Lingua Libre en langue occitane », sur Blog de WikimĂ©dia France, (consultĂ© le )
- â « Lingua Libre », sur fr.wiktionary.org, ActualitĂ©s du Wiktionnaire, (consultĂ© le )
- â « Lingua Libre », sur fr.wiktionary.org, ActualitĂ©s du Wiktionnaire, (consultĂ© le )
- â Sarah Krichen, « Lingua Libre fait peau neuve ! », sur WikimĂ©dia France, (consultĂ© le )
- â (en) Miguel Trancozo Trevino, « The many languages missing from the internet », sur BBC.com, (consultĂ© le )
- â « Statistiques â Lingua Libre », sur lingualibre.org (consultĂ© le )
- â Wikimedia Fance, « CommuniquĂ© de presse » [PDF] (consultĂ© le )
Annexes
Sur les autres projets Wikimedia :
Articles connexes
Bibliographie
- Mathilde Hutin et Marc AllassonniĂšre-Tang, « Crowd-sourcing for Less-resourced Languages: Lingua Libre for Polish », Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages, European Language Resources Association, , p. 41â47 (lire en ligne, consultĂ© le )
- Mathilde Hutin et Marc AllassonniĂšre-Tang, « Investigating phonological theories with crowd-sourced data: The Inventory Size Hypothesis in the light of Lingua Libre », 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology, Association for Computational Linguistics, , p. 23â28 (DOI 10.18653/v1/2022.sigmorphon-1.3, lire en ligne, consultĂ© le )
Liens externes
|
Wikipédia en bref |
|
Communauté |
|
Wikipédiens notables |
|
Histoire |
|
Distinctions |
|
Références et analyses |
|
AccĂšs sur mobile |
|
RĂ©utilisation des contenus |
|
Projets similaires |
|
ThĂšmes connexes |
|
Liste -
Catégories |