Fouille de textes

La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining.

Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithme un modèle simplifié des théories linguistiques dans des systèmes informatiques d'apprentissage et de statistiques, et des technologies de compréhension du langage naturel.

Les disciplines impliquées sont donc la linguistique calculatoire, l'ingénierie des langues, l'apprentissage artificiel, les statistiques et l'informatique.

Mise en œuvre

On peut distinguer deux étapes principales dans les traitements mis en place par la fouille de textes.

La première étape, l'analyse, consiste à reconnaître les mots, les phrases, leurs rôles grammaticaux, leurs relations et leur sens. Cette première étape est commune à tous les traitements. Une analyse sans interprétation n'a que peu d'intérêt et les deux sont dépendantes. C'est donc le rôle de la seconde étape d'interpréter cette analyse.

La seconde étape, l'interprétation de l'analyse, permet de sélectionner un texte parmi d'autres. Des exemples d'applications sont la classification de courriers en spam, c'est-à-dire les courriers non sollicités, ou non spam : l'application de requêtes dans un moteur de recherche de documents ou le résumé de texte sélectionne les phrases représentatives d'un texte, voire les reformule.

Le critère de sélection peut être d'au moins deux types : la nouveauté et la similarité. Celui de la nouveauté d'une connaissance consiste à découvrir des relations, notamment des implications qui n'étaient pas explicites car indirectes, ou découlant de deux éléments éloignés dans le texte. Celui de la similarité ou contradiction par rapport à un autre texte, ou encore la réponse à une question spécifique, consiste à découvrir des textes qui correspondent le plus à un ensemble de descripteurs dans la requête initiale. Les descripteurs sont par exemple les noms et verbes les plus fréquents d'un texte.

Exemple : indexation de textes

La fouille de texte peut consister en l'indexation d'un ensemble de textes par rapport aux mots qu'ils contiennent. On peut ensuite interroger l'index ainsi créé pour connaître les similarités entre une requête et la liste de textes.

L'algorithme d'indexation se décrit comme suit :

  1. On indexe le texte par rapport aux mots qui le composent
  2. On effectue l'index inversé (on indexe les mots contenus par rapport aux textes les contenant)
  3. Au moment de traiter une requête, on teste la similarité de cette requête avec notre index inversé
  4. Cela retourne les textes similaires avec la requête, et pour chaque texte, un rang.

Les applications sont multiples, elles vont d'une simple indexation pour les moteurs de recherche à l'extraction de connaissances dans des documents non structurés.

D'autres techniques, comme la lemmatisation, permettent d'améliorer l'indexation, en perdant néanmoins une partie du sens.

Applications

  • Détection d'anomalie dans un rapport textuel
  • Diagnostic médical

Recherche d'information

La recherche d'information (ou Information retrieval en anglais) est une tâche spécifique en fouilles de texte. Le but est de faciliter la recherche de données ou de documents pertinents selon les besoins de l'utilisateur. Pour cela le système s'appuie sur les informations pertinentes à fournir à l'utilisateur, mais interprète également l'utilité des données affichées par rapport au comportement de l'utilisateur[1].

Les moteurs de recherche tels Google, Exalead ou Yahoo! sont des applications très connues de fouille de textes sur de grandes masses de données. Cependant, les moteurs de recherche ne se basent pas uniquement sur le texte pour l'indexer, mais également sur la façon dont les pages sont mises en valeur les unes par rapport aux autres. L'algorithme utilisé par Google est PageRank, et il est courant de voir HITS dans le milieu académique[2].

Applications biomédicales

Un exemple d'application biomédicale de fouille de textes est PubGene, qui combine la fouille de textes et la visualisation des résultats sous forme de réseaux graphiques[3]. Un autre exemple d'utilisation d'ontologies avec la fouille de textes est GoPubMed.org[4].

Filtrage des communications

Beaucoup de gestionnaires de courriers électroniques sont maintenant livrés avec un filtre anti-spam. Il existe aussi des logiciels anti-spam qui s'interfacent entre le serveur de courrier et le gestionnaire de courrier.

Applications de sécurité

Le système mondial d'interception des communications privées et publiques Echelon est un exemple d'utilisation militaire et économique de la fouille de textes.

En 2007, la division de lutte anti-criminelle d'Europol a acquis un système d'analyse afin de lutter plus efficacement contre le crime organisé. Ce système intègre parmi les technologies les plus avancées dans le domaine de la fouille et d'analyse de textes. Grâce à ce projet Europol a accompli des progrès très significatifs dans la poursuite de ces objectifs[5].

Intelligence économique

Les méthodes de fouilles de texte contribuent au processus d'Intelligence économique : cartographie des relations, détection de relations explicites entre des acteurs (concessions de licences, fusions / acquisitions, …)

Marketing

Les techniques de la fouille de texte sont très utilisées pour analyser les comportements d’internautes : parcours de visite, critères favorisant le déclenchement d’un achat, efficacité de campagnes publicitaires, analyse du sentiment…

Disciplines connexes

La fouille de textes se distingue du traitement automatique de la langue par son approche générale, massive, pratique et algorithmique de par sa filiation avec la fouille de données. Son approche est moins linguistique. De plus, la fouille de textes ne s'intéresse pas au langage oral comme le fait la reconnaissance vocale.

La fouille de textes recoupe la recherche d'information pour la partie requête sur un moteur de recherche de documents. Par contre, la recherche d'information s'intéresse a priori plus aux types de requêtes possibles et aux indexations associées qu'à l'interprétation des textes.

Et pour information, car on s'éloigne alors du domaine de la fouille de textes, l'interprétation de l'analyse peut aussi générer un nouveau texte. Des exemples d'applications sont la correction des fautes d'orthographe, la traduction, le dialogue homme-machine ou l'imitation d'un style d'écriture.

Standards

Plateformes

  • WordStat logiciel d'analyse de contenu et de fouille de textes développé par Recherches Provalis
  • Antelope[6], plate-forme d'analyse de contenus développée par Proxem

Open source

Liste (non exhaustive) de plateforme de fouille de texte open-source :

Propriétaire

Notes et références

  1. (en) Tavish Srivastava, « Information Retrieval System explained in simple terms! », sur www.analyticsvidhya.com, (consulté le )
  2. Pour une explication du fonctionnement de ces algorithmes et la résolution de certains des pièges que les utilisateurs posent afin d'avoir un meilleur référencement, voir (en) Mining page farms and its application in link spam detection, Bin Zhou, mémoire de Master à l'Université Simon Fraser, mars 2007.
  3. Tor-Kristian Jenssen, Astrid Lægreid, Jan Komorowski1 & Eivind Hovig, « A literature network of human genes for high-throughput analysis of gene expression », Nature Genetics, vol. 28,‎ , p. 21–28 (PMID 11326270, DOI 10.1038/ng0501-21, lire en ligne)
  4. GoPubMed transforme un moteur de recherche monotone en un véritable cerveau, publié le 18 décembre 2009
  5. « "IALEIA-LEIU Annual Conference in Boston on April 9, 2008" »(Archive.orgWikiwixArchive.isGoogleQue faire ?)
  6. Antelope, une plate-forme de TAL permettant d'extraire les sens du texte

Bibliographie

  • (en) Julia Silge et David Robinson, Text Mining with R : A Tidy Approach, O'Reilly, (lire en ligne)

Voir aussi

Articles connexes

Liens externes

Read other articles:

حادث عبارة السلام 98   الخدمة الصانع فينكانتييري  بداية الخدمة 1970  الطول 130.99 متر  العرض 23.60 متر  اي ام او رقم التسجيل ب 6921282  تعديل مصدري - تعديل   27°01′59″N 34°52′59″E / 27.033°N 34.883°E / 27.033; 34.883 عبارة السلام 98 عبارة السلام 98 هي عبّارة بحرية مصرية عائدة لشر...

 

Hj.FatmawatiIbu Negara Indonesia ke-1Masa jabatan17 Agustus 1945 – 12 Maret 1967PendahuluTidak ada, jabatan baruPenggantiHartini (penjabat tidak resmi)Siti Hartinah Informasi pribadiLahir(1923-02-05)5 Februari 1923Bengkulu, Hindia BelandaMeninggal14 Mei 1980(1980-05-14) (umur 57)Kuala Lumpur, MalaysiaKebangsaanIndonesiaSuami/istriSoekarno ​ ​(m. 1943; meninggal 1970)​AnakGuntur SoekarnoputraMegawati SoekarnoputriRachmawati Soekar...

 

Cette liste recense les anciennes commanderies et maisons de l'ordre du Temple dans les Pouilles, en Italie. Blason des Pouilles Histoire et faits marquants Article connexe : Templiers en Italie. Aux XIIe et XIIIe siècles, la région des Pouilles faisait partie du royaume de Sicile fondé en 1130. La présence des Templiers fut importante dans les régions du sud de l'Italie, et en particulier dans les Pouilles, pour la position stratégique occupée par cette région, carr...

Cycle of Satya, Treta, Dvapara and Kali yugas (ages) in Hindu cosmology This article is about Hindu ages. It is not to be confused with Buddhist ages, Greek ages, or Jain ages. A Yuga Cycle (a.k.a. chatur yuga, maha yuga, etc.) is a cyclic age (epoch) in Hindu cosmology. Each cycle lasts for 4,320,000 years (12,000 divine years[a]) and repeats four yugas (world ages): Krita (Satya) Yuga, Treta Yuga, Dvapara Yuga, and Kali Yuga.[4] As a Yuga Cycle progresses through the four yu...

 

Golpe de Estado en Turquía de 1980 Parte de Guerra Fría Titular del periódico Hürriyet del 12 de septiembre de 1980: El ejército ha tomado el poderContexto del acontecimientoFecha 12 de septiembre de 1980Sitio TurquíaImpulsores Consejo de Seguridad Nacional de TurquíaFuerzas Armadas de TurquíaMotivos Violencia política en TurquíaGobierno previoGobernante Fahri KorutürkForma de gobierno DemocraciaGobierno resultanteGobernante Kenan EvrenForma de gobierno Dictadura militar[edita...

 

1988 novel by Milan Kundera Immortality First English edition(publ. Grove Weidenfeld)AuthorMilan KunderaOriginal titleNesmrtelnostTranslatorPeter KussiCountryCzech RepublicPublication date1988Published in English1991Pages358 Immortality (Czech: Nesmrtelnost) is a novel in seven parts, written by Milan Kundera in 1988 in Czech. It was first published in 1990 in French, and then translated into English by Peter Kussi and published in the UK in 1991.[1] The story springs f...

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (ديسمبر 2018)   لمعانٍ أخرى، طالع الحكومة السورية (توضيح). علم الاتحاد السوري (1922 - 1925). الحكومة السورية التي تشكلت ف...

 

New York City Subway service For the former Brooklyn–Manhattan Transit Corporation 5 service, see Culver Shuttle. New York City Subway serviceLexington Avenue ExpressNereid Avenue-bound 5 train of R142s leaving Gun Hill RoadNote: Dark dashed line indicates weekday rush hour service to Nereid Avenue and weekday service to Flatbush Avenue–Brooklyn College. Dashed pink line shows limited rush hour service to Utica Avenue or from New Lots Avenue.Northern end Dyre Avenue (All times) Nerei...

 

2012 Indian filmYaare KoogadaliRelease posterDirected bySamuthirakaniWritten bySamuthirakaniProduced byParvathamma RajkumarStarringPuneeth RajkumarBhavanaYogeshGirish KarnadCinematographyM. SukumarEdited byDeepu S. KumarMusic byV. HarikrishnaProductioncompanyPoornima EnterprisesRelease date 20 December 2012 (2012-12-20) Running time138 minutesCountryIndiaLanguageKannada Yaare Koogadali is a 2012 Indian Kannada-language action film written and directed by Samuthirakani, starring...

Type of ammunition used mainly in hunting medium and large game A Brenneke-style shotgun slug A shotgun slug is a heavy projectile (a slug) made of lead, copper, or other material and fired from a shotgun. Slugs are designed for hunting large game, and other uses, particularly in areas near human population where their short range and slow speed helps increase safety margin. The first effective modern shotgun slug was introduced by Wilhelm Brenneke in 1898, and his design remains in use today...

 

ДеревняМуратовка 53°57′20″ с. ш. 39°59′33″ в. д.HGЯO Страна  Россия Субъект Федерации Рязанская область Муниципальный район Кораблинский Сельское поселение Бобровинское История и география Часовой пояс UTC+3:00 Население Население 20[1] человек (2010) Цифровые и...

 

Aerial view of Sha Chau from Southwest. Sandbar connecting Siu Sha Chau (upper) to Tai Sha Chau. The islet on the right is Sheung Sha Chau. The island in the distance is Nei Lingding Island of Zhuhai. Tai Sha Chau Sha Chau (Chinese: 沙洲; lit. 'Sand Island', formerly transliterated as Saw-Chow)[1] is an island in the northwest waters of Hong Kong. It is off the shore of Lung Kwu Tan near Tuen Mun in the mainland New Territories, separated by the Urmston Road waterway. Ge...

American nuclear chemist Clarice PhelpsBornClarice Evone SaloneEducationTennessee State University (BS, 2003)US Navy Nuclear Power SchoolUniversity of Texas at Austin (MS, 2020)Scientific careerFieldsTransuranic elementsnuclear chemistrynuclear engineeringnuclear powernuclear reactorsthermodynamicsInstitutionsOak Ridge National Laboratory Military careerService/branchUnited States NavyUnitUSS Ronald Reagan Clarice Evone Phelps (née Salone)[1] is an American nuclear chemist ...

 

Sir Alan Arthur Bates, CBE, (* 17. Februar 1934 in Allestree, Derbyshire, England; † 27. Dezember 2003 in London, England) war ein britischer Schauspieler, der als einer der Angry Young Men im britischen Kino und Theater der 1950er- und 1960er-Jahre bekannt wurde. Zu seinen bekanntesten Filmen zählen Alexis Sorbas, Liebende Frauen, Ein Mann wie Hiob und Gosford Park. Inhaltsverzeichnis 1 Leben und Karriere 2 Filmografie (Auswahl) 3 Auszeichnungen 4 Literatur 5 Weblinks 6 Einzelnachweise Le...

 

Railway station in Ninomiya, Kanagawa Prefecture, Japan JT13Nimomiya Station二宮駅North Exit of Ninomiya Station, 2021General informationLocationNinomiya 838, Ninomiya-machi, Naka-gun, Kanagawa-ken 259-0123JapanCoordinates35°17′56.23″N 139°15′27.73″E / 35.2989528°N 139.2577028°E / 35.2989528; 139.2577028Operated by JR EastLine(s)■ Tōkaidō Main LineDistance73.1 km from Tokyo.Platforms1 island platformConnections Bus terminal Other informationStat...

Austria Uniformi di gara Casa Trasferta Sport Calcio Federazione ÖFB Confederazione UEFA Codice FIFA AUT Soprannome Das Team Selezionatore Irene Fuhrmann Record presenze Sarah Puntigam (120) Capocannoniere Nina Burger (48) Ranking FIFA 16º Esordio internazionale Svizzera 5-1 Austria Richterswil, Svizzera, 25 agosto 1990 Migliore vittoria Austria 11-0 Armenia Waidhofen an der Ybbs, Austria, 10 maggio 2003 Armenia 0-11 Austria Waidhofen an der Ybbs, Austria, 13 maggio 2003 Peggiore sconfitta ...

 

As referências deste artigo necessitam de formatação. Por favor, utilize fontes apropriadas contendo título, autor e data para que o verbete permaneça verificável. (Maio de 2018) Por favor, melhore este artigo ou secção, expandindo-o. Mais informações podem ser encontradas nos artigos correspondentes noutras línguas e também na página de discussão. Essa linha do tempo do anti-semitismo narra os fatos de antissemitismo, ações hostis ou discriminação contra os judeus como um g...

 

1972 American film by Richard Fleischer The New CenturionsDirected byRichard FleischerScreenplay byStirling SilliphantBased onThe New Centurionsby Joseph WambaughProduced byRobert ChartoffIrwin WinklerStarringGeorge C. ScottStacy KeachJane AlexanderScott WilsonRosalind CashCinematographyRalph WoolseyEdited byRobert C. JonesMusic byQuincy JonesProductioncompanyChartoff-Winkler ProductionsDistributed byColumbia PicturesRelease date August 3, 1972 (1972-08-03) Running time103 minu...

250 gourde Haiti Gourde (bahasa Prancis: [ɡuʁd]) atau goud (Kreol Haiti: [ɡud]) adalah mata uang Haiti. Kode ISO 4217-nya adalah HTG dan terbagi dalam 100 centimes (Prancis) atau santim (Kreol). Penduduk Haiti sering menyebut dollar sebagai istilah untuk 5 gourde. Pranala luar Facsimiles of Haitian banknotes Diarsipkan 2016-11-14 di Wayback Machine. Coins of Haiti Diarsipkan 2014-10-29 di Wayback Machine. lbsMata uang di AmerikaUtara Dolar Kanada Kanada Saint Pierre dan Miquelon ...

 

Запрос «МНР» перенаправляется сюда; см. также другие значения. Историческое государство Социалистическая республикаМонгольская Народная Республикаᠪᠦᠭᠦᠳᠡ ᠨᠠᠢᠢᠷᠠᠮᠳᠠᠬᠤ ᠮᠣᠩᠭᠣᠯ ᠠᠷᠠᠳ ᠤᠯᠤᠰ (1924—1931)Bügd Nairamdakh Mongol Ard Uls (1931—1946)Бүгд Найрамдах Монгол Ард Улс (1946...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!