Partitionnement de données

Partitionnement de données
Exemple de clustering hiérarchique.
Type
Exploration de données, analyse des données (en)Voir et modifier les données sur Wikidata
Aspect de

Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données.

Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.

Pour obtenir un bon partitionnement, il convient d'à la fois :

  • minimiser l'inertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogènes possibles ;
  • maximiser l'inertie inter-classe afin d'obtenir des sous-ensembles bien différenciés.

Vocabulaire

La communauté scientifique francophone utilise différents termes pour désigner cette technique.
Le mot anglais clustering est communément employé. On parle également souvent de méthodes de regroupement. On distingue souvent les méthodes « hiérarchiques » et « de partition »

Clustering non supervisé

Le « clustering non supervisé » aussi appelé classification non supervisée, est un processus qui permet de rassembler des données similaires. Le fait qu’il ne soit pas supervisé signifie que des techniques d'apprentissage machine vont permettre de trouver certaines similarités pour pouvoir classer les données et ce de manière plus ou moins autonome.

Ce type d’analyse permet d’avoir un profil des différents groupes. Cela permet donc de simplifier l’analyse des données en faisant ressortir les points communs et les différences et en réduisant ainsi le nombre de variable des données. Cette technique n’est pas seulement utilisée dans le domaine génétique, mais permet aussi par exemple de lister de potentiels clients lors d’une action publicitaire.

Clustering hiérarchique ou dendrogramme

Le « clustering hiérarchique » est une autre technique de classification. Cette fois-ci, le paramètre comparé est décidé à l’avance. Ensuite, une fois le paramètre de comparaison choisi, la distance (généralement distance euclidienne) est calculée [9]. Pour ce faire, on utilise sa définition donnée par l’équation (1).

Il suffit alors de lier les individus les plus proches entre eux, deux par deux, et ce jusqu’à former un diagramme en arbre appelé dendrogramme.

Les dendrogrammes se lisent de la façon suivante : pour connaître le niveau de proximité entre 2 individus, il faut regarder l’axe des ordonnées ; plus la liaison entre deux individus se fait à une ordonnée élevée, moins ceux-ci seront similaires du point de vue du paramètre observé. Si par ailleurs, nous voulons connaître les individus observés, il faut regarder l’axe des abscisses.

Selon le taux de proximité que nous souhaitons, il est alors possible de former un certain nombre de groupes.

Carte thermique

Une carte thermique est une représentation graphique de données statistiques dans une matrice à deux dimensions, qui utilise la technique de « clustering hiérarchique » [Quoi ?]. Les données y sont représentées sur une échelle reliant deux couleurs comme une couleur froide et une couleur chaude, d'où le nom de carte thermique, ou le noir et le blanc.

La couleur de la grille représente la valeur du paramètre utilisé pour relier les échantillons. On peut adopter la convention que plus la couleur est chaude (p. ex., rouge), plus la proximité est grande.

Différentes méthodes de tri peuvent être utilisées, par exemple un regroupement selon des caractéristiques connues ou un tri selon un paramètre externe.

Dans quel contexte peut-il être utile de réaliser une carte thermique ?

Cette technique de mise en relation de deux ensembles de données triés ayant une mesure en commun peut être utilisée dans beaucoup de domaines. Par exemple, durant le laboratoire, les données sont des mesures sur des gènes, les deux ensembles sont les patients et les gènes, le tri vient des dendrogrammes, et cela permet de localiser facilement, graphiquement, des catégories de patients liées à des catégories de gènes à risque. On peut utiliser le même concept sur des cartes thermiques.

De manière générale, on peut l’utiliser pour toute analyse descriptive, à partir du moment où il faut analyser un ensemble de données trop grand pour être analysé manuellement et qui correspond au type de données attendu par une carte thermique. Par exemple, la technique pourrait être utilisée pour trier des ponts, [Quoi ?], ou bien pour déterminer quelles caractéristiques macroscopiques (mm-μm), associée à des compositions de matériaux (nm, molécules), ont les propriétés les plus intéressantes ; et ce ne sont que des exemples.

Intérêt et applications

Le partitionnement de données est une méthode de classification non supervisée (différente de la classification supervisée où les données d'apprentissage sont déjà étiquetées), et donc parfois dénommée comme telle.

Applications : on en distingue généralement trois sortes[1] :

  • la segmentation d'une base de données ; elle peut servir à discrétiser une base de données.
    La segmentation peut aussi permettre de condenser ou compresser les données d'une base de données spatiales (c'est-à-dire réduire la taille des paquets de données à traiter, dans l'ensemble de données considéré) ; par exemple, dans une image aérienne ou satellitaire un SIG peut traiter différemment les forêts, champs, prairies, routes, zones humides, etc. ici considérés comme des sous-espaces homogènes. Un traitement plus fin pouvant ensuite être appliqué à des sous-ensembles de ces classes (ex. : forêt de feuillus, de résineux, artificielles, naturelles, etc.).
    OLAP est une méthode qui facilite l'indexation de telles bases ;
  • la classification (en sous-groupes, sous-populations au sein de la base de données), par exemple d'une base de données clients, pour la gestion de la relation client ;
  • l'extraction de connaissances, qui se fait généralement sans objectif a priori (facteur de sérendipité, utile pour la génération d'hypothèse ou modélisation prédictive), pour faire émerger des sous-ensembles et sous-concepts éventuellement impossibles à distinguer naturellement.

Formalisation

Pour faire du partitionnement de données, lesdites données sont supposées être organisées dans une matrice dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note le nombre d'individus et le nombre de prédicteurs : de telle façon, la matrice est de taille

L'objectif d'un algorithme de partitionnement sera de trouver les "meilleurs" groupes d'individus. Pour cela on se donne une dissimilarité entre les individus et (respectivement, ligne et de ).

Notons le nombre de groupes que l'on souhaite former. Cela revient à trouver une fonction d'attribution qui minimise une fonction coût.

Une fonction coût classique est la variabilité intra-classe (within-cluster variance en anglais) :

D'autres fonctions coûts existent (par exemple l'indice de Dunn, l'indice de Davies-Bouldin ou l'indice de Calinski-Harabasz). Elles peuvent être utilisées pour évaluer la qualité de classification[2].

Algorithmes

Il existe de multiples méthodes de partitionnement des données, parmi lesquelles :

Ces méthodes sont implémentées au sein de nombreux logiciels de fouille de données.

Notes et références

  1. Berkhin, 2002.
  2. (en) « Clustering Indices », sur cran.r-project.org, (consulté le )

Voir aussi

Bibliographie

  • Anil K. Jain, M. N. Murty, P. J. Flynn, « Data Clustering: a Review », ACM Computing Surveys, vol. 31, no 3, . DOI 10.1145/331499.331504
  • M.-S. Chen, J. Han, and P. S. Yu, « Data mining: an overview from a database perspective », IEEE Transactions on Knowledge and Data Engineering, vol. 8, no 6, p. 866–883, 1996.
  • A. K. Jain, « Data clustering: 50 years beyond K-means », Pattern Recognition Letters, vol. 31, no 8, p. 651–666, .

Articles connexes

Read other articles:

Untuk aktor Indonesia dengan nama yang mirip secara homofonik, lihat Handika Pratama. Andhika PratamaAndhika dalam acara Ini Talkshow Netmediatama, 2014LahirAndhika Pratama Subagyo11 November 1986 (umur 37)Malang, Jawa Timur, IndonesiaKebangsaanIndonesiaNama lainAndhika PratamaDhikaAlmamaterSTIE MalangkucecwaraPekerjaanPemeranpresenterkomedianpenyanyiTahun aktif1997—sekarangSuami/istriUssy Sulistiawaty ​(m. 2012)​Anak2 (adopsi dan sambung), 3 (kan...

 

Il problema di Keplero nella relatività generale comporta la risoluzione del moto di due corpi sferici che interagiscono tra di loro per mezzo della gravitazione, come descritto dalla teoria della relatività generale. In genere, e in questo articolo, un corpo viene ipotizzato avente una massa m {\displaystyle m} trascurabile rispetto alla massa M {\displaystyle M} di un altro corpo; questa è una buona approssimazione nel caso di un pianeta che ruota attorno al Sole, o di un fotone che pass...

 

元彼の遺言状Will of ex-boyfriend著者 新川帆立発行日 2021年1月8日発行元 宝島社ジャンル 小説国 日本言語 日本語形態 四六判並製(ソフトカバー版)A6並製(文庫版)ページ数 336(ソフトカバー版)352(文庫版)次作 倒産続きの彼女[1]コード ISBN 978-4-299-01236-4 ISBN 978-4-299-02122-9(文庫判) ウィキポータル 文学 [ ウィキデータ項目を編集 ]テンプレートを表示 『元

1894 massacre in Port Arthur, now Dalian, China For the 1996 massacre in Tasmania, see Port Arthur massacre (Australia). Port Arthur massacrePart of the First Sino-Japanese WarA Western newspaper's depiction of Japanese soldiers mutilating bodiesLocationPort Arthur (present-day Lüshunkou District of Dalian), Qing ChinaDateNovember 21, 1894TargetSoldiers and civiliansAttack typeMassacreDeaths2,600 civilians massacred within the city, no reliable count in the suburban hills. Maximum 20,000 kil...

 

هذه المقالة بحاجة لصندوق معلومات. فضلًا ساعد في تحسين هذه المقالة بإضافة صندوق معلومات مخصص إليها. هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (أكتوبر 2018) مدرسة العلوم الحيوانية والبيطرية (بالإنجليزية: School of Animal ...

 

Sylvester the Cat, dikenal sebagai Sylvester Pussycat Sylvester J. Pussycat, Sr. atau Sylvester (the Cat) adalah sebuah tokoh kartun dalam serial Looney Tunes dan Merrie Melodies produksi dari Warner Bros.. Sylvester memakai nama yang disadur dari felis silvestris. Tentang Sylvester Sylvester menggambarkan seekor seekor kucing berwarna hitam dan putih milik Granny. Sylvester selalu dijaga Granny. Sasaran yang diincar Sylvester ialah Tweety, Speedy Gonzales dan Hippety Hopper. Sylvester kadang...

Untuk orang lain dengan nama yang sama, lihat Gary Locke. Gary Locke駱家輝Menteri Perdagangan Amerika Serikat ke-36Masa jabatan26 Maret 2009 – 1 Agustus 2011PresidenBarack ObamaWakilDennis HightowerPendahuluCarlos GutierrezPenggantiJohn Bryson (Ditunjuk)Gubernur Washington 21Masa jabatan15 Januari 1997 – 12 Januari 2005WakilBrad OwenPendahuluMike LowryPenggantiChristine GregoireKing County Executive ke-5Masa jabatan4 Januari 1994 – 15 Januari 1997Pendah...

 

Als Meister der Goslarer Sibyllen wird der namentlich nicht bekannte Maler bezeichnet, der zwischen 1501 und 1515 den Zyklus mit Kaisern, Sibyllen und Heiligen im Huldigungssaal im Rathaus von Goslar geschaffen hat. Diese ehemalige Ratsstube ist mit ihrer Ausmalung ein besonders Beispiel profaner Raumkunst der Spätgotik in Deutschland, mit Anzeichen einer beginnenden Renaissance in der Kunst der Zeit. Ein vergleichbares Werk profaner Kunst schuf sein ebenfalls unbekannter Zeitgenosse, der Me...

 

1969 song by the BeatlesGolden SlumbersSong by the Beatlesfrom the album Abbey Road Released26 September 1969Recorded2–4, 30–31 July and 15 August 1969StudioEMI, LondonGenreSoft rock[1]Length1:31LabelApple RecordsSongwriter(s)Lennon–McCartneyProducer(s)George MartinAudio sampleGolden Slumbersfilehelp Golden Slumbers is a song by the English rock band the Beatles from their 1969 album Abbey Road. Written by Paul McCartney and credited to Lennon–McCartney,[2][3] ...

This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article relies largely or entirely on a single source. Relevant discussion may be found on the talk page. Please help improve this article by introducing citations to additional sources.Find sources: Nightmare Detective – news · newspapers · books · scholar · JSTOR (July 2015) This article consis...

 

Fenobarbital struttura Fenobarbital adalah antikonvulsan turunan barbiturat yang efektif dalam mengatasi epilepsi.[1] Nama kimia dari fenobarbital sendiri adalah asam 5-etil- 5fenilbarbiturat.[1] Karena fenobarbital merupakan salah satu obat golongan barbiturat, mekanismenya sama dengan barbiturat.[1] Barbiturat menekan korteks sensor,menurunkan aktivitas motorik, mempengaruhi fungsi serebral dan menyebabkan kantuk, efek sedasi dan hipnotik.[1] Pada dosis tingg...

 

For other uses, see Escape Clause (disambiguation). This article relies excessively on references to primary sources. Please improve this article by adding secondary or tertiary sources. Find sources: Escape Clause – news · newspapers · books · scholar · JSTOR (December 2011) (Learn how and when to remove this template message) 6th episode of the 1st season of The Twilight Zone Escape ClauseThe Twilight Zone episodeEpisode no.Season 1Episode 6Dire...

Totale lengte55 kmGeopend14 mei 1950Type spoorwegS-togGeëlektrificeerdjaAantal sporen2Baanvaksnelheid120 km/uTreindienst doorDSB Lijn C op Station Vesterport. Lijn C naar Ballerup wordt verwacht op Station Nordhavn. S-tog Lijn C stopt altijd op Station Valby. S-tog C is een S-toglijn tussen Klampenborg en Frederikssund via Københavns Hovedbanegård. Geschiedenis Tot aan 2007 waren er aparte lijnaanduidingen voor de extra treindiensten die de hoofdlijn versterkte in de daguren. Ten eerste da...

 

Rebellion in Poland This article is about Polish Chicken War. For the Chicken War of the 1960s, see Chicken tax. Chicken War by Henryk Rodakowski Chicken War or Hen War (Polish: Wojna kokosza) is the colloquial name for a 1537 anti-royalist and anti-absolutist rokosz (rebellion) by the Polish nobility. The derisive name was coined by the magnates, who for the most part supported the King and claimed that the conflict's only effect was the near-extinction of the local chickens, which were eate...

 

Defunct Canadian comic book publisher Aircel ComicsIndustryComicsFounded1985; 38 years ago (1985)FounderBarry BlairDefunct1994; 29 years ago (1994)HeadquartersOttawa, Ontario, Canada (1985–1988)Los Angeles, California, U.S. (1988–1994)Key peopleDave CooperPatrick McEownGuang YapProductsThe Men in BlackOwnerMarvel ComicsParentMalibu Comics Aircel Comics (Aircel Publishing) was a comic book publisher founded by Barry Blair, in Ottawa, Ontario in 1985. In ...

BBC TV drama series, 2008–2011 Lark Rise to CandlefordGenrePeriod DramaCreated byBill GallagherBased onLark Rise to Candleford trilogy by Flora ThompsonNarrated bySarah LancashireComposerJulian NottCountry of originUnited KingdomOriginal languageEnglishNo. of series4No. of episodes40ProductionExecutive producersBill GallagherSusan HoggProducersGrainne Marmion (Series 1)Ann Tricklebank (Series 2–4)Production locationsBox, Corsham and Lockeridge, WiltshireRunning time60 minutesOriginal rele...

 

Greek-American professional basketball player Lou TsioropoulosTsioropoulos in 1957Personal informationBorn(1930-08-31)August 31, 1930Lynn, MassachusettsDiedAugust 22, 2015(2015-08-22) (aged 84)Louisville, KentuckyNationalityGreek-AmericanListed height6 ft 5 in (1.96 m)Listed weight190 lb (86 kg)Career informationHigh schoolLynn English(Lynn, Massachusetts)CollegeKentucky (1950–1953)NBA draft1953: 7th round, 58th overall pickSelected by the Boston CelticsPlaying...

 

  第1回衆議院議員総選挙 内閣 第1次山縣内閣投票日 1890年(明治23年)7月1日選挙制度 小選挙区制[注釈 1]改選数 300議席内訳 選挙後の党派別議席数有権者 直接国税15円以上納税の満25歳以上の男性日本国民有権者数 45万872人投票率 93.91%各党別勢力党順 第1党 第2党 第3党画像 党色      党名 立憲自由党 大成会 立憲改進党党首 板垣退助 増田繁幸 大隈重...

United States federal government office building in Washington, DC This article is about the current building. For the former building of the same name, see O'Neill House Office Building (1947). Not to be confused with Thomas P. O'Neill Jr. Federal Building (Boston). O'Neill House Office BuildingThe O'Neill Building just before reopening after its renovation in 2014Location within Washington, D.C.Former namesFederal Office Building No. 8General informationStatusCompletedLocationUnited States ...

 

Santa Bárbara Distrito Iglesia católica de Santa Bárbara Santa BárbaraLocalización de Santa Bárbara en Costa Rica Santa BárbaraLocalización de Santa Bárbara en Provincia de Heredia Santa BárbaraCoordenadas 10°02′18″N 84°09′32″O / 10.0383687, -84.1589162Entidad Distrito • País  Costa Rica • Provincia  Heredia • Cantón  Santa BárbaraEventos históricos   • Fundación 29 de septiembre de 1882Superficie  &...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!