En estadística, la classificació és el problema d'identificar a quina d'un conjunt de categories (subpoblacions) pertany una observació (o observacions). Alguns exemples són assignar un determinat correu electrònic a la classe "correu brossa" o "no spam" i assignar un diagnòstic a un pacient determinat en funció de les característiques observades del pacient (sexe, pressió arterial, presència o absència de determinats símptomes, etc).[1]
Sovint, les observacions individuals s'analitzen en un conjunt de propietats quantificables, conegudes de diverses maneres com a variables o característiques explicatives. Aquestes propietats poden ser categòriques de diferents maneres (p "A", "B", "AB" o "O", per al tipus de sang), ordinal (per exemple, "gran", "mitjana" o "petit"), amb valors enters (per exemple, el nombre d'ocurrències d'una paraula determinada en un correu electrònic) o de valor real (per exemple, una mesura de la pressió arterial). Altres classificadors funcionen comparant observacions amb observacions anteriors mitjançant una funció de semblança o distància.
Un algorisme que implementa la classificació, especialment en una implementació concreta, es coneix com a classificador. El terme "classificador" de vegades també es refereix a la funció matemàtica, implementada per un algorisme de classificació, que mapeja les dades d'entrada a una categoria.[2]
La terminologia entre els camps és força variada. A l'estadística, on la classificació es fa sovint amb regressió logística o un procediment similar, les propietats de les observacions s'anomenen variables explicatives (o variables independents, regressors, etc.), i les categories a predir es coneixen com a resultats, que es consideren ser valors possibles de la variable dependent. En l'aprenentatge automàtic, les observacions sovint es coneixen com a instàncies, les variables explicatives s'anomenen característiques (agrupades en un vector de característiques) i les possibles categories que es poden predir són classes. Altres camps poden utilitzar una terminologia diferent: per exemple, en ecologia comunitària, el terme "classificació" normalment es refereix a l'anàlisi de clústers.[3]
Com que cap forma única de classificació és adequada per a tots els conjunts de dades, s'ha desenvolupat un gran conjunt d'eines d'algorismes de classificació. Els més utilitzats inclouen:[4]