El reconeixement d'entitats nomenades (amb acrònim anglès NER) (també conegut com a identificació d'entitats (nomenades), fragmentació d'entitats i extracció d'entitats) és una subtasca d'extracció d'informació que pretén localitzar i classificar les entitats amb nom esmentades en un text no estructurat en categories predefinides, com ara persona. noms, organitzacions, ubicacions, codis mèdics, expressions de temps, quantitats, valors monetaris, percentatges, etc.
Els sistemes NER d'última generació per a l'anglès produeixen un rendiment gairebé humà. Per exemple, el millor sistema que va entrar al MUC-7 va obtenir un 93,39% de la mesura F, mentre que els anotadors humans van obtenir un 97,60% i un 96,95%.[1][2]
Les plataformes NER notables inclouen:
Malgrat els alts números de F1 reportats al conjunt de dades MUC-7, el problema del reconeixement d'entitats amb nom està lluny d'haver-se resolt. Els esforços principals es dirigeixen a reduir el treball d'anotacions mitjançant l'ús d'aprenentatge semisupervisat,[3][4] un rendiment robust en els dominis [5][6] i l'escalada a tipus d'entitats de gran fi.[7][8] En els darrers anys, molts projectes s'han convertit en crowdsourcing, que és una solució prometedora per obtenir judicis humans agregats d'alta qualitat per als enfocaments d'aprenentatge automàtic supervisat i semisupervisat de NER.[9] Una altra tasca difícil és dissenyar models per tractar contextos lingüísticament complexos com Twitter i consultes de cerca.[10]
Hi ha alguns investigadors que van fer algunes comparacions sobre els rendiments NER de diferents models estadístics com ara HMM (model de Markov ocult), ME (entropia màxima) i CRF (camps aleatoris condicionals) i conjunts de característiques.[11] I alguns investigadors van proposar recentment un model d'aprenentatge semisupervisat basat en gràfics per a tasques NER específiques del llenguatge.[12]