Aquest article o secció necessita millorar una traducció deficient. Podeu col·laborar-hi si coneixeu prou la llengua d'origen. També podeu iniciar un fil de discussió per consultar com es pot millorar. Elimineu aquest avís si creieu que està solucionat raonablement.
Anàlisi de sentiment (de l'anglès sentiment analysis o també mineria d'opinió, opinion mining)[1][2] fa referència a l'ús del processament de llenguatge natural, anàlisi de text i lingüística computacional per identificar i extreure informació subjectiva de materials font. L'anàlisi de sentiment es fa servir àmpliament en el camp de les opinions i els mitjans de comunicació socials amb una gran gamma d'aplicacions, des del màrqueting fins al servei al client.
En termes generals, l'anàlisi de sentiment intenta determinar l'actitud un interlocutor, parlant o escrit, respecte a algun tema o a la polaritat contextual global d'un document. L'actitud pot ser el seu judici o avaluació, estat afectiu (és a dir, l'estat emocional de l'autor en el moment de parlar o escriure), o la intenció comunicativa emocional (és a dir, l'efecte emocional que l'autor pretén causar en el lector).
Tipus d'anàlisi de sentiment
Una tasca bàsica en l'anàlisi de sentiment és classificar la polaritat d'un text donat a nivell de document, frase, o tret/característica — si l'opinió expressada en un document, una frase o un ret/característica de l'entitat és positiva, negativa, o neutra. La classificació de sentiment més avançada, «més enllà de la polaritat",busca, per exemple, estats emocionals com «enfadat,» «trist,» i «feliç».
Els primers treballs en aquesta àrea els van dur a terme Turney[3] i Pang[4] que va aplicar diferents mètodes per detectar la polaritat de crítiques de productes i de pel·lícules respectivament. Aquest treball és a nivell de document. També es pot classificar la polaritat d'un document en una escala de diversos valors. Això ho va intentar Pang[5] i Snyder[6] i altres (Bo and Lilian),[5] expandint la tasca bàsica de classificar una crítica de pel·lícula com positiva o negativa a predir avaluacions en una escala de 3 ó 4 estrelles, mentre que Snyder[6] va realitzar una anàlisi en profunditat de crítiques a restaurants pronosticant avaluacions per a diversos aspectes d'un restaurant donat, com podrien ser el menjar i l'ambient (en una escala de cinc estrelles). Malgrat que en la majoria dels mètodes de classificació estadístics, la classe neutra és ignorada sota la suposició que els textos neutrals es troben molt a prop de la frontera del classificador binari, molts investigadors suggereixen que, de la mateixa manera que passa amb tot problema de polaritat, s'han de poder identificar tres categories. A més, es pot provar que alguns classificadors específics com poden ser Max Entropia[7] i el SVMs[8] es poden beneficiar de la introducció de la classe neutra i millorar la precisió global de la classificació.
Un mètode diferent per determinar el sentiment és l'ús d'un sistema d'escalat on a les paraules generalment associades amb un sentiment negatiu, neutre o positiu se'ls assigna un número associat des de -10 fins a +10 (des del més negatiu fins al més positiu) i quan s'analitza una peça de text no estructurada utilitzant processament de llenguatge natural, els conceptes subsegüents són analitzats per una comprensió d'aquestes paraules i de com es relacionen amb el concepte. A cada concepte se li atorga llavors una puntuació basada en la forma de les paraules associades amb sentiments es relacionen amb el concepte i la seva puntuació associada. Això ens permet moure'ns cap a un enteniment més sofisticat dels sentiments basat en una escala d'onze punts. Alternativament, als textos se'ls hi pot atorgar una puntuació per la intensitat de sentiments positius i negatius si l'objectiu és determinar el sentiment en un text en lloc de la polaritat i intensitat general del text.[9]
Identificació subjectivitat/objectivitat
Una altra direcció de la investigació és la identificació subjectivitat/objectivitat. Aquesta tasca es defineix normalment[10] com classificar un text donat (usualment una oració) en una de dues classes: objectiu i subjectiu.[10] Aquest problema de vegades pot ser més difícil que classificació de la polaritat.[11] La subjectivitat de paraules i frases pot dependre del seu context i un document objectiu poden contenir frases subjectives (per exemple, un article de premsa que cita opinions de persones). A més, tal com esmenta Su,[12] els resultats depenen en gran manera de la definició de subjectivitat utilitzada a l'analitzar els textos. Tanmateix, Pang[13] va mostrar que traient les frases objectives d'un document abans de classificar la seva polaritat ajudava a millorar el seu rendiment.
Anàlisi de sentiment basat en característiques
Un model d'anàlisi més detallista és l'anàlisi de sentiment basat en característiques. Es refereix a determinar les opinions o els sentiments expressats sobre diferents trets o característiques d'entitats. Per exemple, d'un telèfon mòbil, una càmera digital o un restaurant.[14] Un tret o característica és un atribut o component d'una entitat. Per exemple, la pantalla d'un telèfon mòbil, la qualitat de fotografia d'una càmera o el servei d'un restaurant. L'avantatge de l'anàlisi basat en trets/característiques és la possibilitat per contemplar matisos sobre objectes d'interès. Diferents característiques poden generar diferents respostes de sentiment. Per exemple un hotel pot tenir una ubicació molt còmoda, però el menjar ser mediocre.[15] Aquest problema implica diversos sub-problemes. Caldrà identificar entitats rellevants, extreure els seus trets i característiques i determinar si una opinió expressada sobre cada tret/característica és positiu, negatiu o neutre.[16] La identificació automàtica de característiques pot ser dut a terme amb mètodes sintàctics o amb modelat de tema.[17][18] Més informació sobre aquest nivell d'anàlisi de sentiment es pot trobar en el treball de Liu.[19]
Mètodes i característiques
Els enfocaments existents en anàlisi de sentiment es poden agrupar en quatre categories principals:[20] localització de paraules clau, afinitat lèxica, mètodes estadístics i tècniques a nivell de concepte. La localització de paraules clau classifica el text en categories d'afecte no ambigües com són feliç, trist, espantat i avorrit.[21] L'afinitat lèxica no només detecta paraules d'afecte òbvies, si no que també assigna a paraules arbitràries una afinitat “probable” a emocions particulars.[22] Els mètodes estadístics treuen avantatge d'elements d'aprenentatge de màquina tals com anàlisi de semàntica latent, màquines de vector de suport, «bossa de paraules» i Orientació Semàntica — Informació Mútua Puntual.[3] Mètodes més sofisticats intenten detectar qui té un sentiment (o sigui, la persona que manté aquest estat afectiu) i l'objectiu (és a dir, l'entitat sobre la qual se sent l'afecte).[23] Per minar l'opinió en context i rebre la característica sobre la qual es va opinar es fan servir les relacions gramaticals de les paraules. Les relacions de dependència gramatical s'obtenen mitjançant una anàlisi gramatical profund del text.[24] A diferència de les tècniques purament sintàctiques, els enfocaments a nivell de concepte treuen avantatge d'elements de representació de coneixement com les ontologies i les xarxes semàntiques i, per això, són també capaços de detectar semàntiques expressades d'una forma subtil, per exemple, mitjançant l'anàlisi de conceptes que no transmeten explícitament informació rellevant, però que implícitament estan lligats a altres conceptes que sí que ho fan.[25]
Hi ha eines de programari de codi obert que despleguen tècniques d'aprenentatge de màquina, estadístiques i de processament de llenguatge natural per automatitzar l'anàlisi de sentiment en grans col·leccions de textos, incloent pàgines de web, notícies en línia, grups de discussió a internet, crítiques en línia, blogs i mitjans de comunicació socials.[26] Els sistemes basats en el coneixement, en comptes d'això, fan ús de recursos d'accés públic. Per exemple, WordNet-Affect,[27] SentiWordNet[28] i SenticNet[29][30] per extreure la informació semàntica i afectiva associada amb conceptes de llenguatge natural. L'anàlisi de sentiment també pot ser realitzat sobre contingut visual, o sigui, imatges i vídeos. Un dels primers enfocaments en aquesta direcció és SentiBank[31] que utilitza una parella de substantiu i adjectiu per a la representació del contingut visual.
L'anàlisi de sentiment requereix un component d'anàlisi humà, atès que els sistemes automatitzats no són capaços d'analitzar tendències històriques del comentador individual o de la plataforma;i sovint els sentiments expressats es classifiquen incorrectament.. L'automatització aconsegueix aproximadament un 23% dels comentaris que són classificats correctament per éssers humans.[32]
De vegades, l'estructura de sentiments i temes és força complexa. A més, el problema de l'anàlisi de sentiment és no-monotònic amb respecte a l'extensió i substitució de stop-word. Només cal comparar les frases en anglès THEY would not let my dog stay in this hotel amb I would not let my dog stay (ELLS no deixarien tenir el meu gos a l'hotel amb Jo no deixaria tenir el meu gos a l'hotel). Per encarar aquesta qüestió s'han aplicat a l'anàlisi de sentiments diversos enfocaments basats en regles i inclouen Programació Lògica Refutable. raonament-va basar les aproximacions han estat aplicades a sentiment anàlisi, incloent Programació Lògica Refutable.[33] També, hi ha diverses regles de recorregut d'arbres aplicades a arbres d'anàlisi sintàctic per extreure en condicions de domini obert.[34][35]
Avaluació
La precisió d'un sistema d'anàlisi de sentiment és pot avaluar en funció del grau d'acord amb els judicis humans. Això és mesura normalment per la precisió i el record.[Cal aclariment] Segons les investigacions es considera que els avaluadors humans solen estar d'acord un 79% de les vegades.[36] Per tant, d'un programa que tingués un grau d'acord del 70% es podria dir que es comporta tan bé com els humans, malgrat que tal precisió no pot semblar impressionant. Si un programa fos «d'acord» el 100% de les vegades, els éssers humans encara hi discreparien aproximadament un 20% de les vegades, atès que són en desacord sempre una xifra com aquesta per a qualsevol resposta.[Cal aclariment][37] Es poden aplicar mesures més sofisticades, però l'avaluació de sistemes d'anàlisi de sentiment continua sent un assumpte complex.
Anàlisi de sentiment i Web 2.0
El creixement dels mitjans de comunicació socials com els blogs i les xarxes socials han alimentat l'interès per a l'anàlisi de sentiment. Amb la proliferació de les crítiques, qualificacions, recomanacions i altres formes d'expressió a la xarxa, l'opinió en línia s'ha convertit en una espècie de divisa virtual pels negocis que busquen comercialitzar els seus productes, identificar noves oportunitats i gestionar les seves reputacions. Com que les empreses de negocis intenten automatitzar el procés de filtrar el soroll, entendre les conversacions, identificar el contingut rellevant i actuar apropiadament, molts agents estan posant el seu interès en el camp de l'anàlisi de sentiment.[38] Un altre factor a tenir en compte també és l'ascens de les plataformes anònimes de mitjans de comunicació socials com 4chan i Reddit.[39] Si la web 2.0 consistia en democratitzar la publicació, llavors la pròxima etapa de la web bé podria estar basada en la mineria de dades de tot el contingut que es publica.[40]Un pas cap a aquest objectiu s'assoleix mitjançant la recerca. Diversos equips de recerca d'universitats arreu del món centren actualment el seu interès en la dinàmica dels sentiments en les e-comunitats a través de l'anàlisi de sentiment.[41] El projecte CyberEmotions, per exemple, ha identificat el paper de les emocions negatives en la conducció de les discussions en les xarxes socials.[42]
El problema és que la majoria dels algoritmes d'anàlisi de sentiment fan servir termes simples per expressar sentiments sobre un producte o servei. Tanmateix, factors culturals, matisos lingüístics i diferents contextos fan extremadament difícil convertir una cadena de text escrit en un simple sentiment a favor o en contra.[38] El fet que els éssers humans sovint discrepen en el sentiment d'un text il·lustra que difícil que és que els ordinadors ho aconsegueixin fer correctament. Com més curta és la cadena, més difícil esdevé.
Malgrat les cadenes curtes de text puguin ser un problema, l'anàlisi de sentiment aplicat al microblogging ha mostrat que Twitter pot ser vist com a indicador en línia vàlid de sentiment polític Els sentiments polítics dels tuits demostren una correspondència estreta amb les posicions polítiques dels partits i els polítics, indicant que el contingut dels missatges de Twitter reflecteixen plausiblement el paisatge polític en línia.[43]
Recursos per a anàlisi de sentiment
Vocabularis de sentiment llistes anotades de paraules.
↑ (2006) "The Importance of Neutral Examples for Learning Sentiment". Computational Intelligence 22: 100–109. Plantilla:Citeseerx
↑Thelwall, Mike; Buckley, Kevan; Paltoglou, Georgios; Cai, Di; Kappas, Arvid «Sentiment strength detection in short informal text». Journal of the American Society for Information Science and Technology, 61, 12, 2010, pàg. 2544–2558. Arxivat de l'original el 2021-02-01. DOI: 10.1002/asi.21416 [Consulta: 21 febrer 2016].
↑ (2006) "Identifying and Analyzing Judgment Opinions.". Proceedings of the Human Language Technology / North American Association of Computational Linguistics conference (HLT-NAACL 2006). New York, NY. [Consulta: 21 febrer 2016]
↑Galitsky, Boris; Dobrocsi, Gabor; de la Rosa, Josep Lluís «Inverting Semantic Structure Under Open Domain Opinion Mining». FLAIRS Conference, 2010.
↑Galitsky, Boris; Chen, Huanjin; Du, Shaobin «Inversion of Forum Content Based on Authors' Sentiments on Product Usability». AAAI Spring Symposium: Social Semantic Web: Where Web 2.0 Meets Web 3.0, 2009, pàg. 33–38.