En estadística la regressió lineal o ajust lineal és un mètode estadístic que modelitza la relació entre una variable dependentY, les variables independentsX i i un terme aleatori ε, per trobar una funció lineal que s'ajusti al màxim a la distribució de punts generada per una variable de dues dimensions.[1] Aquest model es pot expressar com:
on és la intersecció amb l'eix d'ordenades o terme "constant", les (i> 0) són els paràmetres respectius a cada variable independent, i és el nombre de paràmetres independents que cal tenir en compte en la regressió. La regressió lineal pot ser comparada amb la regressió no lineal.
Tant Legendre com Gauss van aplicar el mètode per determinar, a partir d'observacions astronòmiques, les òrbites de cossos al voltant del sol.[4] A 1821, Gauss va publicar un treball on desenvolupava de manera més profunda el mètode dels mínims quadrats,[5] i on s'incloïa una versió del teorema de Gauss-Markov.
Etimologia
El terme regressió es va utilitzar per primera vegada en l'estudi de variables antropomètriques: en comparar l'estatura de pares i fills, va resultar que els fills els pares dels quals tenien una alçada molt superior al valor mitjà tendien a igualar-se a aquest, mentre que aquells els pares dels quals eren molt baixos tendien a reduir la seva diferència respecte a l'estatura mitjana, és a dir, "tornaven" a la mitjana.[6] La constatació empírica d'aquesta propietat es va veure reforçada més tard amb la justificació teòrica d'aquest fenomen.
El terme lineal s'utilitza per a distingir de la resta de tècniques de regressió, que utilitzen models basats en qualsevol classe de funció matemàtica. Els models lineals són una explicació simplificada de la realitat, molt més àgil i amb un suport teòric per part de la matemàtica i l'estadística molt més extens.
El model de regressió lineal
El model lineal relaciona la variable dependentY amb K variables explicatives (k = 1, ... K), o qualsevol transformació d'aquestes, que generen un hiperplà de paràmetres desconeguts:
on és la pertorbació aleatòria que recull tots aquells factors de la realitat no controlables o observables i que per tant s'associen amb l'atzar, i és la que confereix al model el seu caràcter estocàstic.
En el cas més senzill de dues variables explicatives, l'hiperplà és una recta:
El problema de la regressió consisteix a escollir uns valors determinats per als paràmetres desconeguts , de manera que l'equació quedi completament especificada.
Per a això es necessita un conjunt d'observacions. En una observació qualsevol i-èsima (i = 1, ... I) es registra el comportament simultani de la variable dependent i les variables explicatives (les pertorbacions aleatòries se suposen no observables).
Els valors escollits com estimador és dels paràmetres, , són els coeficients de regressió, sense que es pugui garantir que coincideixen amb paràmetres reals del procés generador. Per tant, en
La interpretació del paràmetre , anomenat el pendent de la recta de regressió, és que un increment en d'una unitat, s'incrementarà en unitats.
Rectes de regressió
Les rectes de regressió són les rectes que millor s'ajusten al núvol de punts (o també anomenat diagrama de dispersió) generat per una distribució bivariant.
Matemàticament, són possibles dues rectes de màxim ajust:[10]
El coeficient de correlació (r) de les rectes determinarà la mesura de la relació lineal. Si r és proper o igual a 1, la relació lineal positiva serà bona, si r és proper o igual a 0, es tractarà d'una absència de relació lineal, si r és proper o igual a -1, la relació lineal és negativa o inversa, és a dir quan un valor x creix, el valor y decreix. Les dues rectes de regressió s'intersequen en un punt anomenat centre de gravetat de la distribució.
on és l'error associat a la mesura del valor i segueixen els supòsits de manera que (mitjana zero, variància constant i igual a un i amb ).
Aplicacions de la regressió lineal
La regressió lineal té molts usos pràctics. La majoria de les aplicacions es troben en el camp de la predicció o per explicar la variació de la variable de resposta.
Si l'objectiu és la predicció, la previsió o la reducció d'errors, es pot utilitzar per ajustar un model predictiu a un conjunt de dades observades de valors de la resposta i variables explicatives. Després de desenvolupar aquest model, si es recullen valors addicionals de les variables explicatives sense un valor de resposta acompanyat, el model ajustat es pot utilitzar per fer una predicció de la resposta.
Si l'objectiu és explicar la variació de la variable de resposta que es pot atribuir a la variació de les variables explicatives, l'anàlisi de regressió lineal es pot aplicar per quantificar la força de la relació entre la resposta i les variables explicatives, i en particular per determinar si algunes És possible que les variables explicatives no tinguin cap relació lineal amb la resposta, o per identificar quins subconjunts de variables explicatives poden contenir informació redundant sobre la resposta.
Línies de tendència
Una línia de tendència representa una tendència en una sèrie de dades obtingudes a través d'un llarg període. Aquest tipus de línies pot dir-nos si un conjunt de dades en particular (com per exemple, el PIB, el preu del petroli o el valor de les accions) han augmentat o decrementat en un determinat període.[12] Es pot dibuixar una línia de tendència a primera vista fàcilment a partir d'un grup de punts, però la seva posició i pendent es calcula de manera més precisa utilitzant tècniques estadístiques com les regressions lineals. Les línies de tendència són generalment línies rectes, encara que algunes variacions utilitzen polinomis de major grau depenent de la curvatura desitjada en la línia.
Medicina
En medicina, les primeres proves relacionant la mortalitat amb el fumar tabac[13] van venir d'estudis que utilitzaven la regressió lineal. Els investigadors inclouen una gran quantitat de variables en la seva anàlisi de regressió en un esforç per eliminar factors que puguin produir correlacions espúries.
En el cas del tabaquisme, els investigadors van incloure l'estat socioeconòmic per assegurar que els efectes de mortalitat per tabaquisme no siguin un efecte de la seva educació o posició econòmica. No obstant, és impossible incloure totes les variables possibles en un estudi de regressió.[14][15] En l'exemple del tabaquisme, un hipotèticgen podria augmentar la mortalitat i augmentar la propensió a adquirir malalties relacionades amb el consum de tabac. Per aquesta raó, en l'actualitat les proves controlades aleatòries són considerades molt més fiables que les anàlisis de regressió.
↑Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40 years 'observations on male British doctors. BMJ 1994; 309:901-911 (8 d'octubre]
↑"Environmental Tobacco Smoke and Adult Asthma " Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine, Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universitat de Califòrnia, San Francisco, Califòrnia, (en anglès)
Devore, Jay L.; Probabilitat i Estadística per Enginyeria i Ciències . International Thomson Editores. Mèxic. ISBN 9706864571.
Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; Probabilitat i Estadística per a Enginyers . Pretice-Hall Hispanoamericana, S.A. Mèxic. ISBN 9701702646.
Canavos, George C.; Probabilitat i Estadística. Aplicacions i Mètodes. McGraw-Hill. Mèxic. ISBN 9684518560.