Share to: share facebook share twitter share wa share telegram print page

Correlación

Varios conjuntos de puntos (xy), con el coeficiente de correlación de Pearson de x e y para cada conjunto. La correlación refleja el ruido y la dirección de una relación lineal (fila superior), pero no la pendiente de esa relación (centro), ni muchos aspectos de las relaciones no lineales (parte inferior). N.B.: la figura del centro tiene una pendiente de 0 pero, en ese caso, el coeficiente de correlación no está definido porque la varianza de Y es cero.

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y la proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad (Véase cum hoc ergo propter hoc). Por ejemplo, los ingresos y gastos de una familia, la producción y ventas de una fábrica, los gastos en publicidad y beneficios de una empresa.

Una relación funcional se expresa mediante una función matemática. Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma: pY=f(X)

Las correlaciones son útiles porque pueden indicar una relación predictiva que puede explotarse en la práctica. Por ejemplo, una compañía eléctrica puede producir menos electricidad en un día templado basándose en la correlación entre la demanda de electricidad y el tiempo. En este ejemplo, existe una relación causal, porque el tiempo extremo hace que la gente utilice más electricidad para calefacción o refrigeración. Sin embargo, en general, la presencia de una correlación no es suficiente para inferir la presencia de una relación causal (es decir, correlación no implica causalidad).

Formalmente, las variables aleatorias son dependientes si no satisfacen una propiedad matemática de independencia probabilística. En lenguaje informal, correlación es sinónimo de dependencia. Sin embargo, cuando se utiliza en un sentido técnico, la correlación se refiere a cualquiera de varios tipos específicos de operaciones matemáticas entre las variables probadas y sus respectivos valores esperados. Esencialmente, la correlación es la medida de cómo dos o más variables están relacionadas entre sí. Existen varios coeficientes de correlación, a menudo denotados o , que miden el grado de correlación. El más común de ellos es el Coeficiente de correlación de Pearson, que sólo es sensible a una relación lineal entre dos variables (que puede estar presente incluso cuando una variable es una función no lineal de la otra). Otros coeficientes de correlación - como el correlación de rangos de Spearman - se han desarrollado para ser más robustos que el de Pearson, es decir, más sensibles a las relaciones no lineales.[1][2][3]Información mutua también puede aplicarse para medir la dependencia entre dos variables.

Coeficiente producto-momento de Pearson

Ejemplo de gráficos de dispersión de varios conjuntos de datos con diversos coeficientes de correlación.

La medida más conocida de la dependencia entre dos magnitudes es el coeficiente de correlación producto-momento de Pearson (CCMPP), o "coeficiente de correlación de Pearson", comúnmente llamado simplemente "coeficiente de correlación". Se obtiene tomando el cociente de la covarianza de las dos variables en cuestión de nuestro conjunto de datos numéricos, normalizado a la raíz cuadrada de sus varianzas. Matemáticamente, basta con dividir la covarianza de las dos variables por el producto de sus desviación típica. Karl Pearson desarrolló el coeficiente a partir de una idea similar pero ligeramente diferente de Francis Galton.[4]

Un coeficiente de correlación producto-momento de Pearson intenta establecer una línea de mejor ajuste a través de un conjunto de datos de dos variables mediante el trazado esencialmente de los valores esperados y el coeficiente de correlación de Pearson resultante indica lo lejos que está el conjunto de datos real de los valores esperados. Dependiendo del signo de nuestro coeficiente de correlación de Pearson, podemos acabar con una correlación negativa o positiva si existe algún tipo de relación entre las variables de nuestro conjunto de datos.

El coeficiente de correlación poblacional entre dos variables aleatorias y con valor esperado y con valor esperados y y desviación típicas y se define como:

donde es el operador valor esperado, significa covarianza, y es una notación alternativa ampliamente utilizada para el coeficiente de correlación. La correlación de Pearson sólo se define si ambas desviaciones típicas son finitas y positivas. Una fórmula alternativa puramente en términos de momentos es:

Correlación e independencia

Es un corolario de la desigualdad de Cauchy-Schwarz que el valor absoluto del coeficiente de correlación de Pearson no es mayor que 1. Por lo tanto, el valor de un coeficiente de correlación oscila entre -1 y +1. El coeficiente de correlación es +1 en el caso de una relación lineal directa (creciente) perfecta (correlación), -1 en el caso de una relación lineal inversa (decreciente) perfecta (anticorrelación),[5]​ y algún valor en el intervalo abierto en todos los demás casos, indicando el grado de dependencia lineal entre las variables. A medida que se acerca a cero hay menos relación (más cerca de la no correlación). Cuanto más se acerque el coeficiente a −1 o 1, más fuerte será la correlación entre las variables.

Si las variables son independientes, el coeficiente de correlación de Pearson es 0, pero lo contrario no es cierto porque el coeficiente de correlación sólo detecta dependencias lineales entre dos variables.

Por ejemplo, supongamos que la variable aleatoria se distribuye simétricamente alrededor de cero, y . Entonces está completamente determinada por , de modo que y son perfectamente dependientes, pero su correlación es cero; están no correlacionadas. Sin embargo, en el caso especial de que y sean distribuciones normales multivariadas, la falta de correlación es equivalente a la independencia.

Aunque los datos no correlacionados no implican necesariamente independencia, se puede comprobar si las variables aleatorias son independientes si su información mutua es 0.

Fuerza, sentido y forma de la correlación

Si representamos cada par de valores como las coordenadas de un punto, el conjunto de todos ellos se llama nube de puntos o diagrama de dispersión. La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

  • La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
  • El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es directa (pendiente positiva); si al crecer los valores de A disminuyen los de B, la relación es inversa (pendiente negativa).
  • La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica

Coeficientes de correlación

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables entre el producto de sus desviaciones estándar. Otros coeficientes son:

Interpretación geométrica

Dados los valores muestrales de dos variables aleatorias e , que pueden ser consideradas como vectores en un espacio de n dimensiones, pueden construirse los "vectores centrados" como:

e .

El coseno del ángulo alfa entre estos vectores es dado por la fórmula siguiente:

Pues es el coeficiente de correlación muestral de Pearson. El coeficiente de correlación es el coseno del ángulo entre ambos vectores centrados:

  • Si r = 1, el ángulo °, ambos vectores son colineales (paralelos).
  • Si r = 0, el ángulo °, ambos vectores son ortogonales.
  • Si r =-1, el ángulo °, ambos vectores son colineales de dirección opuesto.

Más generalmente: .

Por supuesto, desde el punto vista geométrico, no hablamos de correlación lineal: el coeficiente de correlación tiene siempre un sentido, cualquiera sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, sino sobre su distancia angular en la hiperesfera de n dimensiones.

La Iconografía de las correlaciones es un método de análisis multidimensional que reposa en esta idea. La correlación lineal se da cuando en una nube de puntos se encuentran o se distribuyen alrededor de una recta.

La fórmula de correlación para dos series distintas con cierto desfase "k", está dada por la fórmula:

Distribución del coeficiente de correlación

El coeficiente de correlación muestral o analítico de una muestra es de hecho una variable aleatoria, eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad para el coeficiente de correlación.

Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de probabilidad dada por:[6][7]

donde:

es la distribución gamma
es la función gaussiana hipergeométrica.

Nótese que el valor esperado del coeficiente de correlación muestral r es:

por tanto, r es estimador sesgado de . Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:

para

Aunque, la solución:

es subóptima. Se puede obtener un estimador sesgado con mínima varianza para grandes valores de n, con sesgo de orden buscando el máximo de la expresión:

, i.e.

En el caso especial de que , la distribución original puede ser reescrita como:

donde es la función beta.

Distribución normal bivariada

Si un par de de variables aleatorias sigue una distribución normal bivariada, la media condicional es una función lineal de , y la media condicional es una función lineal de . El coeficiente de correlación entre y , junto con las medias y varianzas marginales de y , determina esta relación lineal:

deonde y son los valores esperados de y , respectivamente, y y son las desviaciones estándar de y , respectivamente.


La correlación empírica es una estimación del coeficiente de correlación . Una estimación de distribución para es dado por

donde es la función hipergeométrica gaussiana y . Esta densidad es tanto una densidad bayesiana posterior como una densidad óptima exacta de distribución de confianza.[8][9]

Referencias

  1. Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics, Pitman. ISBN 9780273403159 (página 625)
  2. Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: La Estadística de la Medición Científica e Industrial 2ª Edición, A. Higler. ISBN 9780750300605 (Página 331)
  3. Aitken, Alexander Craig (1957) Statistical Mathematics 8ª Edición. Oliver & Boyd. ISBN 9780050013007 (Página 95)
  4. Rodgers, J. L.; Nicewander, W. A. (1988). «Trece formas de ver el coeficiente de correlación». The American Statistician 42 (1): 59-66. JSTOR 2685263. doi:10.1080/00031305.1988.10475524. 
  5. Dowdy, S. y Wearden, S. (1983). "Estadística para la investigación", Wiley. ISBN 0-471-08602-9 pp 230
  6. Kenney, J. F. and Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
  7. Correlation Coefficient - Bivariate Normal Distribution
  8. Taraldsen, Gunnar (2021). «The Confidence Density for Correlation». Sankhya A (en inglés). ISSN 0976-8378. S2CID 244594067. doi:10.1007/s13171-021-00267-y. 
  9. Taraldsen, Gunnar (2020). Confidence in Correlation (en inglés). doi:10.13140/RG.2.2.23673.49769. 

Para más información

Enlaces externos

Read other articles:

У Вікіпедії є статті про інші значення цього терміна: Туше (значення). Нотр-Дам-дю-ТушеNotre-Dame-du-Touchet Країна  Франція Регіон Нормандія  Департамент Манш  Округ Авранш Кантон Мортен Код INSEE 50381 Поштові індекси 50140 Координати 48°34′59″ пн. ш. 0°57′19″ зх. д.H G O Висота…

Location of Oman Oman is an Arab country on the southeastern coast of the Arabian Peninsula. By regional standards, Oman has a relatively diversified economy, but remains dependent on oil exports. Tourism is the fastest-growing industry in Oman. Other sources of income, agriculture and industry, are small in comparison and account for less than 1% of the country's exports, but diversification is seen as a priority by the government. Notable firms This list includes notable companies with primary…

艦歴 発注: 1961年7月20日 起工: 1962年3月5日 進水: 1963年3月15日 就役: 1964年7月28日 退役: 1992年11月20日 除籍: 1992年11月20日 その後: 原子力艦再利用プログラム 性能諸元 排水量: 全長 425 ft (129.5 m) 全幅 33 ft (10.1 m) 吃水 予備浮力 機関 原子力ギアード・タービン推進GE S5W原子炉 1基 最大速: 兵員: 兵装: 21インチ魚雷発射管4基トライデント・ミサイル16発 モットー: ジェームズ・マデ…

Miosen23.03 ± 0.3 – 5.333 ± 0.08 Ma PreЄ Є O S D C P T J K Pg N Kronologi Sistem/Periode Seri/Kala Masa/Usia Penanggalan mutlak (Ma) Kuarter Pleistosen Gelasium younger Neogen Pliosen Piacenzium 2.58 3.600 Zankleum 3.600 5.333 Miosen Messinium 5.333 7.246 Tortonium 7.246 11.63 Serravalium 11.63 13.82 Langhium 13.82 15.97 Burdigalium 15.97 20.44 Aquitanium 20.44 23.03 Paleogen Oligosen Chattium older Subdivisi Periode Neogen menurut ICS, pada Januari 2017.[1] EtimologiNama resmiForm…

Adan Jodorowsky Jodorowsky en 2017Información personalNombre en español Adán Jodorowsky Otros nombres AdanowskyNacimiento 29 de octubre de 1979 París (Francia) Nacionalidad mexicana, francesaFamiliaPadre Alejandro Jodorowsky Información profesionalOcupación Actor, productor musical, escritor, compositor y director de cine Años activo 2006–presenteSeudónimo AdanowskyGénero Rock alternativoindie rockart rockSitio web adanowsky.free.fr[editar datos en Wikidata] Adán Jodor…

The Very ReverendKelvin HoldsworthProvost of St Mary's Cathedral, GlasgowHoldsworth after his institution on 31 May 2006 outside St Mary's Cathedral. (Photographer - Stewart D. Macfarlane)ChurchScottish Episcopal ChurchDioceseDiocese of Glasgow and GallowayIn office31 May 2006 to presentOrdersOrdination4 July 1997 (deacon) 9 June 1998 (priest)Personal detailsBorn (1966-10-21) 21 October 1966 (age 57)Leeds, Yorkshire, EnglandNationalityBritishDenominationAnglicanismAlma materManchester Polyt…

Infograma del mapa del metro de Washington D. C. La infografía es tanto la técnica como la representación multimedia que comprende el diseño, composición y desarrollo de información visual compleja, con el fin de resumir o explicar de manera concisa, figurativa, simplificada o didáctica informaciones, ideas o textos[1]​, empleando variados medios visuales e incluso auditivos, dirigidos a la difusión masiva, a la comunicación, aprendizaje y procesamiento de saberes de for…

Madinat As-Sultan مدينة السلطانLingkunganNegaraArab SaudiProvinsiProvinsi MakkahPemerintahan • Wali kotaHani Abu Ras[1] • Gubernur kotaMish'al Al-SaudKetinggian12 m (39 ft)Zona waktuUTC+3 (AST) • Musim panas (DST)ASTKode pos(5 kode digit dimulai dari 23; e.g. 23434)Kode area telepon+966-12Situs webwww.jeddah.gov.sa/english/index.php Madinat As-Sultan (Arab: مدينة السلطان) adalah sebuah permukiman padat penduduk di …

Ліцензування Це логотип (емблема) організації, товару, або заходу, що перебуває під захистом авторських прав та/або є товарним знаком. Використання зображень логотипів з низькою роздільною здатністю в україномовному розділі Вікіпедії, який розміщений на серверах у США не…

American politician This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Peter P. Mahoney – news · newspapers · books · scholar · JSTOR (July 2008) (Learn how and when to remove this template message) Peter P. MahoneyMember of the U.S. House of Representativesfrom New York's 4th districtIn officeMarch 4,…

This article is about the water bridge. For the nature reserve which incorporates the aqueduct, see Lower Prospect Canal Reserve. BridgeBoothtown AqueductCoordinates33°49′51″S 150°56′18″E / 33.830950°S 150.938244°E / -33.830950; 150.938244CharacteristicsTotal lengthc. 225 m (738 ft)No. of spans22Capacity423 ML (14.9×10^6 cu ft) dailyHistoryConstruction startJanuary 1886Opened1888Closed1907Location The Boothtown Aqueduct is a heritage-…

Kota Kinabalu City Hall Papar District Office Die Kommunalverwaltung in Sabah ist die unterste Regierungsebene in Sabah, Malaysia. Sie rangiert im Regierungssystem Malaysias an dritter Stelle, nach der Bundes- und Landesregierung. Die Kommunalverwaltungen haben die Befugnis, Grundsteuern zu erheben, örtliche Gesetze und Verordnungen zu erlassen und Lizenzen und Erlaubnisse für jede Art von Gewerbes in ihrem Gebiet zu vergeben. Daneben hat sie aber auch die Pflicht, grundlegende Versorgungseinr…

2022 song by Rammstein ZeitSingle by Rammsteinfrom the album Zeit B-sideZeit (Ólafur Arnalds Remix)Zeit (Robot Koch Remix)Released10 March 2022 (2022-03-10)GenreNeue Deutsche HärteLength5:21LabelUniversalSongwriter(s) Richard Kruspe Paul Landers Till Lindemann Christian Lorenz Oliver Riedel Christoph Schneider Producer(s) Olsen Involtini Rammstein Rammstein singles chronology Ausländer (2019) Zeit (2022) Zick Zack (2022) Music videoZeit on YouTube Zeit (German: Time) is a song …

Kanon Pāli     Vinaya Pitaka                                                 Sutta-vibhanga Khandhaka Pari-vara                         Sutta Pitaka                      …

Baseball stadium in Adelanto, California, U.S. Adelanto StadiumAdelanto Plaza & Event CenterFormer namesMaverick Stadium (1991–2006)Stater Bros. Stadium (2007–2014)Heritage Field at Maverick Stadium (2015–2016)Location12000 Stadium WayAdelanto, California 92301Coordinates34°33′17″N 117°24′06″W / 34.5548°N 117.4018°W / 34.5548; -117.4018OwnerCity of AdelantoOperatorCity of AdelantoCapacity3,808 permanent stadium seats plus grass seatingField sizeLeft …

Chinese music streaming service operated by Tencent Music KuGouDeveloper(s)Tencent MusicInitial release2004; 19 years ago (2004)Operating systemAndroid, iOS, Web, WindowsTypeMusic streamingWebsitewww.kugou.com KuGou (Chinese: 酷狗音乐) is a Chinese music streaming and download service established in 2004 and owned by Tencent Music.[1][2] It is the largest music streaming service in the world, with more than 450 million monthly active users.[2] Ku…

この記事の主題はウィキペディアにおける人物の特筆性の基準を満たしていないおそれがあります。基準に適合することを証明するために、記事の主題についての信頼できる二次資料を求めています。なお、適合することが証明できない場合には、記事は統合されるか、リダイレクトに置き換えられるか、さもなくば削除される可能性があります。出典検索?: 霜月めあ…

Bridge in New Territories, Hong Kong Ting Kau Bridge汀九橋Ting Kau BridgeCoordinates22°21′51″N 114°4′48″E / 22.36417°N 114.08000°E / 22.36417; 114.08000Carries6 lanes of roadwayCrossesRambler ChannelLocaleTsing Yi Island and Ting KauOfficial nameTing Kau BridgeCharacteristicsDesignCable-stayed bridgeTotal length1,177 metres (3,862 ft)Longest span448 metres (1,470 ft) and 475 metres (1,558 ft)HistoryOpened5 May 1998; 25 years ago&…

Radio station in Brownsville, Texas KVNSBrownsville, TexasBroadcast areaRio Grande ValleyFrequency1700 kHzBrandingFox Sports Radio 1700ProgrammingFormatSportsAffiliationsFox Sports Radio, Premiere Radio Networks, Westwood OneOwnershipOwneriHeartMedia(iHM Licenses, LLC)Sister stationsKHKZ, KQXX-FM, KTEX, KBFMHistoryFirst air dateMarch 6, 1998 (as KQXX)Former call signsKQXX (1998-2004)Technical informationFacility ID87142ClassBPower8,800 watts day880 watts nightTransmitter coordinates25°56′57.0…

This article is about the film. For the soundtrack, see Kailangan Ko'y Ikaw (soundtrack). For the 2013 Philippine television series, see Kailangan Ko'y Ikaw (TV series). 2000 Filipino filmKailangan Ko'y IkawDirected byBb. Joyce Bernal[1]Written byMel Mendoza-del RosarioProduced byVic Del Rosario, Jr.StarringRobin PadillaRegine VelasquezCinematographyCharley S. PeraltaEdited byBb. Joyce BernalMusic byRaul MitraProductioncompaniesViva Films RCP ProductionsRelease dateOctober 11, 2000Runnin…

Kembali kehalaman sebelumnya