Os diagramas de dispersão ou gráficos de dispersão são representações de dados de duas (tipicamente) ou mais variáveis que são organizadas em um gráfico. O gráfico de dispersão utiliza coordenadas cartesianas para exibir valores de um conjunto de dados. Os dados são exibidos como uma coleção de pontos, cada um com o valor de uma variável determinando a posição no eixo horizontal e o valor da outra variável determinando a posição no eixo vertical (em caso de duas variáveis).[1]
Descrito pela primeira vez por Francis Galton, o gráfico de dispersão é usado para verificar se existe relação de causa e efeito entre duas variáveis de natureza quantitativa (variáveis que podem ser medidas ou contadas). Isto não prova que uma variável afeta outra variável, mas determina se existe relação e qual a intensidade da relação entre elas.[2] Por exemplo, o gráfico de dispersão possibilita construir uma regressão linear, determinando—se uma reta que aponta a relação entre duas variáveis e indica a função que dá o comportamento da relação entre elas.[3]
Quando o valor de uma variável cai com o aumento do valor de outra variável, diz–se que as variáveis são negativamente correlacionadas. Por exemplo, a venda de carros pode ser negativamente correlacionada com o aumento do desemprego (quanto maior o desemprego, menor a venda de carros). Quando o valor de uma variável sobe com o aumento do valor de outra variável, diz–se que as variáveis são positivamente correlacionadas. Por exemplo, a venda de ventiladores pode ser positivamente correlacionada com o aumento da temperatura (quanto maior a temperatura, maior a venda de ventiladores) (ver figura 1).[4]
Histórico
As primeiras representações gráficas unidimenssionais (1D) podem ser atribuídas a William Playfair (1759 – 1823). As representações gráficas 1D incluem o gráfico de pizza, o gráfico em linha ou o gráfico de barra. Entretanto, a primeira representação gráfica bidimensional (2D) é atribuída à Francis Galton (1822 – 1911) (ver figura 2, para uma representação tridimensional do gráfico de dispersão). Em seu trabalho sobre correlação, regressão e herdabilidade, Galton foi o primeiro a mostrar a relação empírica entre duas variáveis de forma gráfica com dados reais[5]. Com a publicação de Regression towards Mediocrity in Hereditary Stature em 1886, Galton introduziu a lei da regressão e o coeficiente de correlação por meio do estudo das relações entre várias medidas (por exemplo, peso e tamanho da cabeça) e entre medidas de pais e filhos.[6]
Na época, os estatísticos ingleses estavam fascinados pela ideia de quantificar a influência da hereditariedade e reunir dados para desenvolver métodos para estudar a relação entre duas variáveis. Karl Pearson (1857 – 1936), um dos discípulos de Galton, realizou um grande trabalho na área de semelhança entre membros de uma família (Pearson mediu a altura de 1078 pais e a altura de seus filhos na maturidade). Os trabalhos de Pearson levaram à chamada correlação de Pearson.[7] Especificamente, a lei de regressão é a principal ferramenta da estatística moderna nas ciências sociais. Depois de Pearson dar continuidade ao trabalho de Galton, Émile Durkheim introduziu o uso da estatística nas ciências sociais encontrando a covariância entre suicídio e religião. Antes de Durkheim, os pesquisadores utilizavam um procedimento mais filosófico baseado no raciocínio e nos fatos da experiência.[8]
As representações gráficas de Galton eram mais ou menos próximas dos gráficos de dispersão conhecidos atualmente. As representações gráficas de Galton eram um pouco mais sofisticadas que tabelas com algumas anotações gráficas (em seu trabalho, Galton agrupava as variáveis em intervalos de classe para construir tabelas de frequência bivariada).[5] Portanto, a criação do gráfico de dispersão como conhecido atualmente pode ser atribuída à John F. W. Herschel (1792 – 1871), filho de William Herschel, o descobridor do Urano e da luz infravermelha. Em 1833, Herschel usou um gráfico de dispersão de medidas de estrelas binárias ruidosas para extrair uma tendência "trazendo a ajuda do olho e da mão para guiar o julgamento"[9]. Ao contrário de Galton, os gráficos de Herschel eram claramente gráficos de dispersão no sentido moderno.[5] De acordo com Herschel, o gráfico de dispersão permite ao espectador visualizar tendências importantes sugeridas pelos dados, e possivelmente oferecer uma teoria para explicá-los, imaginando uma linha que passa "não através de, mas entre eles".[9]
Em 1920, o gráfico de dispersão havia se tornado um instrumento muito utilizado como a ferramenta da ciência que conhecemos agora.[9] Entre todas as formas de gráficos estatísticos, o gráfico de dispersão pode ser considerado uma das invenções mais versáteis e útil da história dos gráficos estatísticos. Em The visual display of quantitative information, E. R. Tufte estimou em 1983 que entre 70% e 80% dos gráficos utilizados nas publicações científicas eram gráficos de dispersão.[5] Quase dez anos mais tarde, em 2012 cerca de um terço das figuras em JM3 e cerca de 70% de todos e gráficos de dados eram gráficos de dispersão.[9] Entre outros gráficos de dispersão notáveis estão o diagrama de Hertzsprung-Russell no início do anos 1900, a descoberta do número atômico por Henry Moseley também no início dos anos 1910 ou a curva de Phillips em meados dos anos 1950.[5]
“
O grande valor de uma imagem é quando ela nos obriga a notar o que nunca esperávamos ver.[10]
”
— John W. Tukey
O uso da expressão gráfico de dispersão
Em First (?) Occurrence of Common Terms in Statistics and Probability, H. A. David (2001) credita A. K. Kurtz e H. A. Edgerton o primeiro uso da expressão gráfico de dispersão com a publicação de Statistical Dictionary of Terms and Symbols em 1939. Entretanto, o Oxford English Dictionary lista em 1935 uma citação para Kurtz e Edgerton sugerindo que a expressão gráfico de dispersão tenha aparecido anteriormente. Essa expressão também aparece no texto Elementary Statistical Method publicado em 1938 por A. E. Waugh. Uma pesquisa no JSTOR mostra que o termo aparece primeiramente em no artigo On the Relation Between the Symmetry of the Egg and the Symmetry of the Embryo in the Frog (Rana Temporaria) publicado em 1906 na Biometrika por J. W. Jenkinson (o artigo foi editado por Pearson). O termo passou a ser amplamente utilizado na década de 1920, com o aparecimento em livros didáticos. Por exemplo, Métodos Estatísticos, de F. C. Mills, de 1925.[5]
A correlação é qualquer relação dentro de uma ampla classe de relações estatísticas que envolva dependência entre duas variáveis.[11] Por exemplo, a correlação entre a estatura dos pais e a estatura dos filhos. Embora seja comumente denotada como a medida de relação entre duas variáveis aleatórias,[11][12] correlação não implica causalidade.[13] Em termos técnicos, a correlação refere–se a qualquer um dos vários tipos específicos de relação entre os valores médios. Existem diferentes coeficientes de correlação para medir o grau de correlação. Um dos coeficientes de correlação mais conhecidos é o coeficiente de correlação de Pearson, obtido pela divisão da covariância de duas variáveis pelo produto dos seus desvios padrão[14] e sensível a uma relação linear entre duas variáveis.[15]
A regressão linear estuda a relação entre muitas ou poucas variáveis. A relação entre duas variáveis é chamada de regressão linear simples. A relação entre mais de duas variáveis é chamada de regressão linear múltipla.[16] Especificamente, a regressão linear simples estuda a relação entre uma variável dependente e outra variável independente , ambas quantitativas. A regressão linear resulta em uma equação sobre o comportamento das variáveis e :
,
em que é a variável resposta associada a –ésima observação de , é a –ésima observação do valor independente e fixado para a variável independente , é o erro aleatório para –ésima observação e, e são os parâmetros que precisam ser estimados.[17]
Interpretação
O gráfico de dispersão é uma das sete ferramentas básicas do controle de qualidade e pode ser construído na forma de gráficos de bolhas ou de linhas.[18][19]
O gráfico de dispersão pode ser usado quando uma variável contínua depende de outra variável contínua ou quando ambas as variáveis contínuas são independentes. O parâmetro sistematicamente aumentado ou diminuído por outro parâmetro é chamado de parâmetro de controle ou variável independente.[20] Normalmente o parâmetro de controle é plotado ao longo do eixo horizontal e a variável dependente é plotada ao longo do eixo horizontal.[21] Se a variável dependente não existir, qualquer tipo de variável pode ser plotada em qualquer um dos eixos (o gráfico de dispersão mostrará o grau de correlação, não o grau de causalidade entre duas variáveis).[20]
O gráfico de dispersão pode sugerir vários tipos de correlações entre variáveis como um certo intervalo de confiança. Por exemplo, peso (representado no eixo ) X altura (representada no eixo ). Estas correlações podem positivas (o valor de uma variável sobe com o aumento do valor de outra variável), negativas (o valor de uma variável cai com o aumento do valor de outra variável) ou nulas (as variáveis não são correlacionadas). Se o padrão dos pontos inclina–se da esquerda para direita, isto indica uma correlação positiva entre as variáveis. Se o padrão dos pontos inclina–se da direita para esquerda, isto indica uma correlação negativa entre as variáveis.[22] Uma linha com processo de ajuste de curvas pode ser desenhada para estudar a relação entre as variáveis.
O gráfico de dispersão também é útil para verificar como dois conjuntos de dados comparáveis concordam entre si. Neste caso, uma linha (linha de identidade, linha ou linha ) muitas vezes é desenhada como uma referência. Quanto mais os conjuntos de dados concordarem, mais os pontos dispersos tendem a se concentrar ao redor da linha. Se os conjuntos de dados forem numericamente idênticos, os pontos dispersos caem exatamente na linha (figura 3).[20]
Entretanto, um dos aspectos mais poderosos do gráfico de dispersão é mostrar relações não lineares entre variáveis. Esta capacidade pode ser melhorada pela adição de uma linha suave como a regressão local (LOESS ou LOWESS, em inglês).[23] Se os dados forem representados por um modelo misto de relações simples, estas relações serão visualmente evidentes como padrões superpostos.[24]
Construção de um gráfico de dispersão
Para construir um gráfico de dispersão, são necessárias duas variáveis quantitativas. Por exemplo, massa corporal e altura . Estas variáveis devem ser associadas aos eixos do plano cartesiano, onde é a ordenada e é a abscissa. Então, é associada à abscissa e é associada à ordenada .[25]
Seja uma pessoa com massa corporal de 72 kg e altura de 180cm, de acordo com o ponto cartesiano na imagem ao lado. Sejam os dados da seguinte tabela.[26]
Massa corporal (kg)
72
80
60
90
100
120
82
79
78
55
71
75
130
105
60
54
58
57
60
62
Altura (cm)
180
170
175
174
185
190
182
179
165
165
170
169
177
173
172
162
163
167
171
181
Os dados da tabela são colocados no plano cartesiano para se obter vários pontos cartesianos, de acordo com a imagem abaixo:[26]
O resultado é um gráfico com vários pontos cartesianos, chamados de dispersão.[26]
Para analisar a relação entre variáveis usando gráfico de dispersão, é necessário uma quantidade suficientemente grande de dados que revela uma tendência. Por exemplo, é impossível analisar a relação entre massa corporal e altura baseando—se em dados de uma única pessoa (isto corresponderia a um único ponto no gráfico). Então, a sugestão é aumentar o tamanho de amostra, lembrando que quanto maior amostra melhor a análise final.
Exemplos práticos
Saúde
A saúde é um dos setores que mais movimenta dinheiro na sociedade. Para entender quais famílias gastam determinada porcentagem da sua renda com saúde, é possível construir o gráfico de dispersão ao lado (ver figura 3). A partir do gráfico entende—se que uma família com alta renda bruta dedica uma porcentagem menor dela para a manutenção da saúde da sua própria família. Isto é, observa—se uma proporção inversa ou uma relação negativa entre as variáveis. A tendência mostra que quanto maior a renda bruta, menor a porcentagem da renda gasta com saúde em uma família.[27]
Trabalho
Para entender se um funcionário com muito tempo de serviço em uma determinada empresa recebe um salário maior do que outro funcionário com pouco tempo de serviço (ambos na mesma função), é possível construir o gráfico de dispersão ao lado (ver figura 4). A partir do gráfico entende—se que um funcionário com mais tempo de serviço possui uma renda maior do que outro funcionário com pouco tempo de serviço. Isto é, observa—se uma proporção direta e crescente ou uma relação positiva entre as variáveis. A tendência mostra que quanto maior o tempo de serviço, maior o número de clientes e maior a renda de um funcionário.[28]
Matrizes
Para um conjunto de variáveis de dados , a matriz do gráfico de dispersão mostra todos os diagramas de dispersão para cada par das variáveis em uma única visualização com os múltiplos graficos de disperção em um formato de matriz. Para variáveis, a matriz do gráfico de dispersão irá conter linhas e colunas. Um gráfico localizado na intersecção da i–ésima linha e da j–ésima coluna é um gráfico das variáveis . Isto significa que cada linha e cada coluna é uma dimensão e cada célula plota um gráfico de dispersão de duas dimensões.[29] Uma matriz generalizada de um gráfico de dispersão oferece uma série de displays de combinações emparelhadas de variáveis categóricas e quantitativas. Um mosaic plot, fluctuation diagram, ou faceted bar chart podem ser usados para exibir duas variáveis categóricas. Outros gráficos podem ser usados para exibir uma variável categórica e uma variável quantitativa (figura 5).[30]
↑Mann, Prem S. (2010). Introdutory Statistics 7ª ed. [S.l.]: John Wiley & Sons. p. 592 — 593. 625 páginas
↑Cooper, Donald R.; Schindler, Pamela S. (2016). Métodos de Pesquisa em Administração 12ª ed. [S.l.]: AMGH. p. 480. 695 páginas
↑Martins, Maria Eugénia Graça (2014). «Coeficiente de Correlação Amostral»(PDF). Revista de Ciência Elementar. p. 1. Consultado em 19 de maio de 2017
↑Rodgers, J. L.; Nicewander, W. A. (1988). «Thirteen ways to look at the correlation coefficient». The American Statistician. 42 (1): 59-66. JSTOR2685263. doi:10.1080/00031305.1988.10475524
↑Devore, Jay L. (2006). Probabilidade e Estatística para Engenharia e Ciências. [S.l.]: Cengage Learning. p. 432 — 433. 692 páginas
↑Filho, Luiz Medeiros de Araujo Lima. «Correlação e Regressão»(PDF). UNIVERSIDADE FEDERAL DA PARAÍBA. p. 6. Consultado em 19 de maio de 2017
↑ abcvan Aartsengel, Aristide; Kurtoglu, Selahattin (2013). Handbook on Continuous Improvement Transformation: The Lean Six Sigma Framework and Systematic Methodology for Implementation. [S.l.]: Springer. pp. 223 — 224. 642 páginas
↑ abcReis, Edna Afonso (2002). «Análise Descritiva de Dados»(PDF). Universidade Federal de Minas Gerais. p. 27. Consultado em 19 de junho de 2017. Arquivado do original(PDF) em 29 de março de 2017
1954 film Devil Girl from MarsTheatrical release posterDirected byDavid MacDonaldWritten byJames EastwoodJohn C. MaherProduced byEdward J. DanzigerHarry Lee DanzigerStarringPatricia LaffanHugh McDermottHazel CourtPeter ReynoldsAdrienne CorriCinematographyJack CoxEdited byPeter TaylorMusic byEdwin AstleyProductioncompanyDanziger ProductionsDistributed byBritish Lion FilmsRelease date2 May 1954 [1]Running time77 minutesCountryUnited KingdomLanguageEnglish Devil Girl from Mars is a 1954 ...
Condominium development in Florida This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Trump Towers Sunny Isles Beach – news · newspapers · books · scholar · JSTOR (September 2011) (Learn how and when to remove this template message) Trump TowersTrump Towers in Sunny Isles Beach, Florida.General information...
Der Bergbauwanderweg Ruhr-Universität in Bochum führt auf einer Länge von 15 km an folgenden Orten vorbei:[1] Inhaltsverzeichnis 1 Route 2 Literatur 3 Weblinks 4 Einzelnachweise Route U-Bahn-Station Ruhr-Universität Ruhr-Universität Bochum Botanischer Garten der Ruhr-Universität Bochum und Chinesischer Garten Lottental Westlicher Mailandsiepen Kemnader See Zeche Gibraltar Östlicher Mailandsiepen Ruhrlandheim Seilbahn Zeche Klosterbusch Kalwes Laerholz Halde Eulenbaum Uni-C...
NHL 2000/01 Liga National Hockey League Zeitraum 4. Oktober 2000 bis 9. Juni 2001 Teams 30 Spiele/Team 82 Draft Austragung NHL Entry Draft 2000 Top-Pick Vereinigte Staaten Rick DiPietro Gewählt von New York Islanders Reguläre Saison Presidents’ Trophy Colorado Avalanche MVP Kanada Joe Sakic (Colorado) Topscorer Tschechien Jaromír Jágr (Pittsburgh) Playoffs Stanley-Cup-Sieger Colorado Avalanche Finalist New Jersey Devils Playoff-MVP Kanada Patrick Roy (Colorado) NHL-Saisons ◄ vorherige n
American rock singer This biography of a living person needs additional citations for verification. Please help by adding reliable sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately from the article and its talk page, especially if potentially libelous.Find sources: Kevin Chalfant – news · newspapers · books · scholar · JSTOR (November 2022) (Learn how and when to remove this template mess...
Özgür Bakar Murat Bosporus (2007) Personalia Geburtsname Özgür Bakar Geburtstag 16. Dezember 1979 Geburtsort Wolfratshausen, Deutschland Karriereinformationen Ringname(n) Murat BosporusImam Murat BMurat Namenszusätze Turkish Wrestling Machine Körpergröße 168 cm Kampfgewicht 98 kg Angekündigt aus Wolfratshausen, Deutschland Trainiert von Christian EcksteinTony St. Clair Debüt 13. März 2002 Özgür Bakar (* 16. Dezember 1979 in Wolfratshausen), besser bekannt unter seinem Ringnamen M...
Si EntongGenre Drama Komedi Fantasi Religi Pembuat Indika Entertainment Mega Entertainment Ditulis oleh Naijan Lengkong Zaenal Radar T Imam Salimy Skenario Naijan Lengkong Zaenal Radar T Imam Salimy Pemeran Fachri Muhammad Adi Bing Slamet Rheina Maryana Anna Shirley Rana Cynthia Niesrina Ucup Nirin Yuni Sulistyawati Kemal Fathurrakhman Penggubah lagu temaBenyamin SLagu pembukaSang Bango —Lagu penutupSang Bango — Benyamin SNegara asalIndonesiaBahasa asliBahasa IndonesiaJmlh. musim3Jmlh. ep...
Este artículo o sección necesita referencias que aparezcan en una publicación acreditada.Este aviso fue puesto el 17 de mayo de 2017. Concejo Regional Mate Yehuda Entidad subnacional Coordenadas 31°45′00″N 34°53′00″E / 31.75, 34.883333333333Entidad Concejo regional • País IsraelSuperficie • Total 520 km² Población (2017) • Total 56 600 hab. • Densidad 108,85 hab/km²[editar datos en Wikida...
National flag Spanish flag redirects here. For other uses, see Spanish flag (disambiguation). Kingdom of SpainRojigualdaUseNational flag and state and naval ensign Proportion2:3Adopted15 May 1785; 238 years ago (1785-05-15) (original version, as naval and coastal fortifications' ensign)5 October 1981; 42 years ago (1981-10-05) (current version, as established in the Spanish Constitution)DesignA horizontal triband flag of red, yellow (double width) and red; ...
Private university in Seoul, South Korea This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Hongik University – news · newspapers · books · scholar · JSTOR (May 2015) (Learn how and when to remove this template message) Hongik University홍익대학교MottoPro Hominum BeneficioHongik Ingan (홍익인간)Motto i...
Public transportation agency in Southern San Diego County, California San Diego Metropolitan Transit SystemA Rapid bus departs Santa Fe Depot station (left) while a Blue Line train of the San Diego Trolley loads passengers at America Plaza station. The stations are a major MTS hub in Downtown San Diego.OverviewLocaleSouthern San Diego County, CaliforniaTransit typeBuses, Bus rapid transit, Light rail, ParatransitNumber of lines4 light rail lines[1]95 bus routes[1]Number of sta...
Series of mobile phones This article is about the series of mobile phones. For the radio station, see KRZR. Motorola Krzr (/ˈkreɪzər/, styled KRZR), known as the Canary before its release, is a series of clamshell/flip mobile phones by Motorola, and was one of the series in the 4LTR line. It consisted of the K1 (2006) followed by the K3 (2007). As a clamshell/flip phone, the Krzr is longer but narrower than the Motorola Razr V3. K1 Motorola Krzr K1Compatible networksGSM 850/900/1800/1900 (...
Look up flutterby in Wiktionary, the free dictionary. 2003 studio album by Butterfly BoucherFlutterbyStudio album by Butterfly BoucherReleased7 October 2003GenreFolkLength40:02Label Universal (UK) A&M (US) Producer Butterfly Boucher Robin Eaton Ron Fair Brad Jones Butterfly Boucher chronology Flutterby(2003) Scary Fragile(2008) Professional ratingsReview scoresSourceRatingAllMusic link Flutterby is the debut album by Australian singer-songwriter Butterfly Boucher, first released i...
Genus of lizards Smaug Giant girdled lizard (Smaug giganteus) Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Class: Reptilia Order: Squamata Family: Cordylidae Genus: SmaugStanley, Bauer, Jackman, Branch, & Mouton, 2011[1] Diversity 9 species (see text) Smaug is a genus of lizards in the family Cordylidae. The genus Smaug is a group of species of spiny southern African lizards, separated from the genus Cordylus in 2011 on the basis of a comprehensiv...
1994 studio album by Electric HippiesThe Electric HippiesStudio album by Electric HippiesReleasedOctober 1994 (1994-10)StudioCharing Cross StudiosLabelrooArtProducerElectric HippiesSingles from The Electric Hippies It's CoolReleased: 1993 Greedy PeopleReleased: May 1994 I Believe in YouReleased: September 1994 Jonny CourageousReleased: October 1994 Didn't Mean to Make You CryReleased: December 1994 The Electric Hippies is the debut and only studio album by Australian dance g...
Một phần của loạt bài vềCác nền văn hóa khảo cổViệt Nam Hậu kỳ Thời đại đồ đá cũ Văn hóa Tràng An (23.000 TCN - 1.000 TCN)Văn hóa Sơn Vi (20.000 - 12.000 TCN)Văn hóa Soi Nhụ (18.000 - 7.000 TCN) Thời đại đồ đá mới Văn hóa Hòa Bình (12.000 - 10.000 TCN)Văn hóa Bắc Sơn (10.000 - 8.000 TCN)Văn hóa Quỳnh Văn (8.000 - 6.000 TCN)Văn hóa Cái Bèo (7.000 - 5.000 TCN)Văn hóa Đa Bút (6.000 - 5.000 TCN) Thời đại đồ ...
Greek electronics engineer (1942–2017) Magic AlexMardas in the Apple Electronics laboratory with some of the equipment he usedBornYannis Alexis Mardas(1942-05-02)2 May 1942Athens, GreeceDied13 January 2017(2017-01-13) (aged 74)Athens, GreeceOther namesJohn Alexis MardasOccupation(s)Electronics engineer, security consultantBoard member ofApple ElectronicsSpouseEufrosyne Doxiades Yannis (later John) Alexis Mardas (Greek: Αλέξης Μάρδας; 2 May 1942 – 13 January 2017...
Indian poet (1915–2003) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: K. S. Narasimhaswamy – news · newspapers · books · scholar · JSTOR (February 2013) (Learn how and when to remove this template message) K. S. NarasimhaswamyBorn(1915-01-26)26 January 1915Kikkeri, Mysore district, Kingdom of Mysore, Bri...