Estatistikan, histogramabalio ezberdin asko hartzen dituen aldagai kuantitatibo (aldagai jarraitu) bati buruzko datu-multzo handiak (adibidez, pertsona askoren altuerak, autobus batek egunero ibilbide bat egiteko behar duen denbora minututan urte osoan zehar) irudikatzeko erabiltzen den datu-diagrama mota bat da. Datuak tartetan bildu eta maiztasun-banaketa osatu ondoren, maiztasunen araberako zutabeak altxatuz osatzen da. Histograma terminoa lehen aldiz Karl Pearson-ek erabili zuela esaten da.[1] Histogramatik maiztasun-poligono izeneko diagrama eratortzen da. Biztanleria-piramidea ere histogramak baliatuz eratzen da. Ez da diagrama egokia datu kopurua txikiegia denean (20 bat baino gutxiago); kasu horietarako puntu diagrama egokiagoa da. Estatistikan gehien erabiltzen den datu-diagrametako bat da, datuen ezaugarri estatistiko nagusienak (zentroa, sakabanatzea, ...) hautemateko aukera ematen baitu. Dena den, histogramaren parametroak (tarteak, ...) aldatzean, haren interpretazioa asko alda daitekeela hartu behar da kontuan. Halaber, datu-multzo zenbait alderatzeko aukera ematen du, dagozkien histogramak bateratuz. Dagokion ikusizko interpretazio bisualaz haraindi, histogramak datuen hurbilketarako tresna matematiko eta informatiko garrantzitsu dira, hala nola datuen hurbilketan eta datu-konpresioan.[2] Horretaz gainera, industrian Kaoru Ishikawak asmatutako kalitaterako oinarrizko zazpi lanabesetako bat da.[3][4]
Etimologia
Historigrama hitzaren etimologia ez dago guztiz argi. Batzuetan esaten da Antzinako grezieratik datorrela: ἱστός (histos) - "zutik dagoen edozer"- ; eta γράμμα (gramma) - "marrazkia, grabatua, idatzia"- elkartuz. Esaten da, baita ere, terminoa Karl Pearson-ek sartu zuela 1891ean, "diagrama historikoa" (historical diagram) kontzeptutik eratorrita.[5]
Histogramak eratzeko gidalerroak
Tarte kopurua 5-15 bitartekoa izatea gomendatzen da, oro har. Tarte kopuru txikiegia ezartzen bada, informazio-galera handia gertatzen da; tarte gehiegi eratzen badira, berriz, histogramak egitura nahasia erakust dezake, datuak behar bezainbat bildu ez direlako. Hala ere, badira tarte-kopuru egokiena kalkulatzen duten formula zenbait.
Besterik adierazi ezean, tarteak eskuinetik irekiak eta ezkerretik itxiak dira, [x,x+d) motakoak alegia. Honela, 165 balioa hartzen duen datu bat 165-170 tartean barneratu behar da eta ez aurreko 160-165 tartean.
Balio erregularreko tarteak eratuko dira; adibidez, 5-10, 10-15, ...
Oro har, zabalera konstanteko tarteak eratuko dira.
Histogramaren interpretazioa
Histogramak erakusten duen informazio argiena zentroari buruzkoa da; zentroak datuak zein balioren inguruan biltzen diren adierazten du eta histogramako gailurrari erreparatuz hautematen da. Estatistikan aztertzen den beste ezaugarri garrantzitsu bat sakabanatzea da; horri buruz, histogramak datuak nondik nora doazen erakusten du, baina ez du sakabanatzearen neurririk ematen. Histograma zenbait batera irudikatzen direnean, ordea, sakabanatze-mailak alderatu egin daitezke. Alborapena, ordea, histograman aise hauteman daitezkeen ezaugarria da; datuak ezker edo eskuin aldera alboraturik dauden edo muga batekin topo egiten duten erakusten du. Kurtosi izeneko ezaugarria ere esplora daiteke, banaketa kanpai itxurakoa edo laua den hain zuzen. Moda edo gailur anitz dituen histogramak datuetan heterogeneotasuna dagoela erakusten du, ezaugarri ezberdinetako datu-multzoak batera jarri direla hain zuzen.
Histograma maiz alderatzen da eredu moduan hartzen den banaketa normalarekin. Banakuntza normala kanpai itxurakoa da eta guztiz simetrikoa; bere propietateak oso erabilgarriak dira estatistika-tresnak garatzean. Hori dela eta, garrantzitsua da histogramaren itxura aztertzea (kanpai itxurakoa eta simetrikoa den), datuek banaketa horretara egokitzen diren aztertzeko. Banakuntza normalaren itxura izateak ez du esan nahi histograma normala edo datuak normalak direnik, datuak adierazpen matematiko zehatza duen eta maiz erabiltzen den probabilitate-eredu horretara egokitzen direla baizik, guztiz ohikoak diren eta banaketa normalera egokitzen ez diren datu-multzoak egoten baitira orobat. Gainera, badira simetria eta kanpai-itxura erakusten dituzten baina banaketa normalaren araberakoak ez diren datu-multzoak; hain zuzen ere, banaketa normalarekiko doitasunak azterketa matematiko zorrotza eskatzen baitu, histogramaren azterketak horretan laguntzen badu ere.
Honako irudi hauetan ohiko histogramen interpretazio egiten da:[6]
Kanpai itxura eta simetria erakusten dituen histogramak datuak estatistikan maiz erabiltzen den banaketa normalera egokitzen direla adieraz dezake.
Eskuinera alboratutako histograma: datuek behe muga batekin topo egiten dutela adierazten du.
Histograma laua: datuak banaketa uniforme batetik eratorritakoak direla adierazten du, non ziurgabetasuna erabatekoa den. Banakuntza uniformea guztiz laua da eta tarte guztiei probabilitate berdina esleitzen die; gorabeherak zoriaren emaitza dira.
Histograma bimodala: moda anitz dituen histogramak heterogeneotasuna adierazten du, datuek populazio-iturburu desberdinetatik erauzi direla alegia.
Muturreko gailurra duen histograma: muturreko tarte bat >x edo <x motakoa dela adieraz dezake.
Orrazi histograma: datuak biribildu egin durela adieraz dezake, horren ondorioz datu batzuk hurrengo edo aurreko tartera eramanez.
Moztutako histograma: bakarrik tolerantzia-mugen barruan aukeratutako elementuak jaso direla adieraz dezake; adibidez, saldu ahal izateko pisu onargarria duten arrainak.
Muturretako histograma: tolerantzia-mugetatik kanpo utzitako elementuak jaso direla adierazten du; adibidez, soroetan uzta ondoren utzitako landare eta fruituen tamaina, handiegiak edo txikiegiak izateagatik.
Histogramako tarteak finkatzeko irizpideak
Tarte kopuruaren eragina
Jatorriko datuak tarteetan biltzean, histogramak informazio-galera dakar datu haien aldean. Datuak zenbat eta tarte gutxiagotan biltzen diren, orduan eta informazio-galera handiagoa dago. Tarte kopuru handia ezartzen denean, berriz, informazio galera txikia da baina histogramaren helburua, datuak modu grafiko batean laburbiltzea alegia, kolokan gera daiteke. Beraz, histogramako tarte-kopurua finkatzeko oreka bat bilatu behar da, beraz, datuak behar bezala laburbildu eta informazio gehiegi ez galtzeko helburuen artean. Tarte kopuru egoki batek informazio behar den mailan laburbiltzen du informazioa, datuen egitura modu argian azalaraziz. Aurreko atalean adierazi bezala, 5-15 bitartekoa izaten da histograma baterako tarte kopuru egokiena; aldi berean, zenbat eta datu gehiago jaso, orduan eta tarte kopuru gehiago eratu behar direla ere gomendatzen da. Irizpide hauei jarraiki, badira formulak datu kopuru baterako tarte kopuru zehatza ematen dutenak. Nolanahi ere, tarte kopurua muga onargarrien baitan izanda ere, tarte kopuruan egindako aldaketa txiki batek interpretazioa guztiz aldatu dezakeela ere frogatu da. Eragozpen horiek gainditzeko eta bereziki histogramak dakarren informazio galdera saihesteko, orobat datuak tartetan biltzen dituen adar eta orrien diagrama izenekoa ere garatu da aukera moduan, jatorriko datuak atxikitzen dituena.
Tarte mugen eragina
Tarte kopuru finko baterako ere, tarteen mugak non finkatzen diren ere eragin nabarmena du histogramaren itxuran eta interpretazioan. Ondoko irudian datu multzo baterako aukerako bi histograma desberdin eratu dira, bietan tarte kopurua berdina bada ere. Lehenengo histograman neurriak 68-72 tartearen inguruan biltzen direla ondorioztatzen da; bigarrenean, berriz, datu gehienak 54-66 tartean kokatzen dira. Tarteen aukera desberdinetarako interpretazioak duen ezegonkortasun hori histogramaren oztopotzat jo daiteke.[7]
Tarte kopurua (k) eta tarte-zabalera (h) kalkulatzeko erregelak eta formulak
Erregela eta formula zenbait garatu dira histogramako tarte kopurua edo tarte zabalera finkatzeko. Sturges erregelak datuetarako eredu eredu normal bat ezartzen du.[8]Scott erregelak oinarri teoriko sendoagoak ditu, histogramak datuek jatorri duten dentsitate-funtzioari buruzko errorean oinarrituta, banaketa normala erreferentzia harturik.[9]Freedman-Diaconis erregela oinarri estatistiko sendoak ditu eta ez du aurrez datuetarako inongo eredurik ezartzen. Doane erregela Sturgesen erregelaren hobekuntza bat da, datuetarako eredu egokiena normala ez denean. k tarte kopurua kalkulatzen duten formulen kasuan zenbaki ez osoa ateratzen denean, hurrengo zenbaki osora biribiltzen da.
k, Pearsonen kurtosi-koefizientea; n, datu-kopurua
-
Oinarri teorikorik gabekoa, baina batzuetan erabilia.
Tarte zabalera ezberdinak
Argitasunagatik komeni izaten da tartearen zabalera konstantea izatea, baina batzuetan, histograman zehar maiztasunik gabeko hutsuneak sor ez daitezen, tarteak bateratzea, zabaltzea eta estutzea komeni da. Tarte-zabalera konstanterik gabe eratzen diren histogramak bereziki alborapen nabarmena duten datu-multzoetan aplikatzen dira. Beste batzuetan, hasierako eta bukaerako tarteak mugatu gabe uztea gomendatzen da (adibidez, >100, <25). Zabalera ez konstanteko egoera horietan guztietan aldaketa batzuk egin behar dira histograma eratzeko, zutabeek datuen trinkotasuna edo dentsitatea era egokian irudika dezaten. Zehatzago, tarte bakoitzeko zutabearen altuera, a alegia, honela kalkulatu behar da, n tarteko maiztasuna, N datu kopuru totala eta h tarte zabalera izanik:
Adibidez, espezie bateko animalien altuerak jasotzen dituen honako maiztasun-banaketa honetan horrela kalkulatuko litzateke dentsitatea:
Tartea
n (maiztasun absolutua)
Dentsitatea (a=n/Nh)
0-3
4
0.055
3-4
2
0.083
4-5
5
0.208
5-10
5
0.041
10-30
8
0.016
24
Histogramaren definizio matematikoa
xaldagai jarraitu bateko balioen esparruan jasotako datuetarako, honela kalkulatzen da h(x) histogramaren funtzioa, x balioen tarte bakoitzari maiztasun absolutua, dagokion zutabearen altuera alegia, esleitzen diona: balio horri dagokion tartearen erdipuntua eta w tartearen zabalera izanik:[10][11]
,
non
h(x) balioetatik aise eratortzen dira f(x) maiztasun erlatiboa eta dentsitatea:
Adibide moduan, 10-20 tarterako aldagaiaren x=12 balioak duen dentsitatea kalkulatuko da aurreko adierazpenaz, datuak (5,8,10,13,15,16,19,20,22) izanik:
Datuak (xi)
5
8
13
15
16
19
20
22
xi-10
-10
-7
-2
0
1
4
5
7
-5 ≤ (xi-10) < 5?
ez (0)
ez (0)
bai (1)
bai (1)
bai (1)
bai (1)
bai (1)
ez (0)
h(x)=5
Tartearen zabalera 10 eta datu kopurua 8 izanik, dentsitatea hau izango da:
Dentsitate-histogramak eta probabilitate-banaketak
Dentsitate-histograma zutabeen altueratzat maiztasun absolutu eta erlatiboen ordez dentsitateak hartzen dituena da. Dentsitateekin, zutabe bakoitzeko azaleraren balioak tarte horretan suertatzeko probabilitatea adierazten du eta histograma osoko azalera 1 da, probabilitate-banakuntzetan bezala.[12]
Dentsitateak kalkulatzeko, ti tarte bakoitzeko ni maiztasun absolutua N×hi balioarekin zatitu behar da, hi tarteko zabalera izanik. Gogoratu behar da, aurreko atal batean erakutsi bezala, tarte-zabalerak desberdinak direnean, nahitaezkoa dela dentsitate-histograma eratzea, zutabeko altuerak adierazgarriak izan daitezen.
Dentsitate-histograma probabilitate banaketa jarraitu jakin batekin alderatu ahal izateko erabiltzen da, bi kasuetan azpiko azalera 1 izateaz gainera, tarte bateko probabilitatea azpiko azalerak ematen baitu. Dentsitate-histogramak probabilitate-banaketa jarraitzen badu, probabilitate-banaketa datuen eredu moduan baliatu ahal izango da. Horretaz gainera, dentsitate-histogramak dentsitate-zenbatespen moduan ere erabil daitezke; hain zuzen ere, histogramaren definizio matematikoa dentsitate-zenbatespenerako erabiltzen diren kernel-funtzio mota sinple bat besterik ez da.[10] Beste kernel-funtzioetan oinarrituta egindako dentsitate-zenbatespenak, finean datuak itxuratu edo leundu egiten dituztenak, histogramaren aukera hobe moduan ere erabiltzen dira.
Maiztasun-poligonoa histogramatik eratortzen den datu-diagrama bat da, tarte bakoitzeko erdipuntuetan zutabeen altuerak lotuz eratzen dena. Aukera moduan, tarteko erdipuntuak lotu ordez, tarte-ertzak lotzea proposatu da, alboko zutabe-altueren batezbestekoa hartuz ordenatu moduan.[13] Histograman bezalaxe, maiztasun absolutuekin, erlatoekin eta dentsitateekin era daitezke. Datu-multzoak alderatzeko dira egokiak bereziki, irudi berean maiztasun-poligono batzuk batera marraztu baitaitezke; histogramak, ordea, ezin izaten dira batera jarri, batak bestea estaltzen baitu. Badu histogramaren aldean abantaila teoriko bat: histograma ez da funtzio jarraitua, mailakakoa baizik[10]; maiztasun poligonoa, berriz, jarraitua da, histograman oinarritutako interpolazio lineal bati esker.[14]
N-tigramak
Maiztasun-banaketa baten irakurketa sinple eta eroso baterako, zabalera konstanteko histogramak dira egokienak. Batzuetan, ordea, zabalera konstanteko tarteek hutsuneak utz ditzakete daturik ez dagoenean. Aldi berean, zabalera konstanteko tarte batean datu asko suertatzen direnean, tarte horretan datuak nola banatzen diren ezkutuan geratzen da. Aukera moduan, n-tigramak garatu dira, maiztasun bereko zabalera ezberdineko tarteak dituzten histogramak alegia. Horiek eratzeko, aski da tarte bakoitzean bildu nahi den datu-kopurua zehaztea eta hortik tarteak osatzen joatea, beti maiztasun berdinekin. Tarte zabalerak ezberdinak suertatuko direnez, histogramako zutabeak eratzeko, dentsitateak kalkulatu beharko dira aurreko atalean bezala.
Baterako histogramak
Datu-multzo bakar baten ezaugarriak begiztatzeko helburuaz gainera, datu-multzo zenbaiten ezaugarriak alderatzeko ere erabil daitezke, histogramak edo horietatik eratorritako maiztasun-poligonoak batera jarriz. Horren adibide garbiena biztanleria-piramideak dira, non gizonen eta emakumeen adinak histograma horizontal banatan irudikatzen diren grafiko berean, adin-tarte berdinetarako. Datu multzo desberdinen alderaketa behar bezala egitearren, tarteak berdinak izan behar dira diagrama guztietan; horretaz gainera, zutabeen altuerak maiztasun erlatibo edo dentsitateen arabera finkatzea komeni da irizpide orokor moduan, datu-multzo bakoitzaren datu-kopuruaren eragina baztertu eta horrela tarte bakoitzeko zutabeak datu-multzo guztietarako era homogeneoan alderatu ahal izateko.
Biztanleria-piramideak dira batera jarritako histogramen adibide arruntena, bi histogramak elkarri bizkarra emanez: gizon eta emakumeen adinen histogramak elkarren ondoan jartzen dira horizontalean, adin-tarte berdinetarako, gizon eta emakume kopuruak alderatzeko.
Maiztasun-poligonoak batera jarriz, datu-multzo zenbait irudika daitezke batera.
Datu-multzoak bi baino gehiago direnean, histogramak ezin dira elkarri bizkarra emanda jarri eta bata bestearen gainean edo sareta moduan jar daitezke. Ingelesez, trellis histogram deitzen zaie. Irudian, goiko histograman datuak 100 balioaren inguruan biltzen diren bitartean, beheko histograman 200 balioaren inguruan daude.
Maiztasun metatuen histograma eta ojiba
Histograma maiztasun metatuekin, maiztasun bakunekin kalkulatu ordez, eratu bada (aurreko zutabeak metatuz, alegia), histograma metatua dela esaten da. Histograma metatuak oso erabilgarriak dira kuantilak kalkulatu eta aztertzeko eta datu-banaketa zenbait batera aztertzeko. Histograma metatutik ojiba izeneko lerroa era daiteke, tarte muga - maiztasun metatua puntuak lotuz.[15]