Wnioskowanie częstościowe (ang. frequentist inference), NHST (ang. null hypothesis significance testing), statystyka częstościowa – podejście w dziedzinie wnioskowania statystycznego oparte na falsyfikacji hipotez statystycznych na podstawie ich oczekiwanych długoterminowych właściwości. Jest ono amalgamatem metod wypracowanych przez Ronalda Fishera oraz Neymana i Pearsona[1]. Jego główną właściwością jest to, że w długim horyzoncie czasowym badacz posługujący się prawidłowo metodami częstościowymi nie popełni błędów decyzyjnych statystycznie częściej, niż założył. Charakterystycznym dla statystyki częstościowej narzędziem jest wartość p testu. Głównymi alternatywnymi podejściami jest wnioskowanie bayesowskie i stosowanie ilorazów wiarygodności.
Wnioskowanie statystyczne wyróżnia dwa rodzaje błędów decyzyjnych i dwa rodzaje prawidłowych decyzji, co ilustruje następująca tablica pomyłek:
Modele statystyczne używane w podejściu częstościowym mają dobrze znane właściwości, w związku z czym można określić, jak często przez naturalną zmiennośćprób statystycznych (błąd przypadkowy) możemy spodziewać się obserwacji przypadkowo wprowadzających badacza w błąd. W częstościowej interpretacji prawdopodobieństwa wynik każdego eksperymentu rozpatruje się jako jeden z nieskończonej liczby losowych, potencjalnych pomiarów nieznanych stałych wartości. Ponieważ znane są właściwości statystyczne modelu, można obliczyć – prawdopodobieństwo uzyskania obserwacji danych D, lub bardziej skrajnych, przy założeniu hipotezy H. Jeśli prawdopodobieństwo to (tzw. wartość p) jest mniejsze od przyjętej przez badacza wartości krytycznej, może przyjąć, że dane są przesłanką na rzecz falsyfikacji hipotezy H, i nie pomyli się czyniąc tak częściej niż wyznacza wybrana wartość krytyczna. Należy zwrócić jednak uwagę, że – kontrintuicyjnie – w podejściu częstościowym nie mówi się o odwrotnym, często bardziej interesującym badaczy prawdopodobieństwie: a więc pewności jaką można przypisać badanej hipotezie na podstawie obserwacji. Wartość ta koreluje jedynie słabo, zależnie od mocy i poziomu istotności użytego testu, z [2]. Podejście częstościowe zapewnia więc konkretny poziom pewności co do decyzji, ale nie daje bezpośrednio wiedzy co do prawdopodobieństwa hipotez. Wynika to z fundamentalnych założeń filozoficznych twórców tej metody – Fisher, i zwłaszcza Neyman, uważali że mówienie o prawdopodobieństwie hipotez jest błędem logicznym, ponieważ hipoteza może być jedynie albo prawdziwa, albo fałszywa. W opozycji do tego poglądu, wnioskowanie bayesowskie opiera się na pojęciu prawdopodobieństwa subiektywnego, a wynik każdego eksperymentu traktuje jako stałe dane, reprezentujące w modelu nieznane zmienne losowe[3].
Tło historyczne
Wnioskowanie częstościowe jest amalgamatem modeli stworzonych przez Fishera oraz Neymana i Pearsona[1]. Ronald Fisher zaproponował w 1925 r., aby weryfikacja hipotez statystycznych polegała na teście istotności – obliczaniu wartości p danych (prawdopodobieństwa uzyskania takich, lub bardziej ekstremalnych obserwacji) przy założeniu hipotezy zerowej: najczęściej, braku jakichkolwiek różnic. Napisał również, że wartość p jest wyrazem wartości dowodowej danych przeciwko hipotezie zerowej. Zaproponował przyjęcie krytycznej wartości na poziomie 5% jako luźnej konwencji, która może być dostosowywana do konkretnego obszaru badawczego[4]. Jego propozycja testowania hipotezy zerowej wyglądała zatem następująco[5]:
Wybierz hipotezę zerową Nie musi ona zakładać zerowego efektu, tylko taki jaki chcesz sfalsyfikować.
Wykonaj obserwację i przedstaw jej surową wartość p. Oceń na tej podstawie wartość dowodową danych według własnych kryteriów.
Korzystaj z tej procedury tylko jeśli badasz słabo znany obszar i nie masz lepszych narzędzi.
Neyman i Pearson odrzucili interpretację Fishera m.in. w pracy z 1933 r., krytykując subiektywną naturę sądów o prawdziwości hipotez (z którą to obiekcją Fisher się zgadzał), i zaproponowali sformułowanie procesu weryfikacji hipotez statystycznych jako testu hipotez, w języku teorii decyzji: jakie należy przyjąć zasady postępowania, aby w długim horyzoncie czasowym nie popełniać błędów częściej niż przyjęto[6]. Rozróżnili dwie hipotezy: podstawową i alternatywną, oraz ryzyko popełnienia błędu pierwszego i drugiego rodzaju (odpowiednio, błędnym przyjęciu hipotezy zerowej i alternatywnej). W ich ujęciu, testowanie hipotez polega na zero-jedynkowym podejmowaniu decyzji co do wyboru jednej lub drugiej hipotezy, przy kontroli częstości podejmowania błędów, i z użyciem testu statystycznego wybranego według kryterium najwyższej mocy statystycznej w danym zastosowaniu. Neyman i Pearson odrzucili możliwość bezpośredniego rozważania wartości p zaobserwowanych danych jako ich wartości dowodowej, i podkreślali, że procedura wymaga przyjęcia a priori dopuszczalnego poziomu obu błędów, a parametry danych a posteriori nie powinny być poza tym traktowane jako informatywne. Model Neymana/Pearsona wyglądał zatem w ten sposób[5]:
Wybierz dwie hipotezy, które chcesz porównać: i oraz dostosowane do konkretnego problemu dopuszczalne ryzyko błędów i Wykonaj na ich podstawie analizę kosztów w celu wybrania optymalnego testu i wielkości próby dla rozstrzygania pomiędzy hipotezami na wybranym poziomie błędów.
Jeśli zaobserwowane dane spełniają kryterium odrzucenia postępuj tak jakby była prawdziwa; w przeciwnym razie postępuj tak, jakby prawdziwa była
Procedura ta nie rozstrzyga o prawdziwości hipotez, ale pozwala w długim horyzoncie czasowym utrzymywać ryzyko błędów w założonych granicach. Jest odpowiednia tylko do zastosowań, w których można jasno określić i a i dają rozbieżne przewidywania.
Fisher nie uważał tego rozwiązania za dobre, twierdząc że mechaniczne podejście jest szkodliwe dla nauki. W publicznych wypowiedziach m.in. porównał Neymana do komunistycznego planisty. Spór statystyków pozostał burzliwy i niepogodzony do końca ich życia. Jednocześnie obie strony konfliktu uważały podejście bayesowskie również za błędne[5][7]. Po 1940 r. procedury Fishera i Neymana/Pearsona zaczęły być, wbrew wypowiedziom ich twórców, łączone w podręcznikach w hybrydową postać, i przedstawiane przy pomocy języka sugerującego, że pojedyncze wyniki mogą być używane do wyciągania bayesowskich wniosków o subiektywnym prawdopodobieństwie hipotez[8]. Sprawia to, że podejście częstościowe wiąże się z wieloma nieintuicyjnymi problemami interpretacyjnymi[1][5][7].
Prawidłowa realizacja badań i interpretacja wyników
Realizacja badania
W modelu Neymana/Pearsona, częstościowa procedura weryfikacji hipotez statystycznych ma sens tylko wtedy, jeśli badacz postępuje według z góry ustalonego planu badawczego. Badacz który testuje hipotezy powinien przedstawić wyniki wszystkich zaplanowanych porównań, i ani nie pomijać, ani nie uwzględniać żadnych dodatkowych testów. Badania metodologiczne potwierdzają, że tego typu decyzje co do analizy danych ad hoc, po ich zebraniu, sprawiają, że nominalne ryzyko błędów w rzeczywistości bardzo wzrasta. Błędy tego typu obejmują m.in. zjawiska nazywane P-hackingiem oraz HARKingiem (od ang. hypothesizing after the results are known – stawianie hipotez po poznaniu danych)[9][10]. Dopuszczalne są badania, które służą eksploracji danych (badania eksploracyjne), a nie testowaniu hipotez (badania konfirmacyjne), ale nieuprawnione jest przedstawianie jednych jako drugich. Wyniki przeglądów publikacji sugerują, że takie błędy metodologiczne mogą być w naukach powszechne[11][12]. W związku z tym zaproponowano, aby naukowcy mieli obowiązek prerejestracji projektów badań przed ich wykonaniem[13].
Interpretacja wyniku istotnego statystycznie
Wynik istotny statystycznie uprawnia do przyjęcia, że można postępować tak, jakby hipoteza alternatywna była prawdziwa. Działając w zgodzie z tą zasadą nie popełnimy błędów częściej niż stanowi przyjęta przez nas nominalna wartość krytyczna. Nie daje jednak bezpośrednio informacji o tym, czy ta konkretna hipoteza jest rzeczywiście prawdziwa, ponieważ jest to inne prawdopodobieństwo warunkowe: które to wartości w praktyce jedynie słabo ze sobą korelują (r≈0,37 w symulacjach zakładających hipotezę zerową i losowy poziom mocy)[2]. Testowana jest ponadto z reguły hipoteza zerowa – jej odrzucenie nie oznacza, że prawdopodobna jest konkretna hipoteza alternatywna. O prawdopodobieństwie konkretnej hipotezy pozwalają mówić metody bayesowskie lub ilorazy wiarygodności.
Poziom wartości p obliczony a posteriori na podstawie zaobserwowanych danych nie wyraża tego, jakim ryzykiem popełnienia błędu pierwszego rodzaju są obarczone – prawdopodobieństwo warunkowe popełnienia błędu pierwszego rodzaju jest równe poziomowi istotności przyjętemu a priori – z reguły α=0,05[7].
Rozkład wartości p przy założeniu hipotezy zerowej jest jednostajny – każdy wynik jest jednakowo prawdopodobny. W przypadku hipotezy alternatywnej, przy wysokiej mocy statystycznej badania, oczekiwany rozkład wartości p jest mocno prawoskośny. Prowadzi to do sytuacji, w których przy wysokiej mocy pewne wartości p, choć znajdują się poniżej wartości krytycznej, są jednak bardziej typowe dla hipotezy zerowej[14].
Wysoka moc statystyczna badania powoduje, że nawet mikroskopijne różnice w obserwacjach zaowocują osiągnięciem przez test istotności statystycznej. Istotność statystyczna nie świadczy bezpośrednio o wartości dowodowej danych, ani o istotności praktycznej badanego zjawiska. Praktyczną istotność należy rozważać rozpatrując wielkość efektu wraz z jej przedziałem ufności[15]. Stosowanie tych miar jest obecnie rekomendowane np. przez Amerykańskie Towarzystwo Psychologiczne[16].
Interpretacja wyniku nieistotnego statystycznie
Wynik nieistotny jest nieinformatywny – nie świadczy ani na rzecz, ani przeciwko hipotezie zerowej. Uprawnia do postępowania tak, jakby była prawdziwa. W celu rozstrzygnięcia jej prawdziwości, można zastosować iloraz wiarygodności lub metody wnioskowana bayesowskiego. Jeśli badacz po uzyskaniu wyniku nieistotnego nadal uważa, że jego hipoteza alternatywna jest prawdziwa, może rozważyć wykonanie replikacji badania z wyższą mocą statystyczną.
Replikacje i metaanalizy
Kluczowa dla metody naukowej jest ograniczona wiarygodność pojedynczych zbiorów obserwacji. Dopiero badanie, które niezależnie zreplikowano, pozwala mówić o jakiejś wiedzy. Statystyk Ronald Fisher stwierdza: „możemy uznać, że zjawisko jest udowodnione eksperymentalnie wówczas, gdy wiemy, jak przeprowadzić eksperyment, który rzadko zawiedzie w wykazaniu istotnych statystycznie rezultatów.”[17] Nieudane replikacje nie świadczą przy tym koniecznie o nieprawdziwości hipotezy, ponieważ nawet przy wysokiej mocy statystycznej i badaniu prawdziwego zjawiska można oczekiwać, że wystąpią przypadkowe nieistotne powtórzenia testów. Właściwą metodą, która służy rzetelnemu agregowaniu wyników wielu badań i wyciąganiu z nich wniosków jest metaanaliza[18]. Neyman i Pearson zaznaczyli ponadto już w 1928 r.: „metody statystyczne powinny być używane z rozwagą i zrozumieniem, a nie jako narzędzia które same w sobie udzielają ostatecznych odpowiedzi”[19].
Przypisy
↑ abcJesper WilborgJ.W.SchneiderJesper WilborgJ.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN0138-9130 [dostęp 2017-01-14](ang.).
↑ abDavidD.TrafimowDavidD., StephenS.RiceStephenS., A test of the null hypothesis significance testing procedure correlation argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–269, DOI: 10.3200/GENP.136.3.261-270, ISSN0022-1309, PMID: 19650521 [dostęp 2017-01-15].
↑Edwin ThompsonE.T.JaynesEdwin ThompsonE.T., George LarryG.L.BretthorstGeorge LarryG.L., Probability Theory: The Logic of Science, Cambridge University Press, 10 kwietnia 2003, ISBN 978-0-521-59271-0 [dostęp 2017-01-14](ang.). Brak numerów stron w książce
↑Ronald AylmerR.A.FisherRonald AylmerR.A., Statistical methods for research workers, Oliver and Boyd, 1970, ISBN 0-05-002170-2.1 stycznia Brak numerów stron w książce
↑ abcRaymondR.HubbardRaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15].1 stycznia
↑Joseph P.J.P.SimmonsJoseph P.J.P., Leif D.L.D.NelsonLeif D.L.D., UriU.SimonsohnUriU., False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, „Psychological Science”, 22 (11), 2011, s. 1359–1366, DOI: 10.1177/0956797611417632 [dostęp 2017-01-15](ang.).
↑Norbert LeeN.L.KerrNorbert LeeN.L., HARKing: hypothesizing after the results are known, „Personality and Social Psychology Review: An Official Journal of the Society for Personality and Social Psychology, Inc”, 2 (3), 1998, s. 196–217, DOI: 10.1207/s15327957pspr0203_4, ISSN1088-8683, PMID: 15647155 [dostęp 2017-01-15].1 stycznia
↑Eric-JanE.J.WagenmakersEric-JanE.J. i inni, An Agenda for Purely Confirmatory Research, „Perspectives on Psychological Science”, 7 (6), 2012, s. 632–638, DOI: 10.1177/1745691612463078 [dostęp 2017-02-09](ang.).
↑Ronald AylmerR.A.FisherRonald AylmerR.A., The design of experiments, Hafner Press, 1974, s. 14, ISBN 978-0-02-844690-5, OCLC471778573.1 stycznia
↑DaniëlD.LakensDaniëlD., JoeJ.HilgardJoeJ., JannekeJ.StaaksJannekeJ., On the reproducibility of meta-analyses: six practical recommendations, „BMC Psychology”, 4, 2016, s. 24, DOI: 10.1186/s40359-016-0126-3, ISSN2050-7283, PMID: 27241618, PMCID: PMC4886411 [dostęp 2017-01-15].1 stycznia
↑JerzyJ.NeymanJerzyJ., Egon SharpeE.S.PearsonEgon SharpeE.S., On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference: Part I, „Biometrika”, 1/2, 1928, s. 175–240, DOI: 10.2307/2331945, JSTOR: 2331945 [dostęp 2017-01-08].1 stycznia
Turkish newspaper TakvimTypeDaily newspaperOwner(s)Kalyon GroupPublisherTurkuvaz Media GroupFounded27 December 1994Political alignmentErdoğanismLanguageTurkishCityKemerburgaz, Eyüp, Göktürk, İstanbulCountryTurkeyCirculation110,000 (May 2013)[1]Websitewww.takvim.com.tr Media of TurkeyList of newspapers Takvim is a Turkish daily newspaper owned by Kalyon Group.[2] The word takvim means calendar in Turkish. History Founded by Dinç Bilgin in 1994, Takvim was acquired by Ahmet
Увельський район рос. Увельский район Герб Прапор Муніципальне утворення:муніципальний район селище Увельський Країна Росія Область Челябінська область Номерний знак 74, 174 Офіційна мова російська Населення - повне 31 179 - густота 13,38 Площа - повна 2330 км² Часо
Літературна премія імені Джозефа Конрада-Коженьовського — літературна премія, заснована у 2007 році Польським Інститутом у Києві. Зміст 1 Мета нагороди 2 Періодичність 3 Номінанти 3.1 Визначення лауреата 4 Винагорода 5 Лауреати 5.1 2007 5.2 2009 5.3 2011 5.4 2013 5.5 2015 5.6 2017 5.7 2019 5.8 2021 6 При...
Tulio Loza Loza en un desfile en Los Ángeles.Información personalNacimiento 6 de febrero de 1936 (87 años)Abancay, Apurímac; PerúNacionalidad desde 1968FamiliaHijos 2EducaciónEducado en Universidad Nacional Mayor de San Marcos (Licenciatura en Derecho) Información profesionalOcupación Actor y empresario Seudónimo Cholo de Acero Inoxidable Sitio web TulioLoza.com [editar datos en Wikidata] Tulio Óscar Loza Bonifaz (Abancay, Apurímac; 6 de febrero de 1936)[1]̴...
هيام بن فريحة وزيرة التكوين والتعليم المهنيين تولت المنصب2 يناير 2020[1](3 سنواتٍ و11 شهرًا ويومان) الرئيس عبد المجيد تبون رئيس الوزراء عبد العزيز جراد بلخير دادة موسى رئيس الوزراء حكومة جراد الأولى معلومات شخصية الميلاد 5 يناير 1968 (العمر 55 سنة)الجزائر (مدينة) الإقامة ال...
British politician (1940–2019) The Right HonourableThe Lord MawhinneyPCShadow Home SecretaryIn office11 June 1997 – 11 April 1998LeaderWilliam HaguePreceded byMichael HowardSucceeded byNorman FowlerChairman of the Conservative PartyIn office5 July 1995 – 11 June 1997LeaderJohn MajorPreceded byJeremy HanleySucceeded byCecil Parkinson Ministerial offices 1992–1997 Minister without PortfolioIn office5 July 1995 – 2 May 1997Prime MinisterJohn...
Historical region within the Tigris–Euphrates river system For other uses, see Mesopotamia (disambiguation). The Two Rivers redirects here. For other uses, see Two Rivers. This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Mesopotamia – news · newspapers · books · scholar · JSTOR (October 2022) (Learn how and...
American middle- and long-distance runner (born 1996) Weini KelatiKelati at the Millrose Games in 2019Personal informationNationalityAmericanEritreaBorn (1996-12-01) December 1, 1996 (age 27)[1]EritreaSportCountry Eritrea United StatesSportTrack and FieldEventDistanceCollege teamNew Mexico LobosClubDark Sky DistanceTurned proDecember 2020[2]Achievements and titlesPersonal bestsOutdoor [1]1500 m: 4:10.88 (Eugene 2021)3000 m: 8:53.89 NR (Palo Alto 2019)500...
Ottoman honorific title for civilian or military officers For the Nizari imams, see Agha Khan. The Agha of the Janissaries Omar Agha, officer for the Kurdish Pasha, Sheikh Mahmoud of Sulaymaniyah of Baban principality, Kurdistan, 1820[1] Agha (Turkish: ağa;[2] Ottoman Turkish: آغا; Persian: آقا, romanized: āghā; chief, master, lord[3]) is an honorific title for a civilian or officer, or often part of such title. In the Ottoman times, some court functionar...
For other people named William Linton, see William Linton (disambiguation). William James Linton. William James Linton (December 7, 1812 – December 29, 1897) was an English-born American wood-engraver, landscape painter, political reformer and author of memoirs, novels, poetry and non-fiction. Birth and early years Born in Mile End, east London, his family moved to Stratford, Essex in 1818. The young Linton was educated at Chigwell Grammar School, an early 17th-century foundati...
2002 single by PoisonShooting StarSingle by Poisonfrom the album Hollyweird B-sideWastelandReleasedNovember 2002[1]RecordedJanuary 2002GenreGlam metalLabelCyanide RecordsSongwriter(s)Bret Michaels, C.C. DeVilleProducer(s)Thom Panunzio, Bret MichaelsPoison singles chronology Squeeze Box (2002) Shooting Star (2002) We're An American Band (2006) Shooting Star is a song by American rock band Poison. It is the third and final single released from Poison's 7th studio album Hollyweird,[2...
Austrian ski hills This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: KLH-Arena – news · newspapers · books · scholar · JSTOR (May 2015) (Learn how and when to remove this template message) Gumpold-SchanzenLocationMurauAustriaOpened1936Renovated2005, 2007SizeK–pointK-85, K-60, K-35, K-20Hill sizeHS 92Hill record86 m (282 ft) G...
Sarah Jessica ParkerPekerjaanAktrisProduserTahun aktif1974–sekarangSuami/istriMatthew Broderick (1997–sekarang) Sarah Jessica Parker (lahir 25 Maret 1965) merupakan seorang aktris berkebangsaan Amerika Serikat. Dia menjadi yang terkenal saat diperankan sebagai Carrie Bradshaw di serial TV HBO, Sex and the City. Dia memenangkan empat Golden Globe Awards dan dua Emmy Awards. Dilahirkan di Nelsonville, Ohio. Berkarier di dunia film sejak tahun 1982. Filmografi Tahun Judul Sebagai Catata...
Bolivian businessman Juan Rivero TorresBornJuan Ramón Rivero Torres(1897-01-17)January 17, 1897Cochabamba, BoliviaDiedJune 29, 1951(1951-06-29) (aged 54)Buenos Aires, ArgentinaNationalityBolivianAlma materETH ZurichOccupation(s)Engineer and entrepreneurSpouse María Teresa Andrea Gutierrez-Guerra Reyes Calvo de la Banda (m. 1940–1951)ChildrenMaría de la Gloria Rivero Gutiérrez-GuerraRelativesAdela Zamudio (aunt)AwardsOr...
West End theatre in London, England This article is about the theatre in Westminster. For the New Zealand theatre, see Fortune Theatre, Dunedin. For the historic London theatre, see Fortune Playhouse. For other uses, see Fortune. Fortune TheatreFortune Thriller TheatreShowing The Woman in Black, 2006AddressRussell StreetLondon, WC2United KingdomCoordinates51°30′47″N 0°07′16″W / 51.513°N 0.121°W / 51.513; -0.121Public transit Covent GardenOwnerAmbassador The...
Indian online news portal OneIndiaType of businessPrivateType of siteNews portalAvailable inEnglish, Hindi, Kannada, Telugu, Tamil, Malayalam, Bengali, and GujaratiFounded1 January 2006[1]HeadquartersBangalore, IndiaCountry of originIndiaOwnerGreynium Information Technologies Pvt. Ltd.IndustryInternet services, Digital mediaEmployees400+URLwww.oneindia.com Oneindia.com is an Indian news website established in January 2006 by BG Mahesh.[2][3] The website provides n...
Matthias Martinius (Martini) (1572 – 30 December 1630) was a German Calvinist theologian and educator. Matthias Martinius, 1711 engraving by Jan van Vianen. Life He was born in Freienhagen, Waldeck and educated at Herborn Academy. He became court preacher at Dillenburg, and then taught at Herborn before moving to Emden in 1607.[1] Entrance to the old Gymnasium, Bremen. From 1610 Martinius was the founding rector of the Gymnasium Illustre at Bremen.[2][3] The teac...