Альтернативний метод перевірки статистичних гіпотез полягає у визначенні множини статистичних моделей, по одній для кожної гіпотези кандидата, після чого використовуються техніки відбору моделі, аби вибрати ту, яка підходить найбільше.[2] Найбільш загальні техніки відбору моделей основані на інформаційному критерії Акаіке або коефіцієнті Баєса.
Протилежністю такого аналізу вибірки може бути розвідувальний аналіз вибірки, який може не мати наперед визначених гіпотез.
Статистичні гіпотези не слід плутати із науковими гіпотезами. Наукові гіпотези прагнуть дати пояснення природним явищам, в той час як статистичні гіпотези зазвичай використовують для встановлення факту існування зв'язку (або його відсутність) між вибірками даних. Таким прикладом є методи медичного лікування, де статистична гіпотеза використовується як спроба ілюстрації, з мірою статистичної значимості, чи ліки діють краще за плацебо. Наукова гіпотеза потім шукатиме пояснення результатів, незалежно від результатів перевірки статистичної гіпотези.
Статистичні гіпотези
Визначення
Нехай у (статистичному) експерименті спостерігається реалізація деякої випадкової величини, розподіл якої є невідомим повністю чи частково. Тоді будь-яке твердження, що стосується , називається статистичною гіпотезою. Гіпотези розрізняються за видом припущень, що містяться в них:
Статистичну гіпотезу, що однозначно визначає розподіл , тобто, , де якийсь конкретний закон, називають простою.
Статистична гіпотеза, що стверджує, що розподіл належить до деякої сім'ї розподілів, тобто , де — сім'я розподілів, називається складною.
На практиці зазвичай потрібно перевірити якусь конкретну і, як правило, просту гіпотезу . Таку гіпотезу прийнято називати нульовою. При цьому паралельно розглядається гіпотеза, що суперечить їй , що називається конкуруючою або альтернативною[en].
Висунута гіпотеза потребує перевірки, яка здійснюється статистичними методами, тому гіпотезу називають статистичною. Для перевірки гіпотези використовують критерії, що дозволяють прийняти або спростувати гіпотезу.
В більшості випадків статистичні критерії засновані на випадковій вибірці фіксованого об'єму з розподілу . У послідовному аналізі вибірка формується в ході самого експерименту і тому її об'єм є випадковою величиною.
Приклад
Нехай дано незалежну вибірку з нормального розподілу, де — невідомий параметр. Тоді , де — фіксована стала, є простою гіпотезою, а альтернативна до неї — складною.
Визначення термінів
Наступні визначення термінів в основному взяті із тлумачень в книзі Леманна і Романо[3]:
Статистична гіпотеза
Твердження щодо параметрів, які описують сукупність (не вибірку).
Статистика
Значення розраховане із вибірки, що часто підсумовують вибірку з метою порівняння.
Проста гіпотеза
Будь-яка гіпотеза яка повністю визначає розподіл сукупності.
Складна гіпотеза
Будь-яка гіпотеза, яка не визначає розподіл сукупності повністю.
Імовірність для випробування, що визначає правильність відкидання нульової гіпотези. Доповнення до хибнонегативної частоти, β. Потужність називається чутливістю в області біостатистики. («Ця перевірка є перевіркою на чутливість, оскільки результат є негативним, можна із упевненістю зробити висновок, що пацієнт не має цього стану.») Див. Чутливість і специфічність і Помилки першого і другого роду за більш вичерпними визначеннями.
Для простої гіпотези це імовірність неправильного відкидання нульової гіпотези при випробуванні. Хибнопозитивна частота. Для складних гіпотез це супремум імовірності відкидання нульової гіпотези по всім випадках, які покриває нульова гіпотеза. В біостатистиці доповнення до хибнопозитивної частоти називається специфічністю. («Це є специфічною перевіркою, оскільки при позитивному результаті ми можемо з упевненістю зробити висновок, що пацієнт має цей стан.») Див. Чутливість і специфічність і Помилки першого і другого роду за більш вичерпними визначеннями.
Рівень значимості тесту (α)
Це верхня межа накладається на розмір випробування. Це значення, яке обирає статист перед тим як вивчити дані або обрати будь-який спосіб перевірки, який застосувати. Це максимальний показник помилкового відхилення H0, який дослідник готовий допустити. Перевірка H0 на рівні значимості α означає перевірку H0, при якій розмір випробування не перевищує α. В більшості випадків, використовують випробування розмір якого дорівнює рівню значимості.
попередник перевірки статистичних гіпотез. Результат експерименту вважався статистично значущим, якщо вибірка була достатньо несумісною із (нульовою) гіпотезою. Це по різному розглядали у загальному сенсі, прагматична евристика для встановлення значущості експериментальних результатів, конвенція, яка встановлювала порогове значення статистичного доведення або метод для отримання висновків із даних. Метод перевірки статистичних гіпотез додав цьому математичної суворості і філософську послідовність поняттю, зробивши альтернативну гіпотезу однозначною. Цей термін тепер використовується здебільшого для описання сучасної версії, яка тепер є частиною перевірки статистичних гіпотез.
Етапи перевірки статистичних гіпотез
Формулювання основної гіпотези і альтернативної гіпотези[en]. Гіпотези повинні бути чітко формалізовані в математичних термінах.
Задання достовірності , що називається рівнем значущості і що відповідає помилкам першого роду, на якому надалі і буде зроблений висновок про правдивість гіпотези.
Розрахунок статистики критерію такий, що:
її величина залежить від початкової вибірки ;
за її значенням можна зробити висновки про істинність гіпотези ;
сама статистика повинна підкорятися якомусь невідомому закону розподілу, так як сама є випадковою в силу випадковості .
Побудова критичної області. З області значень виділяємо підмножину таких значень, за якими можна судити про суттєвість розбіжностей з припущенням. Її розмір вибирається таким чином, щоб виконувалась рівність . Ця множина і називається критичною областю.
Висновок про істинність гіпотези. Спостережувані значення вибірки підставляються в статистику і за попаданням (або непопаданням) у критичну область виноситься ухвала про відкидання (або ухвалення) висунутої гіпотези .
Види критичної області
Двобічна критична область визначається двома інтервалами , де знаходять з умов .
Лівобічна критична область визначається інтервалом , де знаходять з умови .
Правобічна критична область визначається інтервалом , де знаходять з умови .
Арбутнот дослідив записи про народження дітей в Лондоні від 1629 до 1710 (всього за 82 роки), і застосував критерій знаків[en], просту непараметризовану статистичну перевірку[en][6][7][8]. В кожному із досліджених років, кількість народжених хлопчиків, перевищувала кількість народжених дівчаток. Розглядаючи рівноймовірним народження більшої кількості чоловіків або більшої кількості жінок, імовірність спостережуваного результату складала 0.582, або близько 1 до 4,8360,0000,0000,0000,0000,0000; в сучасних термінах, це є p-значенням. Що є неймовірно малим, після чого Арбутнот зробив висновок, що це не є випадковістю, а божим провидінням: «Звідки випливає, що цим процесом керує Провидіння, а не Випадок (англ.From whence it follows, that it is Art, not Chance, that governs)». Кажучи більш сучасними термінами, він відкинув нульову гіпотезу щодо рівності шансів народження хлопчика чи дівчинки із рівнем значимості p = 1/282.
Лаплас дослідив статистику майже половини мільйона народжень. Статистика показала більшу кількість народжуваних хлопчиків ніж дівчаток[9][10]. Розрахувавши p-значення, він зробив висновок, що ця перевага у кількості є об'єктивним явищем, а не випадковістю[11].
Леді дегустує чай
В одному із відомих прикладів перевірки статистичної гіпотези під назвою Леді дегустує чай[12] доктор біології Маріель Брістол[en], яка працювала як і Рональд Фішер у Ротамстедській дослідній станції[en], стверджувала, що вона здатна визначити, як було приготовано чай з молоком, а саме, спочатку налили у філіжанку чай або молоко. Фішер запропонував налити їй на пробу вісім філіжанок чаю у випадковому порядку, по чотири із кожним варіантом. Було поставлене питання, з якою імовірністю випадковим чином її відповідь буде вдалою. Нульова гіпотеза передбачала, що леді не має здатності відрізнити чай. Тест полягав у простому підрахунку кількість вдалих спроб із вибраних 4 чашок чаю. Критичним інтервалом був єдиний випадок із 4 вдалих вгадувань із 4 можливих, що базувався на традиційному критерії імовірності (< 5 %). Випадок із 4 вгадуваннями відповідає 1 із 70 можливих комбінацій (p ≈ 1,4 %). Фішер стверджував, що ніякої альтернативної гіпотези не потрібно. Леді вірно визначила кожну чашку[13], що вважалося статистично значимим результатом.
Судочинство
Процедуру статистичної перевірки можна порівняти із законами правосуддя; обвинувачений вважається невинним, доки його чи її вина не доведена. Прокурор намагається довести вину обвинуваченого. І лише тоді, коли доказів для обвинувачення буде достатньо, обвинувачений буде засуджений.
На початку процедури, існує дві гіпотези: стверджує, що «обвинувачений є невинним», і — «обвинувачений є винним». Перша гіпотеза — , називається нульовою гіпотезою, і вона визнається на початковому етапі. Друга, , називається альтернативною гіпотезою. Це та альтернативна гіпотеза, яку ми намагаємося довести або заперечити.
Гіпотеза про невинуватість буде відкинута лише тоді, коли помилка стане малоймовірною, оскільки небажано засуджувати невинного обвинувачуваного. Така помилка називається помилкою першого роду (тобто, засудження невинної особи), контролюють, аби ця помилка була невеликою. Наслідком такої асиметричної поведінки є більше поширення помилок другого роду (виправдання особи, яка вчинила злочин).
H0 вірна Дійсно не винний
H1 вірна Дійсно винний
Прийняття нульової гіпотези Виправдання
Вірне рішення
Невірне рішення Помилка II роду
Відкидання нульової гіпотези Засудження
Невірне рішення Помилка I роду
Вірне рішення
Процес судочинства можна розглядати як один з двох або обидва процеси прийняття рішення: винний чи не винний, або докази проти непевності («за межею певного розумного сумніву»). З одного боку, оцінюється обвинувачений; з іншого боку оцінюється ефективність обвинувачення (вага винесених доказів). Перевірку статистичної гіпотези можна сприймати як присуд гіпотезі, або присуд доказам.
Філософські боби
Наступний приклад описувався філософом, який описував сімейство наукових методів до того, як перевірка гіпотез була формалізована і популяризована[14].
Замало бобів у цій жменьці є білими.
Більшість бобів із цієї торбинки є білими.
Тому: ймовірно, ці боби були взяті із іншої торбинки.
Це гіпотетичний висновок.
Боби у торбинці є генеральною сукупністю. Жменька бобів є вибіркою (зразком). Нульовою гіпотезою є припущення, що вибірка була взята із певної сукупності. Критерієм відхилення нульової гіпотези є «очевидна» різниця зовнішнього вигляду (неформальна відмінність у середньому). Цікавим є висновок із того, що розглядаючи реальну сукупність і реальну вибірку, було отримано висновок про уявну торбинку. Філософ скоріше міркував про логіку, а не ймовірність. Аби бути справжньою статистичною перевіркою гіпотези, цей приклад вимагає виконання формальностей із розрахунку ймовірності і порівняння отриманої імовірності із стандартною.
Просте узагальнення цього прикладу передбачає дослідження торбинки із перемішаними бобами і жменьки, яка містить або лише малу кількість, або дуже багато білих бобів. При узагальненні розглядають два екстремуми. Це вимагає більше розрахунків і більше порівнянь, аби дати формальну відповідь, але основна суть філософії залишається незмінною; якщо склад жменьки сильно відрізняється від складу торбинки, тоді, ймовірно, цю вибірку було отримано із іншої торбинки. Початковий оригінальний приклад називають односторонньою перевіркою, в той час як його узагальнення називається двосторонньою перевіркою.
Твердження також спирається на припущення, що вибірка була випадковою. Якщо хтось навмисно вишукував і вибирав із торбинки білі боби, тоді це б могло пояснити, чому у жменьці так багато білих бобів, а також пояснює чому кількість білих бобів у торбинці була вичерпана (хоча, також передбачається, що мішок повинен бути набагато більшим за одну жменю).
↑Conover, W.J. (1999), Chapter 3.4: The Sign Test, Practical Nonparametric Statistics (вид. Third), Wiley, с. 157—176, ISBN978-0-471-16068-7
↑Sprent, P. (1989), Applied Nonparametric Statistical Methods (вид. Second), Chapman & Hall, ISBN [[Special:BookSources/978-0-412-44980-2
From whence it follows, that it is Art, not Chance, that governs.|978-0-412-44980-2
From whence it follows, that it is Art, not Chance, that governs.]] {{citation}}: Перевірте значення |isbn=: недійсний символ (довідка)
↑Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. с. 225–226. ISBN978-0-67440341-3.
↑Laplace, P. (1778). Mémoire sur les probabilités(PDF). Mémoires de l'Académie Royale des Sciences de Paris. 9: 227—332. Архів оригіналу(PDF) за 27 квітня 2015. Процитовано 21 лютого 2019.
В іншому мовному розділі є повніша стаття Statistical hypothesis testing(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою перекладу з англійської.
Перекладач повинен розуміти, що відповідальність за кінцевий вміст статті у Вікіпедії несе саме автор редагувань. Онлайн-переклад надається лише як корисний інструмент перегляду вмісту зрозумілою мовою. Не використовуйте невичитаний і невідкоригований машинний переклад у статтях української Вікіпедії!
Машинний переклад Google є корисною відправною точкою для перекладу, але перекладачам необхідно виправляти помилки та підтверджувати точність перекладу, а не просто скопіювати машинний переклад до української Вікіпедії.
Не перекладайте текст, який видається недостовірним або неякісним. Якщо можливо, перевірте текст за посиланнями, поданими в іншомовній статті.