Ба́єсове ієрархі́чне моделюва́ння (англ. Bayesian hierarchical modelling) — це статистична модель, написана в декілька рівнів (ієрархічний вигляд), яка оцінює параметри[en] апостеріорного розподілу із застосуванням баєсового методу.[1] Підмоделі об'єднуються для утворення ієрархічної моделі, а для поєднання їх в одне ціле зі спостережуваними даними та врахуванням всієї присутньої невизначеності застосовується теорема Баєса. Результатом цього поєднання є апостеріорний розподіл, відомий також як уточнена оцінка ймовірності за отримання додаткового свідчення про апріорний розподіл.
Частотницька статистика, популярніша основа статистики[en], може видавати висновки, здавалося би, несумісні з тими, що пропонує баєсова статистика, через баєсове трактування параметрів як випадкових змінних, і використання суб'єктивної інформації у встановленні припущень стосовно цих параметрів.[2] Оскільки ці підходи дають відповіді на різні питання, то формальні результати не є технічно суперечливими, але ці два підходи не погоджуються стосовно того, яка відповідь є доречною для певного застосування. Баєсівці переконують, що доречною інформацією стосовно ухвалення рішень та уточнення переконань нехтувати не можна, і що ієрархічне моделювання має потенціал взяти гору над класичними методами в застосуваннях, в яких доповідачі дають декілька варіантів даних спостережень. Більше того, ця модель довела свою робастність, з меншою чутливістю апостеріорного розподілу до гнучкіших ієрархічних апріорних.
Ієрархічне моделювання застосовують, коли інформація є доступною на декількох різних рівнях одиниць вимірювання. Ієрархічна форма аналізу та організації допомагає в розумінні багатопараметрових задач, а також відіграє важливу роль у розробці обчислювальних стратегій.[3]
Численні статистичні застосування передбачають декілька параметрів, які можливо розглядати як пов'язані або взаємопоєднані таким чином, що ця задача передбачає залежність моделі спільної ймовірності для цих параметрів.[4] Окремі міри переконань, виражені у вигляді ймовірностей, мають свою невизначеність.[5] Крім цього, є зміна мір переконань з часом. Як було зазначено професором Хосе Бернардо[en] та професором Адріаном Смітом[en], «Реальність процесу навчання складається з розвитку окремих та суб'єктивних переконань про дійсність.» Ці суб'єктивні ймовірності залучаються в розумі пряміше, ніж фізичні ймовірності.[6] Відтак, саме через цю потребу уточнювати переконання баєсівці сформулювали альтернативну статистичну модель, яка враховує попереднє трапляння певної події.[7]
Передбачуване трапляння реальної події зазвичай змінюватиме переваги між певними варіантами. Це здійснюється змінюванням мір переконання, закріплених особою за подіями, що визначають ці варіанти.[8]
Припустімо, що в дослідженні дієвості серцевого лікування з пацієнтами лікарні j, що має ймовірність виживання θ j {\displaystyle \theta _{j}} , ймовірність виживання уточнюватиметься траплянням y, події створення гіпотетичної дискусійної сироватки, яка, як дехто вважає, збільшує виживаність серцевих пацієнтів.
Щоби зробити уточнені ймовірнісні твердження про θ j {\displaystyle \theta _{j}} , маючи трапляння події y, ми мусимо почати з моделі, яка забезпечує спільний розподіл імовірності для θ j {\displaystyle \theta _{j}} та y. Це може бути записано як добуток двох розподілів, які часто називають апріорним розподілом P ( θ ) {\displaystyle P(\theta )} та вибірковим розподілом P ( y ∣ θ ) {\displaystyle P(y\mid \theta )} відповідно:
З використанням основної властивості умовної ймовірності, апостеріорний розподіл дасть:
Це рівняння, що показує взаємозв'язок між умовною ймовірністю та окремими подіями, відоме як теорема Баєса. Цей простий вираз містить у собі технічне ядро баєсового висновування, що має на меті конструювання уточненого переконання, P ( θ ∣ y ) {\displaystyle P(\theta \mid y)} , доречними та розв'язними способами.[8]
Звичною відправною точкою статистичного аналізу є припущення, що n значень y n {\displaystyle y_{n}} є взаємозамінюваними. Якщо не доступно жодної інформації, крім даних y, щоби відрізняти будь-яке з θ j {\displaystyle \theta _{j}} від інших, і неможливо зробити жодного впорядкування чи групування параметрів, то необхідно виходити з симетричності серед параметрів у їхньому апріорному розподілі.[9] Цю симетрію ймовірнісно представлено взаємозамінюваністю. Загалом, маючи деякий невідомий вектор параметрів θ {\displaystyle \theta } з розподілом P ( θ ) {\displaystyle P(\theta )} , корисно та доречно моделювати дані зі взаємозамінюваного розподілу, як незалежно та однаково розподілені.
Для незмінного числа n набір y 1 , y 2 , … , y n {\displaystyle y_{1},y_{2},\ldots ,y_{n}} є взаємозамінюваним, якщо спільний розподіл P ( y 1 , y 2 , … , y n ) {\displaystyle P(y_{1},y_{2},\ldots ,y_{n})} є інваріантним відносно переставляння індексів. Тобто, для кожного переставлення π {\displaystyle \pi } або ( π 1 , π 2 , … , π n ) {\displaystyle (\pi _{1},\pi _{2},\ldots ,\pi _{n})} індексів (1, 2, …, n), P ( y 1 , y 2 , … , y n ) = P ( y π 1 , y π 2 , … , y π n ) . {\displaystyle P(y_{1},y_{2},\ldots ,y_{n})=P(y_{\pi _{1}},y_{\pi _{2}},\ldots ,y_{\pi _{n}}).} [10]
Наступний приклад є взаємозамінюваним, але не незалежним та однаково розподіленим (НОР): Розгляньмо глек із червоною та синьою кулями всередині, з імовірністю 1 2 {\displaystyle {\frac {1}{2}}} витягання кожної. Кулі витягують без повернення, тобто після витягування однієї кулі з n куль для наступного витягування там залишатиметься n − 1 куль.
Оскільки ймовірність обрання червоної кулі в першому витягуванні та синьої кулі у другому витягуванні дорівнює ймовірності обрання синьої кулі в першому витягуванні та червоної кулі в другому, обидві з яких дорівнюють 1/2 (тобто, [ P ( y 1 = 1 , y 2 = 0 ) = P ( y 1 = 0 , y 2 = 1 ) = 1 2 ] {\displaystyle [P(y_{1}=1,y_{2}=0)=P(y_{1}=0,y_{2}=1)={\frac {1}{2}}]} ), то y 1 {\displaystyle y_{1}} та y 2 {\displaystyle y_{2}} є взаємозамінюваними.
Але ймовірністю обрання червоної кулі в другому витягуванні, коли червону кулю вже було обрано в першому, є 0, і вона не дорівнює ймовірності обрання червоної кулі в другому витягуванні, яка дорівнює 1/2 (тобто, [ P ( y 2 = 1 ∣ y 1 = 1 ) = 0 ≠ P ( y 2 = 1 ) = 1 2 ] {\displaystyle [P(y_{2}=1\mid y_{1}=1)=0\neq P(y_{2}=1)={\frac {1}{2}}]} ). Таким чином, y 1 {\displaystyle y_{1}} та y 2 {\displaystyle y_{2}} не є незалежними.
Якщо x 1 , … , x n {\displaystyle x_{1},\ldots ,x_{n}} є незалежними та однаково розподіленими, то вони є взаємозамінюваними, але обернене є не обов'язково істинним.[11]
Нескінченна взаємозамінюваність — це така властивість, що кожна скінченна підмножина нескінченної послідовності y 1 {\displaystyle y_{1}} , y 2 , … {\displaystyle y_{2},\ldots } є взаємозамінюваною. Тобто, для будь-якого n послідовність y 1 , y 2 , … , y n {\displaystyle y_{1},y_{2},\ldots ,y_{n}} є взаємозамінюваною.[11]
Баєсове ієрархічне моделювання при виведенні апостеріорного розподілу використовує два важливі поняття,[1] а саме:
Припустімо, що випадкова змінна Y слідує нормальному розподілові з параметром θ як середнє та 1 як дисперсія, тобто, Y ∣ θ ∼ N ( θ , 1 ) {\displaystyle Y\mid \theta \sim N(\theta ,1)} . Припустімо також, що параметр θ {\displaystyle \theta } має розподіл, заданий нормальним розподілом із середнім μ {\displaystyle \mu } та дисперсією 1, тобто, θ ∣ μ ∼ N ( μ , 1 ) {\displaystyle \theta \mid \mu \sim N(\mu ,1)} . Більше того, μ {\displaystyle \mu } слідує іншому заданому розподілові, наприклад, стандартному нормальному розподілові, N ( 0 , 1 ) {\displaystyle {\text{N}}(0,1)} . Параметр μ {\displaystyle \mu } називають гіперпараметром, тоді як його розподіл, заданий як N ( 0 , 1 ) {\displaystyle {\text{N}}(0,1)} , є прикладом гіперапріорного розподілу. Запис розподілу Y змінюється із додаванням нового параметру, тобто, Y ∣ θ , μ ∼ N ( θ , 1 ) {\displaystyle Y\mid \theta ,\mu \sim N(\theta ,1)} . Якщо є додатковий рівень, скажімо, μ {\displaystyle \mu } слідує іншому нормальному розподілові з середнім β {\displaystyle \beta } та дисперсією ϵ {\displaystyle \epsilon } , що означає μ ∼ N ( β , ϵ ) {\displaystyle \mu \sim N(\beta ,\epsilon )} , то {\displaystyle {\mbox{ }}} β {\displaystyle \beta } та ϵ {\displaystyle \epsilon } також може бути названо гіперпараметрами, тоді як їхні розподіли є також гіперапріорними розподілами.[4]
Нехай y j {\displaystyle y_{j}} є спостереженням, а θ j {\displaystyle \theta _{j}} — параметром, що регулює процес породжування даних для y j {\displaystyle y_{j}} . Припустімо далі, що параметри θ 1 , θ 2 , … , θ j {\displaystyle \theta _{1},\theta _{2},\ldots ,\theta _{j}} породжуються взаємозамінювано зі спільної генеральної сукупності, з розподілом, керованим гіперпараметром ϕ {\displaystyle \phi } .
Ця баєсова ієрархічна модель містить наступні рівні:
Правдоподібністю, як видно на рівні I, є P ( y j ∣ θ j , ϕ ) {\displaystyle P(y_{j}\mid \theta _{j},\phi )} , з P ( θ j , ϕ ) {\displaystyle P(\theta _{j},\phi )} як її апріорним розподілом. Зауважте, що ця правдоподібність залежить від ϕ {\displaystyle \phi } лише через θ j {\displaystyle \theta _{j}} .
Апріорний розподіл з рівня I може бути розбито як
з ϕ {\displaystyle \phi } як його гіперпараметром з гіперапріорним розподілом P ( ϕ ) {\displaystyle P(\phi )} .
Таким чином, апостеріорний розподіл є пропорційним до:
Щоби додатково проілюструвати це, розгляньмо наступний приклад.
Вчитель хоче оцінити, наскільки добре учень виконав свій тест SAT. Щоби оцінити це, він використовує інформацію про бали цього учня в старшій школі, та його поточний середній бал (grade point average, GPA). Його поточний середній бал, позначуваний через Y {\displaystyle Y} , має правдоподібність, задану деякою функцією ймовірності з параметром θ {\displaystyle \theta } , наприклад, Y ∣ θ ∼ P ( Y ∣ θ ) {\displaystyle Y\mid \theta \sim P(Y\mid \theta )} . Цей параметр θ {\displaystyle \theta } є оцінкою SAT учня. Оцінку SAT розглядають як зразок, що береться зі спільного розподілу генеральної сукупності, проіндексованого за іншим параметром ϕ {\displaystyle \phi } , що є балом цього учня зі старшої школи.[13] Тобто, θ ∣ ϕ ∼ P ( θ ∣ ϕ ) {\displaystyle \theta \mid \phi \sim P(\theta \mid \phi )} . Крім того, гіперпараметр ϕ {\displaystyle \phi } слідує своєму власному розподілові, заданому P ( ϕ ) {\displaystyle P(\phi )} , гіперапріорному.
Щоби отримати розв'язок для оцінки SAT, маючи інформацію про GPA,
Для отримання розв'язку для апостеріорного розподілу буде використано всю інформацію в задачі. Замість розв'язування з використанням лише апріорного розподілу та функції правдоподібності, використання гіперапріорних дає більше інформації для отримування точніших переконань про поведінку параметра.[14]
Загалом, спільним апостеріорним розподілом, що нас цікавить, у дворівневій ієрархічній моделі є:
Для трирівневої ієрархічної моделі апостеріорний розподіл задається так:
{{cite book}}
|last-author-amp=