Вибірка — це множина об'єктів або подій, вибраних за допомогою визначеної процедури з генеральної сукупності для участі в дослідженні. Зазвичай, обсяг генеральної сукупності дуже великий, що робить прийняття до уваги всіх членів непрактичним або неможливим.[джерело?] Вибірка являє собою множину або сукупність певного обсягу, члени якої збираються і статистичні характеристики обчислюються таким чином, що в результаті можна зробити висновки або екстраполяцію із вибірки на всю генеральну сукупність.
Математичний опис
У математичних термінах, для даної статистичної змінної X з вибірковим розподілом F, вибірка обсягу n = 4,5… являє собою сукупність n незалежних вимірів, показникам якої приписуються статистичні ймовірності.
Вибірка представляє n експериментів, в яких можна виміряти ту ж змінну. Наприклад, якщо X представляє висоту індивідуума і ми вимірюємо індивідуумів, буде висотою i-того індивідуума. Відзначте, що вибірка випадкових змінних (тобто набір вимірних функцій) не повинна бути змішаною з реалізаціями цих змінних (які є значеннями, що приймають ці випадкові змінні). Іншими словами, — функція, що являє собою вимірювання в i-тому експерименті і — значення, яке ми фактично отримуємо, роблячи вимірювання.
Характеристикою положення для вибіркового розподілу є вибіркове середнє, а характеристиками розсіювання вибіркового розподілу — вибіркові дисперсії. Числовою характеристикою розсіяння значень вибірки є також розмах її значень.
Поняття вибірки включає процес того, як отримуються дані (тобто, випадкові змінні). Це необхідно робити таким чином, щоб можна було зробити математичний аналіз вибірок, як і отримати статистичні дані, розраховані на їх основі, наприклад вибіркові середні, коваріацію вибірок. Крім того, такі статистичні дані повинні мати місце і для всієї популяції.
Обсяг вибірки
Обсяг вибірки — число випадків, включених у вибіркову сукупність. Із статистичних міркувань рекомендується, щоб число випадків становило не менше 30—35.[джерело?]
Мала вибірка
Мала вибірка — множина об'єктів або подій, які відповідають певному критерію з генеральної вибірки, як правило становить від 5 до 30 одиниць, що може призводити до статистичної похибки чи помилки.[1][2][3]
Залежні і незалежні вибірки
При порівнянні двох (і більш) вибірок важливим параметром є їх залежність. Якщо можна встановити гомоморфну пару (тобто, коли одному випадку з вибірки X відповідає один і лише один випадок з вибірки Y) для кожного випадку в двох вибірках (і цей взаємозв'язок є важливим для вимірюваної на вибірках ознаки), такі вибірки називаються залежними. Приклади залежних вибірок:
- пари близнят
- два вимірювання якої-небудь ознаки до і після експериментальної дії
- чоловіки і дружини
- тощо
У випадку, якщо такий взаємозв'язок між вибірками відсутній, то ці вибірки вважаються незалежними, наприклад:
Відповідно, залежні вибірки завжди мають однаковий об'єм, а об'єм незалежних може відрізнятися. Порівняння вибірок проводиться за допомогою різних статистичних критеріїв:
Репрезентативність
Вибірка може розглядатися як репрезентативна або нерепрезентативна.
Приклад нерепрезентативної вибірки
У США одним з найвідоміших історичних прикладів нерепрезентативної вибірки вважається випадок, що стався під час президентських виборів в 1936 року[4]. Журнал «Літрері Дайджест», що успішно прогнозував події декількох попередніх виборів, помилився у своїх прогнозах, розіславши десять мільйонів пробних бюлетенів своїм підписникам, людям, вибраним по телефонним книгах всієї країни, і людям з реєстраційних списків автомобілів. У 25 % бюлетенів (майже 2,5 мільйона) голосів, що повернулися, були розподілені таким чином:
На дійсних же виборах, як відомо, переміг Рузвельт, набравши понад 60 % голосів. Помилка «Літрері Дайджест» полягала в наступному: бажаючи збільшити репрезентативність вибірки, — оскільки їм було відомо, що більшість їхніх передплатників вважають себе республіканцями, — вони розширили вибірку за рахунок людей, вибраних з телефонних книг і реєстраційних списків. Проте вони не врахували тогочасних реалій і насправді набрали ще більше республіканців: у часи Великої депресії володіти телефонами і автомобілями могли собі дозволити переважно представники середнього і верхнього класу (в більшості республіканці, а не демократи).
Види плану побудови груп з вибірок
Виділяють декілька основних видів плану побудови груп[5]:
- Дослідження з експериментальною і контрольною групами, які ставляться в різні умови.
- Дослідження з експериментальною і контрольною групами із залученням стратегії попарного відбору
- Дослідження з використанням тільки однієї групи — експериментальною.
- Дослідження з використанням змішаного (чинника) плану — всі групи ставляться в різні умови.
Стратегії побудови груп
Відбір груп для їх участі в медичних та психологічних експериментах здійснюється за допомогою різних стратегій, які потрібні для того, щоб забезпечити максимально можливе дотримання внутрішньої і зовнішньої валідності[6].
Рандомізація
Рандомізація, або випадковий відбір, використовується для створення простих випадкових вибірок. Використання такої вибірки ґрунтується на припущенні, що кожен член популяції з рівною імовірністю може потрапити у вибірку. Наприклад, щоб зробити випадкову вибірку з 100 студентів внз, можна скласти папірці з іменами всіх студентів вишу в капелюх, а потім дістати з неї 100 папірців — це буде випадковим відбором (Гудвін Дж., з. 147).
Попарний відбір
Попарний відбір — стратегія побудови груп вибірки, при якому групи випробовуваних складаються з суб'єктів/об'єктів, еквівалентних по значущих для експерименту побічних параметрах. Дана стратегія ефективна для експериментів з використанням експериментальних і контрольних груп з кращим варіантом у випадку психологічних дослідженнях — залученням близнюкових пар (моно- і дізіготних).
Стратометричний відбір
Стратометричний відбір — рандомізація з виділенням страт (або кластерів). При даному способі формування вибірки, генеральна сукупність ділиться на групи (страти), що володіють певними характеристиками (у випадку психологічних досліджень — стать, вік, політичні переваги, освіта, рівень доходів і ін.), і відбираються випробовувані з відповідними характеристиками.
Наближене моделювання
Наближене моделювання — складання обмежених вибірок і узагальнення виводів про цю вибірку на ширшу популяцію. Наприклад, при участі в медичному/психологічному дослідженні студентів 2-го курсу університету, дані цього дослідження розповсюджуються на «людей у віці від 17 до 21 року». Допустимість подібних узагальнень украй обмежена.
Див. також
Примітки
Джерела