בסטטיסטיקה, מְקַדֵם בֵּייס (באנגלית: Bayes Factor) משמש אלטרנטיבה בייסיאנית לבדיקת השערות קלאסית.[1][2] השוואת מודלים בייסיאניים היא שיטה של הכרעה בין מודלים שונים בהתבסס על חישוב מקדם בייס. מקדם בייס משמש לכימות היחס בין העדויות התומכות בעד מודל אחד על פני מודל אחר[3].
הגדרה
הנראות (likelihood) מייצגת את ההסתברות כי סט נתונים D הגיע מתוך מודל M, ונכתב באופן רשמי בתור . מקדם בייס הוא יחס בין הנראות (likelihood) של השערות מתחרות, בדרך כלל השערת אפס והשערת החוקר, או מספר מודלים אלטרנטיביים[4].
לדוגמה: בהטלת מטבע נצפה סט נתונים (D) של 5 תוצאות "עץ". במודל סטטיסטי של מטבע הוגן (סיכוי q=0.5 לקבלת עץ) הסבירות, או הסיכוי לנתונים בהינתן המודל, היא . לעומת זאת במודל של מטבע מוטה (עם סיכוי q=0.9 לקבלת עץ) הסבירות, או הסיכוי לנתונים בהינתן המודל, היא .
הערכת הנראות מהווה את הבסיס להשוואה בייסיאנית בין מודלים. בהשוואת מודלים, אנחנו צריכים לבחור בין שני מודלים על בסיס נתונים (D). הנראות של שני מודלים M1, ו-M2, מבוטאת על ידי שני וקטורים וגם , שבאמצעותם מחושב מקדם בייס, K.
הווקטורים ו- מכילים את אוסף כל האפשרויות של פרמטרי המודלים M1, ו-M2 בהתאמה. עבור כל אפשרות כזו מחושבת ההסתברות לקבל את הפרמטרים בהינתן המודל , וגם מחושבת ההסתברות לקבל את הדאטא שנאסף בהינתן שהמודל הוא מבוסס פרמטרים אלו . הסתברויות אלו מוכפלות זו בזו, ומתבצעת עבור כל מודל סכימה מעבר לכל האפשרויות של פרמטרי המודלים. חלוקת הסכומים שחושבו בין שני המודלים מוגדרת כמקדם בייס. בכתיב מתמטי ניתן לייצג הסבר זה בנוסחה הבאה:
יתרונה של שיטת השוואת מודלים באמצעות מקדם בייס על פני מבחן סטטיסטיים כגון מבחן יחס-נראות נעוצה בעובדה שסבירותם של מודלים פשוטים יותר עם פחות פרמטרים, באופן טבעי יותר מקבלת יתרון בהשוואת מודלים ביסייאניים[5] ובכך ניתן להימנע מתופעת התאמת יתר (overfitting).
פרשנות
ערך K גדול מ-1 מציין כי המודל הראשון יותר נתמך על ידי הנתונים בחשבון בהשוואה למודל השני. בדיקת השערות קלאסית, בוחנת רק מודל אחד (השערת האפס) ומכמתת את הסבירות לנתונים בהינתן המודל, כאשר בתהליך ההסקה הסטטיסטית, סבירות נמוכה מאוד של הנתונים (לרוב p<0.05) תוביל לדחיית השערת האפס. הרולד ג'פרי יצר את הטבלה הבאה לפרשנות ערכי K שונים:[6]
K
|
dHart
|
ביטים
|
פרשנות
|
קטן מ-1
|
קטן מ-0
|
|
שלילי (תומך M2)
|
100עד 101/2
|
0 עד 5
|
0 עד 1.6
|
בקושי שווה להזכיר
|
101/2 עד 101
|
5 עד 10
|
1.6 עד 3.3
|
משמעותי
|
101 עד 103/2
|
10 עד 15
|
3.3 עד 5.0
|
חזק
|
103/2 עד 102
|
15 עד-20.
|
5.0 עד 6.6
|
חזק מאוד
|
גדול מ 102
|
גדול מ 20
|
גדול מ 6.6
|
החלטי
|
פרשנות מקובלת אלטרנטיבית הוצעה על ידי Kass ו Raftery (1995):
|
K
|
פרשנות
|
0 עד 2
|
1 עד 3
|
בקושי שווה להזכיר
|
2 עד 6
|
3 עד 20
|
חיובי
|
6 עד 10
|
20 עד 150
|
חזק
|
מעל 10
|
מעל 150
|
חזק מאוד
|
מקדם בייס מכמת עבורנו איזו מההשערות היא הסבירה ביותר, בהינתן סט הנתונים שבידנו.
דוגמה
נסתכל על דוגמה עם משתנה תלוי דיכוטומי (בינומי). נניח ובידנו משתנה מקרי שמייצר בכל צעד הצלחה או כישלון. אנו מעוניינים להשוות בין מודל M1 שבו ההסתברות להצלחה היא q=0.5, אל מודל M2 בו q אינו ידוע, ונלקח מהתפלגות אחידה בטווח [0,1]. בידנו סט נתונים (D) של 200 ניסיונות, אשר מתוכם 115 הצלחות אל מול 85 כישלונות. את הסבירות לקבלת סט נתונים זה בהינתן כל אחד מהמודלים ניתן לחשב באמצעות ההתפלגות הבינומית:
לפיכך, נקבל עבור המודל הראשון
ועבור המודל השני
בחישוב מקדם בייס כיחס בין שתי הסבירויות נגלה כי K=1.197. כלומר, העדויות מעט נוטות לטובת המודל הראשון, אם כי באופן זניח.
בדיקת השערות קלאסית של מודל M1 (שבהקשר זה הוא השערת האפס) יספק תוצאה שונה בתכלית. במבחן הבינום הסבירות לקבלת 115 הצלחות או יותר מתוך 200 היא p=0.02. מכאן שבבדיקת השערות ברמת ביטחון של 95% (דו-צדדית) היינו מגיעים למסקנה כי עלינו לדחות את השערת האפס, וכי לא סביר שהתוצאה שהתקבלה נדגמה מתוך השערת האפס.
מודל M2מורכב יותר לבחינה מהמודל הראשון, מאחר שהוא מכיל פרמטר חופשי המאפשר לו התאמה מוצלחת יותר לנתונים. היכולת של כלי הסקה ביסיאנית להתמודד עם מודלים מורכבים כגון זה משמעותית במיוחד ביכולה להפחית טעות מסוג I[7]
לקריאה נוספת
- Morey, R. D., Romeijn, J. W., & Rouder, J. N. (2016). The philosophy of Bayes factors and the quantification of statistical evidence. Journal of Mathematical Psychology, 72, 6-18.
קישורים חיצוניים
הערות שוליים