בפשטות, נניח שנדגמו פריטים מתוך אוכלוסייה, ונמדדו לכל אחד מהפריטים שתי תכונות מספריות (אותן שתי תכונות בכל פעם). ניתן לשרטט את הנתונים על מערכת צירים קרטזית, כך שהגודל של אחת התכונות הוא שיעור x – המרחק מהציר האנכי – והגודל האחר הוא שיעור y – המרחק מהציר האופקי. עבור שרטוט כזה, רגרסיה ליניארית פשוטה מבקשת לתאר את אוסף הנקודות באמצעות קו מגמה ישר אחד, כך שהמרחק בין הנקודות לקו הוא הקטן ביותר האפשרי (במובן מסוים, שיוסבר בהמשך).
באופן יותר פורמלי, עבור מדגם דו-ממדי, – כך ש-x נקרא המשתנה המנבא, או המשתנה הבלתי תלוי, ו-y נקרא משתנה התוצאה, או המשתנה התלוי – ביצוע הרגרסיה מסתכם במציאת פונקציה ליניארית () שאמורה לנבא, בדיוק גבוה ככל הניתן, את ערכי המשתנה התלוי כפונקציה של המשתנה הבלתי תלוי. שם התואר "פשוטה" מתייחס לכך שמשתנה התוצאה מוסבר באמצעות משתנה מסביר יחיד.
שיטות רגרסיה שונות
מקובל להשתמש בשיטת הריבועים הפחותים הרגילים (אנ') (OLS) המגדירה את גודל השגיאה בין קו התחזית (קו הרגרסיה) לבין כל אחת מנקודות המדגם לפי ריבוע השארית שלה (דהיינו, המרחק האנכי בין הנקודה לבין הקו המותאם), והמטרה היא לצמצם ככל הניתן את סכום השאריות בריבוע.
בין שיטות הרגרסיה האחרות שניתן להשתמש בהן, במקום שיטת הריבועים הפחותים, ניתן למנות את שיטת הסטיות המוחלטות הפחותות (אנ') (ממזערת את סכום הערכים המוחלטים של השאריות) ואת אומדן Theil-Sen (אנ') (הבוחר קו שהשיפוע שלו הוא החציון של השיפועים שנקבע על ידי זוגות של נקודות המדגם). גם רגרסיית דמינג (אנ') מוצאת קו שמתאים לקבוצה של מדגם דו-ממדי, אבל (בניגוד לשיטות הקודמות שהוצגו עד כה) היא איננה באמת רגרסיה ליניארית פשוטה, כי הוא לא מחלקת את המשתנים למשתנה תלוי ובלתי-תלויה, ויכול גם להתאים לנתונים קו אנכי.
שאר המאמר מתייחס לרגרסיה בשיטת הריבועים הפחותים הרגילים. בתרחיש זה, השיפוע של הקו המותאם שווה למכפלה של מתאם פירסון בין המשתנים עם היחס בין סטיות התקן שלהם. בנוסף, החותך של קו המגמה מתקבל כך שהקו יעבור דרך מרכז המסה של נקודות הנתונים.[5]
התאמת קו הרגרסיה
באופן פשטני, ניתן להניח קשר בין המשתנה הבלתי תלוי והמשתנה התלוי אשר נתון בנוסחה:
המתארת ישר עם שיפוע ו-חותך . הבעיה במודל כזה היא שבאופן כללי, קשר כזה עשוי שלא להתקיים בדיוק עבור האוכלוסייה הכללית של המשתנים הבלתי תלויים והתלויים. הסטיות בין הערך שמתקבל מהנוסחה לבין הערך האמיתי נקראות "שגיאות" (אנ'). נניח שנצפו זוגות של נתונים, . ניתן לתאר את הקשר הבסיסי בין לבין הכולל את איבר השגיאה הזה, , בנוסחה:
קשר זה בין הפרמטרים האמתיים (אך לא נצפים) לבין הנתונים נקרא מודל רגרסיה ליניארית.
המטרה היא למצוא שני אומדנים, ו-, עבור הפרמטרים ו- (בהתאמה), אשר יספקו התאמה לנקודות הנתונים, כך שההתאמה תהיה "מיטבית" במובן מסוים. כאמור לעיל, יש יותר מדרך אחת להגדיר את טיב ההתאמה, אבל לשם ההמשך תוגדר ההתאמה המיטבית בשיטת הריבועים הפחותים: על קו המגמה למזער את סכום השאריות בריבוע, (ההפרשים בין הערכים הנצפים והערכים החזויים של המשתנה התלוי y), שכל אחד מהם נתון בנוסחה:
עבור ו כלשהם.
במילים אחרות, ו- פותרים את בעיית האופטימיזציה הבאה:
כאשר בנקודות אנחנו עושים פישוט אלגברי לביטוי. לכן נקבל סה"כ:
כאן הצגנו
על ידי החלפה של הביטויים לעיל עבור ו ל
נקבל
זה מראה ש-rxy הוא השיפוע של קו הרגרסיה של נקודות הנתונים הסטנדרטיות (ושהקו הזה עובר דרך המקור).
נראה כי נקבל:
מקדם המתאם ("R בריבוע") שווה ל כאשר המודל הוא ליניארי עם משתנה בלתי תלוי בודד. ראה מקדם מתאם לדוגמה לפרטים נוספים.
רגרסיה ליניארית פשוטה ללא חותך (רגרסור בודד)
לפעמים ראוי להכריח את קו הרגרסיה לעבור דרך המוצא, כי מניחים ש - ו- הם פרופורציונליים. עבור המודל ללא החותך, , אומדן OLS עבור β מפושט ל-
שימוש בהתמרה נותנת את הרגרסיה דרך :
כאשר הם השונות המשותפת והשונות (covariance and variance) של נתוני המדגם (ללא תיקון בסל).
הצורה האחרונה שלמעלה מדגימה כיצד הרחקת הקו ממרכז המסה של נקודות הנתונים משפיעה על השיפוע.
מאפיינים מבוססי מודל
תיאור המאפיינים הסטטיסטיים של אומדנים מאומדני הרגרסיה הליניארית הפשוטים מחייב שימוש במודל סטטיסטי. להלן מבוסס על הנחת תקפותו של מודל לפיו האומדנים אופטימליים. אפשר גם להעריך את המאפיינים תחת הנחות אחרות, כגון חוסר הומוגניות, אבל זה נדון במקום אחר.
היעדר הטיה
האומדים ו- הם בלתי-מוטים (unbiased).
כדי לבסס קביעה זו יש להגדיר מסגרת שבה האומדנים הללו הם משתנים אקראיים. אנו מחשיבים את השאריות כמשתנים אקראיים הנדגמים באופן בלתי תלוי מהתפלגות כלשהי עם תוחלת 0. במילים אחרות, עבור כל ערך של , הערך המתאים של נוצר כתגובה ממוצעת בתוספת משתנה אקראי נוסף הנקרא "איבר השגיאה", השווה לאפס בממוצע. לפי פרשנות כזו, האומדנים הקטנים ביותר בריבועים ו יהיו עצמם משתנים אקראיים שהאמצעים שלהם ישתווה ל"ערכים האמתיים" . זוהי ההגדרה של אומדן חסר הטיה.
רווחי סמך
הנוסחאות שניתנו בסעיף הקודם מאפשרות לחשב את האומדים הנקודתיים של α ו-β - כלומר, המקדמים של קו הרגרסיה עבור קבוצת הנתונים הנתונה. עם זאת, הנוסחאות הללו אינן אומרות לנו עד כמה ההערכות מדויקות, כלומר, כמה האומדנים ו להשתנות ממדגם למדגם עבור גודל המדגם שצוין. רווחי סמך נוצרו כדי לתת קבוצה סבירה של ערכים לאומדנים שיכולים להיות אם יחזור על הניסוי מספר רב מאוד של פעמים.
השיטה הסטנדרטית לבניית רווחי סמך עבור מקדמי רגרסיה ליניארית מסתמכת על הנחת הנורמליות, המוצדקת אם אחת מהן:
השגיאות ברגרסיה מתפלגות נורמלית (מה שנקרא "הנחת רגרסיה קלאסית"), או
מספר התצפיות n גדול מספיק, ובמקרה זה האומד (estimator) מתפלג נורמלית בערך.
על פי ההנחה הראשונה לעיל, זו של נורמליות איברי השגיאה, האומדן של מקדם השיפוע יתחלק באופן נורמלי עם ממוצע β ושונות כאשר σ2 היא השונות של איברי השגיאה (ראה הוכחות הכוללות ריבועים קטנים רגילים ). באותו זמן סכום השיירים בריבוע Q מתחלק באופן יחסי ל - χ2 עם n − 2 דרגות חופש, ובאופן בלתי תלוי מ . זה מאפשר לנו לבנות ערך t
כאשר
היא "שגיאת התקן" של האומד .
לערך t זה יש התפלגות t t של סטודנט עם n − 2 דרגות חופש. באמצעותו נוכל לבנות רווח סמך עבור β:
ברמת ביטחון (1 − γ), שבו הוא ה quantile של התפלגות tn−2. לדוגמה, אם γ = 0.05 אז רמת הביטחון היא 95%.
באופן דומה, רווח הסמך עבור מקדם החותך α ניתן על ידי
ברמת ביטחון (1 − γ ), שבו
רווחי הסמך עבור α ו-β נותנים לנו את הרעיון הכללי היכן יש סבירות גבוהה ביותר להיות מקדמי רגרסיה אלו. לדוגמה, ברגרסיית חוק האוקון המוצגת כאן, ההערכות הנקודתיות הן
רווחי הסמך של 95% לאומדנים אלה הם
על מנת לייצג מידע זה בצורה גרפית, בצורת פסי הביטחון סביב קו הרגרסיה, יש להתקדם בזהירות ולהתחשב בהתפלגות המשותפת של האומדנים. ניתן להראות [8] שברמת ביטחון (1-γ ) לרצועת הביטחון יש צורה היפרבולית הניתנת על ידי המשוואה
כאשר המודל הניח ש , השגיאה הסטנדרטית של המדרון הופכת ל:
עם:
הנחה אסימפטוטית
ההנחה השנייה החלופית קובעת שכאשר מספר הנקודות במערך הנתונים "גדול מספיק", חוק המספרים הגדוליםומשפט הגבול המרכזי הופכים לישימים, ואז ההתפלגות של האומדנים היא נורמלית בקירוב. בהנחה זו כל הנוסחאות שנגזרו מהסעיף הקודם נשארות תקפות, למעט החריג היחיד שהquantile t*n −2 של התפלגות t-student מוחלף ב*quantile q של ההתפלגות הנורמלית הסטנדרטית.
דוגמה מספרית
במערך הנתונים להלן מופיע משקלן הממוצע של נשים כפונקציה של גובהן, במדגם של נשים אמריקאיות בגילאי 30–39. על אף שהמאמר של OLS טוען שיהיה נכון יותר להפעיל רגרסיה ריבועית עבור נתונים אלה, מודל הרגרסיה הליניארי הפשוט מיושם כאן במקום זאת.
גובה (מ'), xi
1.47
1.50
1.52
1.55
1.57
1.60
1.63
1.65
1.68
1.70
1.73
1.75
1.78
1.80
1.83
מסה (ק"ג), yi
52.21
53.12
54.48
55.84
57.20
58.57
59.93
61.29
63.11
64.47
66.28
68.10
69.92
72.19
74.46
1
1.47
52.21
2.1609
76.7487
2725.8841
2
1.50
53.12
2.2500
79.6800
2821.7344
3
1.52
54.48
2.3104
82.8096
2968.0704
4
1.55
55.84
2.4025
86.5520
3118.1056
5
1.57
57.20
2.4649
89.8040
3271.8400
6
1.60
58.57
2.5600
93.7120
3430.4449
7
1.63
59.93
2.6569
97.6859
3591.6049
8
1.65
61.29
2.7225
101.1285
3756.4641
9
1.68
63.11
2.8224
106.0248
3982.8721
10
1.70
64.47
2.8900
109.5990
4156.3809
11
1.73
66.28
2.9929
114.6644
4393.0384
12
1.75
68.10
3.0625
119.1750
4637.6100
13
1.78
69.92
3.1684
124.4576
4888.8064
14
1.80
72.19
3.2400
129.9420
5211.3961
15
1.83
74.46
3.3489
136.2618
5544.2916
24.76
931.17
41.0532
1548.2453
58498.5439
ישנן n = 15 נקודות במערך הנתונים הזה. חישובי ידיים יתחילו על ידי מציאת חמשת הסכומים הבאים:
כמויות אלה ישמשו לחישוב האומדנים של מקדמי הרגרסיה, ושגיאות התקן שלהם.
השברון 0.975 של התפלגות t-student עם 13 דרגות חופש הוא , ולפיכך רווחי הסמך של 95% עבור α ו-β הם
דוגמה זו גם מדגימה שחישובים מתוחכמים לא יתגברו על השימוש בנתונים שהוכנו בצורה גרועה. הגבהים ניתנו במקור באינצ'ים, והוסבו לסנטימטר הקרוב ביותר. מכיוון שההמרה הציגה שגיאת עיגול, זו אינה המרה מדויקת. ניתן לשחזר את האינצ'ים המקוריים על ידי Round(x/0.0254) ולאחר מכן להמיר מחדש לשיטה מטרית ללא עיגול: אם זה נעשה, התוצאות הופכות
Bangdiwala, S. I. (2018). Regression: simple linear. International journal of injury control and safety promotion, 25(1), 113-115.
Daniya, T., Geetha, M., Kumar, B. S., & Cristin, R. (2020). Least square estimation of parameters for linear regression. International Journal of Control and Automation, 13(2), 447-452.
Hanley, J. A. (2016). Simple and multiple linear regression: sample size considerations. Journal of clinical epidemiology, 79, 112-119.
^Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285
Politics of Iraq Member State of the Arab League Constitution Government Federal government President (list) Abdul Latif Rashid Prime Minister (list) Mohammed Shia' Al Sudani Cabinet Current cabinet Legislature Council of Representatives Speaker: Mohamed al-Halbousi Judiciary Supreme Court Administrative divisions Governorates (provinces) Districts Kurdistan Region Kurdistan Regional Government Kurdistan Parliament Elections Political parties Electoral Commission Recent elections Parliamentar...
Jewish-American speechwriter and lawyer For people with similar names, see Sara Horowitz (disambiguation). Sarah HurwitzBornWayland, MassachusettsAlma materHarvard UniversityHarvard Law SchoolOccupationSpeechwriterWebsiteSarahHurwitz.net Sarah Hurwitz is an American speechwriter. A senior speechwriter for President Barack Obama in 2009 and 2010, and head speechwriter for First Lady Michelle Obama from 2010 to 2017,[1][2] she was appointed to serve on the United States Hol...
San Juan del Cesar Municipio Iglesia de San Juan Bautista en San Juan del Cesar. BanderaEscudo San Juan del CesarLocalización de San Juan del Cesar en Colombia San Juan del CesarLocalización de San Juan del Cesar en La GuajiraCoordenadas 10°46′15″N 73°00′11″O / 10.770833333333, -73.003055555556Entidad Municipio • País Colombia Colombia • Departamento La GuajiraAlcalde Álvaro Díaz[1] (2020-2023)Eventos históricos • Fundaci...
Widi PuradiredjaLahir10 Januari 1981 (umur 42)BekasiPekerjaanmusisiKerabatEq Puradiredja (Paman) Widi Puradiredja atau dikenal sebagai Widi Maliq & D'Essentials (lahir 10 Januari 1981) merupakan seorang musisi berkebangsaan Indonesia berdarah Sunda yang juga merupakan drummer dari grup musik Maliq & D'Essentials. Pada tahun 2002, bersama Angga, Indah, Dimi, Satrio, Ifa, Jawa dan Amar ia ikut mendirikan grup musik yang bernama Maliq & D'Essentials. Diskografi 1st Maliq & D...
Rata Blanca Allgemeine Informationen Herkunft Buenos Aires, Argentinien Genre(s) Hard Rock, Heavy Metal Gründung 1985, 2000 Auflösung 1998 Website www.rataweb.com.ar Gründungsmitglieder Gitarre Walter Giardino (1985–1998, seit 2000) Schlagzeug Gustavo Rowek (1985–1998) Gesang Rodolfo Cava (1985–1986) Bass Yulie Ruth (1985) Aktuelle Besetzung Gitarre Walter Giardino (1985–1998, seit 2000) Gesang Adrién Barilari (1988–1993, seit 2000) Bass Guillermo Sanchéz (1988–1998, seit 200...
American magazine For other uses, see High Time (disambiguation). High TimesCover image of High Times' premiere issue, Summer 1974EditorEllen Holland (Mar. 2022–present)VP, ContentJon Cappetta (2019-present)Former editorsEd Dwyer (founding editor)Larry Sloman[1] (1979–1984)Steven Hager (1988–2003, 2006–c. 2013)Dan Skye (2014[2]–2020)Jamie Solis (2020–2022)CategoriesRecreational drugsFrequencyMonthlyCirculation500,000 (1987)PublisherTrans-High Corporation (1974...
Brazilian footballer In this Portuguese name, the first or maternal family name is Pereira and the second or paternal family name is Santos. Tayla Personal informationFull name Tayla Carolina Pereira dos Santos[1]Date of birth (1992-05-09) 9 May 1992 (age 31)Place of birth Mongaguá, Brazil[2]Height 1.74 m (5 ft 9 in)[1]Position(s) DefenderTeam informationCurrent team SantosNumber 2Senior career*Years Team Apps (Gls)2008–2009 Santos 2010–201...
Resolusi 428Dewan Keamanan PBBPenyerbuan perbatasan Afrika SelatanTanggal6 Mei 1978Sidang no.2.078KodeS/RES/428 (Dokumen)TopikAngola-Afrika SelatanRingkasan hasil15 mendukungTidak ada menentangTidak ada abstainHasilDiadopsiKomposisi Dewan KeamananAnggota tetap Tiongkok Prancis Britania Raya Amerika Serikat Uni SovietAnggota tidak tetap Bolivia Kanada Jerman Barat Gabon India Kuwait Mauritania Nigeria Cekoslowakia&...
Hak LGBT di Islandia Lokasi Hak LGBT di Islandia (hijau tua)di Eropa (abu-abu tua) – [Legenda]Aktivitas sesama jenis legal?Legal sejak 1940,batas umur disamakan tahun 1992TranseksualTransgender boleh mengubah gender secara hukum tanpa operasiPengakuan pasangan sesama jenisPernikahan sesama jenis sejak tahun 2010Adopsi anak oleh pasangan sesama jenisAdopsi diperbolehkanKarier militerTidak memiliki angkatan bersenjataPerlindungan dari diskrimina...
Overview of secondary education in Italy Secondary education in Italy lasts eight years and is divided in two stages: scuola secondaria di primo grado (lower secondary school), also known as scuola media, corresponding to the ISCED 2011 Level 2, middle school and scuola secondaria di secondo grado (upper secondary school), which corresponds to the ISCED 2011 Level 3, high school. The middle school lasts three years from the age of 11 to age 14, and the upper secondary from 14 to 19. Scuola se...
У этого термина существуют и другие значения, см. Назайкинский. Евгений Владимирович Назайкинский Дата рождения 12 августа 1926(1926-08-12)[1] Место рождения Новая Малыкла, Мелекесский уезд, Ульяновская губерния, СССР Дата смерти 3 апреля 2006(2006-04-03) (79 лет) Место смерти Москва, Р...
В Википедии есть статьи о других людях с такой фамилией, см. Хилл. Джеремайя Хиллангл. Jeremiah Hill Руна Позиция Разыгрывающий защитник Рост 188 см Вес 77 кг Гражданство США Камерун Дата рождения 4 сентября 1995(1995-09-04) (28 лет) Место рождения Ричмонд-Хилл, Джорджия, США Коллед...
2000 greatest hits album by Three Dog Night20th Century Masters – The Millennium Collection: The Best of Three Dog NightGreatest hits album by Three Dog NightReleasedMay 16, 2000 (2000-05-16)GenreRockLength40:25LabelMCA RecordsProducerAndy McKaie, Mike RagognaThree Dog Night chronology Celebrate: The Three Dog Night Story, 1965–1975(1993) 20th Century Masters – The Millennium Collection: The Best of Three Dog Night(2000) The Complete Hit Singles(2004) Professional...
Telecommunications holding company This article relies excessively on references to primary sources. Please improve this article by adding secondary or tertiary sources. Find sources: GoNetSpeed – news · newspapers · books · scholar · JSTOR (November 2022) (Learn how and when to remove this template message) GoNetSpeedTraded asformerly Nasdaq: OTELIndustryTelecommunicationsFounded1998HeadquartersOneonta, Alabama, United StatesServicesFixed line te...
La Constitución de los Estados Unidos fue adoptada en 1787, entrando en vigencia en 1789. Todavía se encuentra en vigor, lo que hace de ella la constitución escrita de mayor antigüedad que se encuentra todavía vigente en el mundo. La constitución reemplazó a los débiles Artículos de la Confederación, para formar una unión que fuera lo suficientemente fuerte para sobrevivir a los peligros del mundo y a la vez proteger la libertad de los estados y de los ciudadanos. Artículos de la ...
Father of King Arthur in Arthurian legend Uther redirects here. For other uses, see Uther (disambiguation). This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Uther Pendragon – news · newspapers · books · scholar · JSTOR (April 2021) (Learn how and when to remove this template message) Fictional character King ...
Littorine Names Systematic IUPAC name (1R,3r,5S)-8-Methyl-8-azabicyclo[3.2.1]octan-3-yl (R)-2-hydroxy-3-phenylpropanoate Identifiers CAS Number 21956-47-8 Y 3D model (JSmol) Interactive image ChemSpider 391307 PubChem CID 443005 UNII 19Q4V37F3R Y CompTox Dashboard (EPA) DTXSID20944553 InChI InChI=1S/C17H23NO3/c1-18-13-7-8-14(18)11-15(10-13)21-17(20)16(19)9-12-5-3-2-4-6-12/h2-6,13-16,19H,7-11H2,1H3/t13-,14+,15+,16-/m1/s1Key: FNRXUEYLFZLOEZ-FXUDXRNXSA-N SMILES CN1[C@@H]2C[C@@H](O...