Похибки та залишки

У статистиці та оптимізації по́хибки (англ. errors) та за́лишки (англ. residuals) є тісно пов'язаними мірами відхилення спостережуваного значення елементу вибірки від його «теоретичного значення», які легко сплутати. Похибка (або збу́рення) спостережуваного значення є відхиленням цього спостережуваного значення від (не спостережуваного) істинного значення досліджуваної величини (наприклад, середнього значення генеральної сукупності), а залишком спостережуваної змінної є різниця між цим спостережуваним значенням та оцінкою значення досліджуваної величини (наприклад, середнім значенням вибірки). Найважливішою ця відмінність є в регресійному аналізі, де вона приводить до поняття стьюдентизованих залишків[en].

Введення

Припустімо, що є ряд спостережень з одновимірного розподілу[en], і ми хочемо оцінити середнє значення цього розподілу (так звану модель зсуву). В цьому випадку похибки є відхиленнями спостережень від середнього значення сукупності, а залишки є відхиленнями спостережень від середнього значення вибірки.

Статистична похибка (або збурення) є величиною, на яку спостереження відрізняється від його математичного сподівання, коли останнє ґрунтується на всій сукупності, з якої було випадково вибрано об'єкт статистичного спостереження. Наприклад, якщо середній зріст в загальній сукупності 21-річних чоловіків є 1.75 метрів, і один випадково вибраний чоловік має зріст 1.80 метрів, то «похибка» є 0.05 метрів; якщо випадково вибраний чоловік має зріст 1.70 метрів, то «похибка» є -0.05 метрів. Математичне сподівання, будучи середнім арифметичним всієї сукупності, є зазвичай неспостережним, і отже статистичну похибку також неможливо спостерігати.

З іншого боку, залишком (або відхиленням допасованості) є спостережувана оцінка неспостережуваної статистичної похибки. Розгляньмо попередній приклад зі зростами чоловіків, і припустімо, що ми маємо випадкову вибірку з n людей. Гарною оцінкою середнього значення сукупності могло би слугувати вибіркове середнє. В такому разі ми маємо:

  • Відмінність зросту кожного чоловіка у вибірці від неспостережуваного середнього значення сукупності є статистичною похибкою, тоді як
  • Відмінність зросту кожного чоловіка у вибірці від спостережуваного середнього значення вибірки є залишком.

Зауважте, що сума залишків у випадковій вибірці обов'язково є нульовою, і тому залишки є обов'язково не незалежними. З іншого боку, статистичні похибки є незалежними, і їхня сума в межах випадкової вибірки майже напевно є ненульовою.

Можна стандартизувати статистичні похибки (особливо нормального розподілу) за z-оцінкою (або «стандартизованою оцінкою»), і стандартизувати залишки за t-статистикою[en], або, загальніше, стьюдентизованими залишками[en].

В одновимірних розподілах

Якщо ми розглядаємо нормально розподілену сукупність із середнім значенням μ та стандартним відхиленням σ, і вибираємо осіб незалежно, то ми маємо

і середнє значення вибірки

є випадковою змінною, розподіленою таким чином:

Тоді статистичні похибки є

а залишки є

Сума квадратів статистичних похибок, поділена на σ2, має розподіл хі-квадрат з n ступенями вільності:

Проте ця величина не є спостережною. З іншого боку, сума квадратів залишків є спостережною. Частка від ділення цієї суми на σ2 має розподіл хі-квадрат з лише n − 1 ступенями вільності:

Ця різниця між n та n − 1 ступенями вільності має наслідком поправку Бесселя для оцінки дисперсії вибірки із сукупності з невідомим середнім значенням та невідомою дисперсією, хоча якщо середнє значення є відомим, то поправка не потрібна.

Зауваження

Примітно, що може бути показано, наприклад, за допомогою теореми Басу[en], що сума квадратів залишків[en] та середнє значення вибірки є незалежними одне від одного. Цей факт, а також наведені вище нормальний та хі-квадратичний розподіли, формують основу обчислень із залученням дробу

який, як правило, називають t-статистикою[en].

Розподіли ймовірності чисельника та знаменника окремо залежать від значення неспостережуваного стандартного розподілу сукупності σ, але σ з'являється як в чисельнику, так і в знаменнику, і скорочується. Це вдача, оскільки це означає, що, незважаючи на те, що ми не знаємо σ, ми знаємо розподіл імовірності цієї частки: вона має t-розподіл Стьюдента з n − 1 ступенями вільності. Отже, ми можемо застосовувати цю частку для знаходження довірчого інтервалу μ.

Регресії

В регресійному аналізі відмінність між похибками та залишками є тонкою та важливою, і приводить до поняття стьюдентизованих залишків[en]. Якщо дано неспостережувану функцію, що ставить у відповідність незалежну змінну до залежної, — скажімо, лінію, — то відхилення спостережень залежної змінної від цієї функції є неспостережуваними похибками. Якщо запустити регресію на якихось даних, то відхилення спостережень залежної змінної від допасованої функції є залишками.

Проте термінологічна різниця проявляється у вираженні середньоквадратичної похибки (СКП, англ. MSE). Середньоквадратична похибка регресії є числом, обчисленим як сума квадратів обчислених залишків, а не неспостережуваних похибок. Якщо цю суму квадратів поділити на n, кількість спостережень, то результатом буде середнє значення квадратичних залишків. Оскільки це є упередженою оцінкою дисперсії неспостережуваних похибок, упередження усувається множенням середнього значення квадратичних залишків на n / df, де df є числом ступенів вільності (n мінус кількість оцінюваних параметрів). Цей метод дає такий точно результат, як і метод із застосуванням середнього значення квадратичних похибок. Крайня формула служить неупередженою оцінкою дисперсії неспостережуваних похибок, і називається середньоквадратичною похибкою.[1]

Інший метод обчислення середнього квадрату похибки при аналізі дисперсії лінійної регресії із застосуванням такого прийому, як застосовується в дисперсійному аналізі (вони однакові, оскільки дисперсійний аналіз є одним з типів регресії), сума квадратів залишків (відома також як сума квадратів похибки) ділиться на ступені вільності (де ступені вільності дорівнюють n-p-1, де p є числом «параметрів», або провісників, що використовуються в моделі, тобто кількістю змінних у рівнянні регресії). Також можна обчислювати середній квадрат моделі діленням суми квадратів моделі мінус ступені вільності, що є просто кількістю параметрів. Тоді значення F може обчислюватися діленням СК(моделі) на СК(похибки), і ми можемо визначати значущість (ось для чого починати з середніх квадратів.).[2]

Тим не менш, через поведінку процесу регресії розподіли залишків у різних точках даних (вхідного масиву) можуть різнитися, навіть якщо самі похибки мають ідентичні розподіли. Конкретно, в лінійній регресії, в якій похибки мають ідентичні розподіли, мінливість залишків входів у середині області визначення буде вищою, ніж мінливість залишків на її краях:[джерело?] лінійна регресія допасовується до крайових точок краще, ніж до середніх. Це відбивається також і на функціях впливу різних точок даних на коефіцієнти регресії: крайові точки мають більший вплив.

Таким чином, для порівняння залишків на різних входах необхідне регулювання залишків очікуваною мінливістю залишків, що називається стюдентизацією. Це особливо важливо у випадку виявлення викидів: великий залишок може бути очікуваним в середині області визначення, але розглядатися як викид на її краях.

Інші застосування слова «похибка» у статистиці

Термін «похибка» при обговоренні в попередніх розділах застосовується в сенсі відхилення значення від гіпотетичного неспостережуваного значення. У статистиці зустрічаються щонайменше два інших застосування, і обидва мають на увазі похибки спостережуваного передбачення:

Середньоквадратична похибка, або середня квадратична похибка (скорочується як СКП, англ. MSE) та кореневе середньоквадратичне відхилення[en] (КСКП, англ. RMSE) розглядають суму, на яку значення, передбачені оцінювачем, відрізняються від оцінюваних значень (зазвичай за межами вибірки, з якої робиться оцінка моделі).

Сума квадратичних похибок (англ. sum of squared errors, SSE або SSe), розглядає залишкову суму квадратів[en] (суму квадратичних залишків) регресії; вона є сумою квадратів відхилень фактичних значень від передбачених в межах вибірки, що застосовується для оцінки. Аналогічно, сума абсолютних похибок (англ. sum of absolute errors, SAE) розглядає суму модулів значень залишків, що мінімізується в підході до регресії методом найменших модулів[en].

Див. також

Примітки

  1. Steel, Robert G. D.; Torrie, James H. (1960). Principles and Procedures of Statistics, with Special Reference to Biological Sciences. McGraw-Hill. с. 288. (англ.)
  2. Zelterman, Daniel (2010). Applied linear models with SAS (вид. [Online-Ausg.].). Cambridge: Cambridge University Press. ISBN 9780521761598. (англ.)

Література

Read other articles:

Census-designated place in North Carolina, United StatesSalvo, North CarolinaCensus-designated placeLocation in Dare County and the state of North Carolina.Coordinates: 35°32′56″N 75°28′8″W / 35.54889°N 75.46889°W / 35.54889; -75.46889CountryUnited StatesStateNorth CarolinaCountyDareNamed forArtillery discharge following the American Civil WarArea[1] • Total0.97 sq mi (2.51 km2) • Land0.97 sq mi (2.51...

 

Harzer Schmalspurbahnen GmbH Basisinformationen Webpräsenz www.hsb-wr.de Bezugsjahr 2018 Eigentümer Landkreis Harz, Landkreis Nordhausen, Wernigerode, Nordhausen, Harzgerode, Quedlinburg, Oberharz am Brocken, Harztor, Braunlage Tourismus GmbH[1][2] Rechtsform GmbH Sitz Wernigerode Gründung 19. November 1991[3] Aufsichtsrat Thomas Balcerowski (Vorsitzender seit 2022) Geschäftsführung Katrin Müller (seit 01.07.2023) Mitarbeiter 262 Umsatz EUR 17,789 Mio.&...

 

Presidente de laRepública Popular China中华人民共和国主席  (chino)Zhōnghuá Rénmín Gònghéguó ZhǔxíBandera de la República Popular ChinaEmblema nacional de la República Popular China Xi Jinping Desde el 14 de marzo de 2013Ámbito República Popular ChinaSede PekínResidencia ZhongnanhaiTratamiento Señor presidente(formal) Su excelencia(protocolario, fuera de la República Popular China)Salario ¥150,000 CNY[1]​(anuales)Duración 5 años, sin restricción en...

Асоціація жінок у математиціАбревіатура AWM(англ.)Тип жіноча організаціяdпрофесійна асоціаціяЗасновник Mary W. GraydGloria OlivedAnnie SeldendAlice T. SchaferdЗасновано 1971Сфера математикаКраїна  СШАШтаб-квартира ПровіденсЧленство 5200президент Амі Радунська Вебсайт: awm-math.org Асоціація жінок

 

Bagian dari seri PolitikDemokrasi  Portal Politiklbs Demokrasi Athena yaitu bahwa orang tidak memiliki perwakilan untuk memberikan suara atas nama mereka melainkan langsung memberikan suara untuk anggota legislatif dan eksekutif. Partisipasinya dilaksanakan tertutup dan besar-besaran.[1]Sommerstein, A.H.; S. Halliwell, J. Henderson, B. Zimmerman, ed. (1993). Tragedy, Comedy and the Polis. Levante=Cleisthenes. Pemeliharaan CS1: Banyak nama: editors list (link) Catatan kak...

 

العلاقات السريلانكية الفانواتية سريلانكا فانواتو   سريلانكا   فانواتو تعديل مصدري - تعديل   العلاقات السريلانكية الفانواتية هي العلاقات الثنائية التي تجمع بين سريلانكا وفانواتو.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولت...

Cet article est une ébauche concernant une chanson et le Concours Eurovision de la chanson. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Making Your Mind Up Chanson de Bucks Fizz au Concours Eurovision de la chanson 1981 Sortie 1981 Auteur-compositeur Andy Hill, John Danter Chansons représentant le Royaume-Uni au Concours Eurovision de la chanson Love Enough for Two(1980) One Step Further(1982) Chansons...

 

Amir Kulālامیر کلالBornShams ud-Dīn1278Bukhara, Chagatai KhanateDied1370 (aged 91–92)Sokhar, present-day UzbekistanNationalityPersian Part of a series on IslamSufismTomb of Abdul Qadir Gilani, Baghdad, Iraq Ideas Abdal Al-Insān al-Kāmil Baqaa Dervish Dhawq Fakir Fana Hal Haqiqa Ihsan Irfan Ishq Karamat Kashf Lataif Manzil Ma'rifa Maqam Murid Murshid Nafs Nūr Qalandar Qutb Silsila Sufi cosmology Sufi metaphysics Sufi philosophy Sufi poetry Sufi psychology Salik Tazkiah ...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (مايو 2022) تتضمن هذه الصورة ألوانًا حقيقية، أُلتقطت في 30 يوليو 2009، توضح غبار كثيف يهب باتجاه الجنوب الشرقي فوق السهول الفيضية لنهري دجلة والفرات والخليج العربي. يكون ...

Villa Foscari genannt La Malcontenta am Brenta-Kanal Villa Foscari genannt La Malcontenta ist der Name einer in Mira an einem der Mündungskanäle des Brenta gelegenen Villa. Sie wurde zwischen 1550 und 1560 nach Plänen des italienischen Architekten Andrea Palladio erbaut und gehört zu den bedeutendsten Sehenswürdigkeiten im Umland von Venedig. Inhaltsverzeichnis 1 Lage 2 Geschichte 3 Name 4 Architektur 5 Innendekoration 6 Palladio über die Villa Malcontenta 7 Literatur 8 Weblinks 9 Einze...

 

German footballer Thomas Häßler Häßler in 2015Personal informationFull name Thomas Jürgen HäßlerDate of birth (1966-05-30) 30 May 1966 (age 57)Place of birth West Berlin, West GermanyHeight 1.66 m (5 ft 5 in)Position(s) MidfielderYouth career1976–1979 BFC Meteor 061979–1984 Reinickendorfer FüchseSenior career*Years Team Apps (Gls)1984–1990 1. FC Köln 149 (17)1990–1991 Juventus 32 (1)1991–1994 Roma 88 (11)1994–1998 Karlsruher SC 118 (28)1998–1999 Boru...

 

German politician (born 1975) Bonde in 2013 Alexander Bonde (born 12 January 1975 in Freiburg im Breisgau) is a German politician of Alliance 90/The Greens who has been serving as the secretary-general of the German Federal Environment Foundation (DBU) since 2018.[1] Early life and education In 1992 and 1993 Bonde was an exchange student at Kahuku High School (Oahu, Hawaii, USA). One of his classmates was Jack Johnson. Political career Member of the Bundestag, 2002–2011 From 2002 to...

この記事に雑多な内容を羅列した節があります。事項を箇条書きで列挙しただけの節は、本文として組み入れるか、または整理・除去する必要があります。(2023年8月) この記事には、百科事典には本来必要のないファンサイト的な内容の記述が含まれています。特定の人物およびグループに対しての、百科事典に相応しくない記述や内容の過剰な記述は歓迎されませ...

 

2023 Indian filmBaangTheatrical release posterDirected bySree Ganesh ParashuramWritten bySree Ganesh ParashuramRitvik MuralidharProduced byPooja Vasant KumarStarringShanvi SrivastavaRaghu DixitSathvika AppaiahCinematographyUdith LeelaEdited byVijeth ChandraMusic byRitvik MuralidharProductioncompanyUK ProductionsRelease date 18 August 2023 (2023-08-18) CountryIndiaLanguageKannada Baang is a 2023 Indian Kannada-language action black comedy film directed by Sree Ganesh Parashuram ...

 

British sports-reality television show Not to be confused with The Game (British TV series). The GamesGenreReality sports game showPresented byJamie Theakston (2003–2006)Holly Willoughby (2022)Freddie Flintoff (2022)StarringJayne Middlemiss (2003–2005)Kirsty Gallacher (2006)Alex Scott (2022)Yung Filly (2022)Voices ofDavid Goldstrom (2003–2006)Simon Brotherton (2022)Chris Kamara (2022)Theme music composerDobs Vye (2003–2006)A-Mnemonic (2022)Country of originUnited KingdomOriginal langu...

NatixisIndustriperbankanDidirikan2006KantorpusatPrancisWilayah operasiSeluruh duniaTokohkunciLaurent Mignon (CEO), François Perol (Chairman)Pendapatan$21,6 miliarTotal aset$702,9 miliarSitus webhttp:// www.natixis.com Natixis adalah sebuah perusahaan asal Prancis yang bergerak di sektor finansial.[1] Fokus utama Natixis adalah industri perbankan.[1] Pada tahun 2014, Natixis mendapatkan penjualan sebesar AS$21,6 miliar dengan total keuntungan AS$1,2 miliar.[1] Pada tah...

 

Dialects including French and its close relatives This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Langues d'oïl – news · newspapers · books · scholar · JSTOR (May 2017) (Learn how and when to remove this template message) OïlLangues d'oïl, FrenchGeographicdistributionNorthern and central France, southern ...

 

Species of flowering plant Gmelina asiatica Flower Scientific classification Kingdom: Plantae Clade: Tracheophytes Clade: Angiosperms Clade: Eudicots Clade: Asterids Order: Lamiales Family: Lamiaceae Genus: Gmelina Species: G. asiatica Binomial name Gmelina asiaticaLinné Synonyms Bignonia discolor A.Rich. [Illegitimate]Gmelina asiatica f. inermis (Blanco) MoldenkeGmelina asiatica f. lobata MoldenkeGmelina asiatica f. parvifolia (Roxb.) MoldenkeGmelina inermis BlancoGmelina lobata Gaertn...

Fruit that has been preserved by anaerobic fermentation in brine or immersion in vinegar Chanh muối, a type of pickled lime, aging in glass containers Pickled fruit refers to fruit that has been pickled.[1] Pickling is the process of food preservation by either anaerobic fermentation in brine or immersion in vinegar. Many types of fruit are pickled.[1] Some examples include peaches, apples, crabapples, pears, plums, grapes, currants, tomatoes and olives.[1][2]...

 

Public university in Venice, Italy Ca' Foscari University of VeniceLatin: Venetiarum universitas in domo FoscariFormer nameRegia Scuola Superiore di Commercio, Istituto Superiore di Economia e Commercio di VeneziaTypePublicEstablished6 August 1868 (1868-08-06)RectorTiziana LippielloStudents21,000[1]LocationVenice, Veneto, Italy45°26′04″N 12°19′35″E / 45.4345°N 12.3265°E / 45.4345; 12.3265CampusUrbanWebsiteunive.it Ca' Foscari Universi...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!