Оцінка густини

Демонстрація оцінки густини із застосуванням ядрового згладжування: справжню густину, що є сумішшю двох ґаусових розподілів із центрами в 0 та 3, показано суцільною синьою кривою. В кожному кадрі породжено 100 зразків із цього розподілу, показані червоним. Відцентроване на кожному зразкові ґаусове ядро накреслено сірим. Усереднення ґаусіанів видає оцінку густини, показану пунктирною чорною кривою.

Оці́нка густини́ (англ. density estimation) в теорії ймовірностей та статистиці — це побудова оцінки неспостережуваної підлеглої функції густини ймовірності на основі спостережуваних даних. Ця неспостережувана функція густини розглядається як густина, відповідно до якої розподілено велику сукупність, а дані зазвичай розглядаються як випадкова вибірка з тієї сукупності.

Для оцінки густини застосовують ряд підходів, включно з вікном Парцена — Розенблатта та рядом методик кластеризації даних, включно з векторним квантуванням[en]. Найпростішою формою оцінки густини є загрублена гістограма.

Приклад оцінки густини

Ми розглядатимемо записи про випадки діабету. Наступне є дослівною цитатою з опису набору даних:

Сукупність жінок віком щонайменше 21 рік з індіанського роду піма, що живуть поблизу Фініксу в Аризоні, перевірялася на цукровий діабет відповідно до критеріїв Всесвітньої організації охорони здоров'я. Дані було зібрано Національним інститутом діабету та дигестивних та ниркових захворювань США[en]. Ми використали 532 повні записи.[1][2]

В цьому прикладі ми будуємо три оцінки густини для glu (концентрації глюкози в плазмі): одну умовну при наявності діабету, другу умовну при відсутності діабету, та третю безумовну відносно діабету. Умовні оцінки густини потім використовуються для побудови ймовірності діабету в залежності від glu.

Дані glu було отримано з програмного пакету MASS[3] мовою програмування R. В R ?Pima.tr та ?Pima.te дають повний звіт про дані.

Середнім значенням glu у випадках діабету є 143.1, а стандартним відхиленням — 31.26. Середнім значенням glu у випадках не-діабету є 110.0, а стандартним відхиленням — 24.29. З цього ми бачимо, що в даному наборі даних випадки діабету пов'язано з вищими рівнями glu. Це можна зробити яснішим за допомогою графіків оцінюваних функцій густини.

Перший малюнок показує оцінки густини p(glu | diabetes=1), p(glu | diabetes=0), та p(glu). Ці оцінки густини є ядровими оцінками густини із застосуванням ґаусового ядра. Тобто, в кожній точці даних розташовано ґаусову функцію густини, а потім обчислено суму функцій густини над усім діапазоном даних.

Оцінка густини p (glu | diabetes=1) (червона), p (glu | diabetes=0) (синя) та p (glu) (чорна)

З густини glu в залежності від діабету за допомогою правила Баєса ми можемо отримати ймовірність діабету в залежності від glu. Для стислості «diabetes» у цій формулі скорочено до «db.».

Другий малюнок показує оцінювану апостеріорну ймовірність p(diabetes=1 | glu). З цих даних виявляється, що підвищений рівень glu пов'язаний із діабетом.

Оцінка ймовірності p(diabetes=1 | glu)

Сценарій для прикладу

Наступні команди R створять наведені вище малюнки. Ці команди можна ввести до командного запрошення застосуванням копіювання та вставлення.

library(MASS)
data(Pima.tr)
data(Pima.te)

Pima <- rbind (Pima.tr, Pima.te)
glu  <- Pima[, 'glu']

d0 <- Pima[, 'type'] == 'No'
d1 <- Pima[, 'type'] == 'Yes'
base.rate.d1 <- sum(d1) / (sum(d1) + sum(d0))

glu.density    <- density (glu)
glu.d0.density <- density (glu[d0])
glu.d1.density <- density (glu[d1])

glu.d0.f <- approxfun(glu.d0.density$x, glu.d0.density$y)
glu.d1.f <- approxfun(glu.d1.density$x, glu.d1.density$y)

p.d.given.glu <- function(glu, base.rate.d1)
{
    p1 <- glu.d1.f(glu) * base.rate.d1
    p0 <- glu.d0.f(glu) * (1 - base.rate.d1)
    p1 / (p0 + p1)
}

x <- 1:250
y <- p.d.given.glu (x, base.rate.d1)
plot(x, y, type='l', col='red', xlab='glu', ylab='estimated p(diabetes|glu)')

plot(density(glu[d0]), col='blue', xlab='glu', ylab='estimate p(glu), 
     p(glu|diabetes), p(glu|not diabetes)', main=NA)
lines(density(glu[d1]), col='red')

Зауважте, що наведена вище оцінка умовної густини використовує ширини смуг пропускання (англ. bandwidth), що є оптимальними для безумовних густин. Як альтернативу можна застосовувати метод Хола, Расіна та Лі (англ. Hall, Racine and Li, 2004)[4] та пакет R np[5] для автоматичного (керованого даними) вибору ширини смуги пропускання, що є оптимальним для оцінки умовних густин; див. введення до пакету np у начерку про нього.[6] Наступні команди R використовують функцію npcdens() для отримання оптимального згладжування. Зауважте, що реакція "Yes"/"No" є фактором.

library(np)

fy.x <- npcdens(type~glu, nmulti=1, data=Pima)

Pima.eval <- data.frame(type=factor("Yes"),
                        glu=seq(min(Pima$glu), max(Pima$glu), length=250))
 
plot(x, y, type='l', lty=2, col='red', xlab='glu',
     ylab='estimated p(diabetes|glu)')
lines(Pima.eval$glu, predict(fy.x, newdata=Pima.eval), col="blue")
legend(0, 1, c("Unconditional bandwidth", "Conditional bandwidth"),
       col=c("red", "blue"), lty=c(2, 1))

Третій малюнок використовує оптимальне згладжування методом Хола, Расіна та Лі,[4] вказуючи, що ширина смуги пропускання безумовної густини, використана у другому малюнку вище, видає оцінку умовної густини, що може бути дещо недозгладженою.

Оцінена ймовірність p (diabetes=1 | glu): із безумовною шириною смуги пропускання (червона), та з обумовленою (синя)

Див. також

Примітки

  1. Diabetes in Pima Indian Women - R documentation. (англ.)
  2. Smith, J. W., Everhart, J. E., Dickson, W. C., Knowler, W. C. and Johannes, R. S. (1988). R. A. Greenes (ред.). Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. Proceedings of the Symposium on Computer Applications in Medical Care (Washington, 1988). Los Alamitos, CA: IEEE Computer Society Press: 261—265. PMC 2245318. (англ.)
  3. Support Functions and Datasets for Venables and Ripley's MASS. (англ.)
  4. а б Peter Hall; Jeffrey S. Racine; Qi Li (2004). Cross-Validation and the Estimation of Conditional Probability Densities. Journal of The American Statistical Association. 99 (468): 1015—1026. (англ.)
  5. Пакет np — Пакет R, що пропонує низку непараметричних та напівпараметричних ядрових методів, що легко обробляють суміш неперервних, невпорядкованих та впорядкованих типів даних факторів.
  6. Tristen Hayfield; Jeffrey S. Racine. The np Package (PDF). (англ.)

Джерела

Посилання

Read other articles:

Велика Британія Ця стаття є частиною серії статей продержавний лад і устрійВеликої Британії Конституція Правова система Права людини Глава держави Королева (список) Єлизавета II Таємна рада Лорд-голова Таємної ради Кріс Грейлінг Виконавча влада Прем'єр-міністр (список) ...

 

Tadschikistan Kapitän Aktuelles ITF-Ranking 122 Statistik Erste Teilnahme 1997 Davis-Cup-Teilnahmen 15 Bestes Ergebnis Asien/Ozeanien Zone Gruppe II (2003) Ewige Bilanz 34:35 Erfolgreichste Spieler Meiste Siege gesamt Mansur Jahjojew (46) Meiste Einzelsiege Mansur Jahjojew (26) Meiste Doppelsiege Mansur Jahjojew (20) / Sergei Makaschin (20) Bestes Doppel Mansur Jahjojew / Sergei Makaschin (16) Meiste Teilnahmen Sergei Makaschin (55) Meiste Jahre Mansur Jahjojew (12) / Sergei Makaschin (12) L...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (يونيو 2019) فرد سبيرا معلومات شخصية الميلاد سنة 1924  فيينا  الوفاة سنة 2007 (82–83 سنة)  نيويورك  مواطنة الولايات المتحدة  الحياة العملية المهنة مصور  اللغات...

Extreme PitaExtreme Pita in Edmonton, AlbertaFounded1997; 26 years ago (1997) in Waterloo, OntarioFoundersAlex and Mark RechichiHeadquartersRichmond Hill, OntarioNumber of locations175Area servedCanada, United StatesProductsPita wraps, salads, pita pizzasRevenue$45 million (2006)[1]Number of employees2,000ParentExtreme Brandz (1997–2013)MTY Food Group (2013–present)Websiteextremepita.com Extreme Pita is a Canadian-based fast-casual chain, owned by MTY Group. Head...

 

Bahasa HokkienDialek Zhangzhou 漳州話 / 漳州话 (Chiang-chiu-ōa) Pengucapan[tsiaŋ˨ tsiu˨ ua˨]Dituturkan diTiongkok daratan, Taiwan, Singapura, Malaysia, Indonesia dan Filipina.Wilayahkota Zhangzhou, provinsi Fujian bagian selatanPenuturSekitar 4 jutaRumpun bahasaSino-Tibet SinitikMinMin PesisirMin SelatanHokkienHokkienDialek Zhangzhou Kode bahasaISO 639-3–Glottologfuji1236Linguasfer79-AAA-jedLokasi penuturan  Dialek ZhangzhouPeta bahasa lain Artikel ini mengandung simbol...

 

Renaissance-era European chivalric order Society of the Dragon redirects here. Not to be confused with Dragon Society. Order of the DragonSocietas DraconistarumActive1408–16th centuryCountries Kingdom of Hungary Kingdom of Croatia Holy Roman Empire Wallachia Moldavia Crown of Aragon Serbian Despotate League of Lezhë Second Bulgarian Empire Allegiance Holy Roman Empire Holy SeeTypeOrder of chivalryPatronEmperor Sigismund and Empress BarbaraMilitary unit The Ord...

  Oberea sumbana TaxonomíaReino: AnimaliaFilo: ArthropodaClase: InsectaOrden: ColeopteraFamilia: CerambycidaeGénero: ObereaEspecie: Oberea sumbanaBreuning, 1962[editar datos en Wikidata] Oberea sumbana es una especie de escarabajo longicornio del género Oberea, subfamilia Lamiinae.[1]​ Fue descrita científicamente por Breuning en 1962.[1]​ Se distribuye por Indonesia.[1]​ Mide 13,3-15 milímetros de longitud.[1]​ El período de vuelo de esta especie ...

 

Dea MongkarLahirPamela Deadhema Mongkar24 Oktober 1991 (umur 32)IndonesiaNama lainPammyPekerjaanpenyanyipenulis laguKarier musikGenrepopgospelInstrumenvokal, gitarTahun aktif2011 – sekarangLabelDemajorsArtis terkaitRio SilaenAnggotaThe Voice of Indonesia Pamela Deadhema Mongkar, atau dikenal sebagai Dea Mongkar atau Pammy (lahir 24 Oktober 1991) adalah penyanyi berkebangsaan Indonesia. Ia adalah anggota The Voice of Indonesia yang dipimpin oleh Rio Silaen. Ia merupakan alumni juru...

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: New York Tendaberry – news · newspapers · books · scholar · JSTOR (February 2020) (Learn how and when to remove this template message) 1969 studio album by Laura NyroNew York TendaberryStudio album by Laura NyroReleasedSeptember 24, 1969 ...

Sex in mainstream film This article is about sex in mainstream film. For pornographic films, see Pornographic film. See also: Nudity in film The Kiss (1896) contained what was regarded as the very first sex scene on film, drawing the general outrage of movie goers, civic leaders, and religious leaders, as utterly shocking, obscene and completely immoral. Sex in film, the presentation of aspects of sexuality in film, specially human sexuality, has been controversial since the development of th...

 

Manuela Hack (2010) Manuela Hack (* 6. Dezember 1965 in Bregenz; geborene Manuela Glanznig) ist eine österreichische Politikerin (ÖVP). Sie war von 2009 bis 2014 Abgeordnete zum Vorarlberger Landtag. Hack besuchte die Volks- und Hauptschule in Lochau und absolvierte in der Folge die Bundeshandelsschule in Bregenz. In der Folge studierte sie Sozialpädagogik in Stams. Hack ist verwitwet und lebt in Hörbranz. Sie hat eine Tochter (* 1992) und einen Sohn (* 1997). Manuela Hack wurde im Jahr 2...

 

Dutch sailor Cornelis HinPersonal informationFull nameCornelis Nicolaas HinNationalityDutchBorn(1869-10-06)6 October 1869Den Helder, NetherlandsDied21 October 1944(1944-10-21) (aged 75)Bloemendaal, NetherlandsSailing careerClass12' DinghyClubHaarlemsche Jachtclub Medal record sailing Representing  Netherlands 1920 Ostend andAmsterdam 12' Dinghy Updated on 23 December 2013. Cornelis Nicolaas Hin (6 October 1869 – 21 October 1944) was a sailor from the Netherlands, who represen...

ハヌマン・ドーカ宮殿(1850年) ハヌマン・ドーカ宮殿の門。二頭のハヌマーンの像がある 地図 ハヌマン・ドーカ宮殿(ネパール語:हनुमान ध्वखा लाय्कू, Hanuman Dhoka)は、ネパールの首都カトマンズ、ダルバール広場にある宮殿。旧王宮であり、現在はハヌマン・ドーカ宮殿博物館となっている。「ドーカ」とは、門あるいは扉を意味する言葉であ...

 

English, Scottish, Irish and Great Britain legislationActs of Parliament by states preceding the United Kingdom Of the Kingdom of EnglandRoyal statutes, etc. issued beforethe development of Parliament 1225–1267 1275–1307 1308–1325 Temp. incert. 1327–1411 1413–1460 1461–1482 1483 1485–1503 1509–1535 1536 1539–1540 1541 1542 1543 1545 1546 1547 1548 1549 1551 1553 1554 1555 1557 1558–1601 1603–1623 1625 1627 1640 Interregnum (1642–1660) 1660 1661 1662 1663 1664...

 

This biography of a living person needs additional citations for verification. Please help by adding reliable sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately from the article and its talk page, especially if potentially libelous.Find sources: Eimi Kuroda – news · newspapers · books · scholar · JSTOR (June 2012) (Learn how and when to remove this template message) Eimi KurodaKuroda in 20...

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Intent scale translation – news · newspapers · books · scholar · JSTOR (April 2023) (Learn how and when to remove this template message) Intent scale translation is a mathematical technique used by marketers to convert stated purchase intentions into purchase p...

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Tomorrow You're Gone – news · newspapers · books · scholar · JSTOR (July 2018) (Learn how and when to remove this template message) 2012 American filmTomorrow You're GoneDirected byDavid JacobsonProduced byGood Deed EntertainmentRelease date October 31,...

 

1992 studio album by Al B. Sure!Sexy VersusStudio album by Al B. Sure!ReleasedSeptember 22, 1992Recorded1991–1992GenreR&B, new jack swingLength73:31LabelWarner Bros. Records26973ProducerVincent Gilbert, Kevin Deane, Kiyamma Griffin, Vincent Herbert, Al B. Sure!, DeVanté Swing, Howie Tee, Kyle WestAl B. Sure! chronology Private Times...and the Whole 9!(1990) Sexy Versus(1992) Honey, I'm Home(2009) Professional ratingsReview scoresSourceRatingAllmusic link Sexy Versus is the thir...

Le infiorescenze essiccate della cannabis possono avere un uso medico L'uso medico della cannabis ha una storia millenaria condivisa da molte culture nel mondo. Nella pianta sono state identificate oltre 750 diverse sostanze di cui 113 con struttura analoga ai principali cannabinoidi, alcuni dei quali con azioni contrapposte[1][2][3][4], la cui concentrazione e distribuzione può variare sensibilmente in funzione del profilo genetico della pianta e dello st...

 

2007 studio album by NightwishDark Passion PlayStudio album by NightwishReleased26 September 2007 (2007-09-26)RecordedSeptember 2006 – March 2007Studio Petrax, Hollola, Finland E-Major, Kerava, Finland Finnvox, Helsinki, Finland Abbey Road, London, UK GenreSymphonic metalLength75:36LabelSpinefarm Nuclear BlastRoadrunner RecordsProducerTuomas HolopainenNightwish studio album chronology Once(2004) Dark Passion Play(2007) Imaginaerum(2011) Singles from Dark Passion Play ...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!