Suffiziente Statistik

Eine suffiziente Statistik (erschöpfende Statistik) ist in der mathematischen Statistik eine Statistik, die bezüglich der unbekannten Parameter (oder der unbekannten Wahrscheinlichkeitsverteilung) alle relevante Information aus der Zufallsstichprobe enthält.[1] (→ Abschnitt Hintergrund und für eine formale Definition Abschnitt Definition).

Mit Hilfe einer suffizienten Statistik kann die Suche bzw. Konstruktion von für die Fragestellung geeigneten Statistiken auf jene Statistiken reduziert werden, die sich mit Hilfe der suffizienten Statistik funktional konstruieren lassen. Diese Reduktion auf funktionale Konstruktionen aus einer speziellen Statistik heraus kann bei Verwendung einer suffizienten Statistik ohne relevanten Informationsverlust vorgenommen werden.

Eine suffiziente Statistik kann auch zu einer Reduktion der Datenmenge beitragen, ohne dass dabei relevante Information verloren wird.

Hintergrund

Für ein statistisches Zufallsexperiment werden im Statistischen Modell die Ergebnisse von Zufallsstichproben als Realisierungen von Zufallsvariablen aufgefasst. Diese Zufallsvariablen, und somit die Ergebnisse des Experiments, können maximal jene Information liefern, die maßtheoretisch am Ereignisraum durch die von den Zufallsvariablen induzierte Initial-σ-Algebra beschrieben wird.

Eine Statistik , zum Beispiel ein Schätzer zum Schätzen von Parametern, würde typischerweise mit zusammengesetzt, um die Komposition zu liefern. Ergebnisse (als Realisierung von ) würden mit zu weiterverarbeitet werden, die Komposition selber dient dazu, diese Verwendung von (zum Beispiel den Schätzvorgang) im Rahmen des Statistischen Modells theoretischerseits zu beurteilen.

Aufgrund des Faktorisierungslemmas der Maßtheorie ist insbesondere auch -messbar, die von der Komposition induzierte σ-Algebra muss aber nicht mit übereinstimmen, könnte also je nach der Statistik und je nach Verhältnis der beiden σ-Algebren zueinander einen anderen Informationsgehalt haben.

(Nicht-)Beispiel 1

Begleitendes Beispiel 1 (radikale Reduktion mit Informationsverlust): Würde man mit die Nullfunktion wählen, also jede Stichprobe nur auf Null abbilden, dann wäre die zusammengesetzte Funktion ebenfalls die konstante Nullfunktion. Die von ihr induzierte initiale σ-Algebra wäre nur trivial, und wäre unter allen möglichen σ-Algebren die gröbste, liefert also keinerlei Auflösung in feinere Detailinformation. Man hätte also alle Information verloren, die man mit einer feineren σ-Algebra vielleicht erhalten könnte, gleichzeitig hätte man die gesamte Datenmenge aber auf den einzigen Wert Null alleine reduziert. Man hätte also einerseits eine maximale Reduktion der Datenmenge auf eine einzige Zahl, aber andererseits auch einen maximalen Informationsverlust. Beispiel 1 Ende

„Relevante“ Information

Für die Fragestellungen der Statistik tritt bei einem statistischen Modell eine Familie von Wahrscheinlichkeitsmaßen auf. Informationen sind für die statistische Fragestellung also nur in Bezug auf die Familie relevant oder irrelevant. Insbesondere interessiert die Frage, ob sich mit Hilfe der verwendeten Statistiken die einzelnen Wahrscheinlichkeitsmaße aus der Familie unterscheiden lassen.

Im Zusammenwirken mit σ-Algebren interessiert also die Einschränkung der Maße auf die σ-Algebren.

Grundidee

Die Grundidee besteht nun darin, beim Suchen nach brauchbaren Statistiken eine suffiziente Statistik zu verwenden, um im Raum aller Statistiken mit Hilfe des Faktorisierungslemmas der Maßtheorie und der faktorisierten bedingten Wahrscheinlichkeit die Suche auf Statistiken zu reduzieren, die in dem Sinn einfacher sind, dass sie sich bereits mit Hilfe von funktional konstruieren lassen, zum Beispiel über eine Zusammensetzung mit einer weiteren Funktion . Durch könnte zum Beispiel eine Daten-Vorverarbeitung für eine Reduktion umgesetzt werden, und nur die vorverarbeiteten Daten werden dann mit anderen Funktionen „weiterverarbeitet“.

Eine solche Reduktion sollte für die betrachteten Wahrscheinlichkeitsmaße jedenfalls zu keinem Informationsverlust gegenüber der Stichprobe führen, also immer noch maximal informativ sein.

Aus maßtheoretischer Sicht ist also Suffizienz bezüglich eines Modells eine mögliche Eigenschaft messbarer Funktionen , die aus dem Stichprobenraum in einen beliebigen Messraum abbilden. Man charakterisiert dabei zum Beispiel solche Abbildungen als suffizient (auch: erschöpfend), die einen hochdimensionalen Datenvektor in eine einfachere Form transformieren, ohne dabei wesentliche Informationen über die zu Grunde liegende Wahrscheinlichkeitsverteilung zu verlieren.

Gegenstück der Suffizienz ist die Verteilungsfreiheit, sie entspricht einer uninformativen Transformation.

Anschaulich formuliert sind also solche Statistiken suffizient, die sämtliche Informationen über die zu schätzenden Parameter des Modells beibehalten, die aus der Stichprobe gewonnen werden können.

Die Suffizienz zählt neben der Erwartungstreue und der Äquivarianz/Invarianz zu den klassischen Reduktionsprinzipien der mathematischen Statistik. Ihre Bedeutung erhält die Suffizienz durch den Satz von Rao-Blackwell. Aus ihm folgt, dass „optimale“ Schätzer im Bezug auf den mittleren quadratischen Fehler oder entsprechende Verallgemeinerungen immer in der Menge der suffizienten Schätzer zu finden sind.

Stephen Stigler merkte 1973 an, dass damals das Konzept der Suffizienz in der deskriptiven Statistik unbeliebter wurde, da es stark auf Verteilungsannahmen beruht, allerdings ist es noch immer ein wichtiges Mittel in der Theorie und natürlich in der Schätztheorie und Testtheorie.[2]

Beispiel 2

Beispiel 2 (mehrmaliger Münzwurf): Gegeben sei eine gewöhnliche Münze, die unabhängig voneinander n-mal geworfen wird. Das Ergebnis des i-ten Wurfs (Kopf oder Zahl) wird mit einer Bernoulli-verteilten Zufallsvariable beschrieben. Ein Elementarereignis des Modells liefere im i-ten Versuch bei „Kopf oben“ den Wert , bei „Zahl oben“ den Wert .

Die Zufallsvariablen seien unabhängig und identisch Bernoulli-verteilt mit der (uns unbekannten) Wahrscheinlichkeit für das Auftreten von „Kopf oben“, und der Wahrscheinlichkeit für das Auftreten von „Zahl oben“ (bzw. „nicht Kopf oben“).

Das gesamte Experiment der n Münzwürfe wird durch die Zufallsvariable (Zufallsvektor)

beschrieben.

Angenommen man interessiert sich für die Wahrscheinlichkeit „Kopf oben“ (), um zu beurteilen, ob die Münze fair ist. Um den unbekannten Parameter zu schätzen, würde man mal das Zufallsexperiment „Wurf der Münze“ durchführen und eine Eins notieren, wenn Kopf oben landet, und eine Null, wenn Zahl oben ist. Aus den Beobachtungswerten

würde man für den Parameter einen Schätzwert berechnen mit

.

Die Statistik „Anzahl der erhaltenen Köpfe oben“

wäre nun eine suffiziente Statistik: Für eine Schätzung des unbekannten Parameters wird aus den Beobachtungswerten nur die Information benötigt wie oft Kopf oben war. Die ebenfalls in den Beobachtungswerten enthaltene zusätzliche Information, bei welchem der Würfe Kopf oben war, wird jedoch nicht benötigt. Durch die Statistik wird von den n Zahlen auf eine einzige Zahl reduziert, nämlich auf deren Summe.

Die für die Schätzung von verwendete Statistik ergibt sich funktional aus , indem man noch durch die Anzahl n der Würfe dividiert. Sie ist also die Zusammensetzung

.


Wenn es für die Schätzung der unbekannten Parameter (bzw. für die Ermittlung der unbekannten Verteilung ) ausreichend ist, die Statistik zu kennen und nicht notwendigerweise alle Beobachtungswerte, dann ist eine suffiziente Statistik.

Definition

Es seien ein statistischer Raum mit Verteilungsfamilie , der Stichprobenraum, eine Zufallsvariable. Weiters sei ein beliebiger Messraum und eine messbare Abbildung. Die Statistik heißt suffizient für die Familie (und die Zufallsvariable ), falls es eine Version der faktorisierten bedingten Verteilung von gibt, die nicht von abhängt.

Allgemeiner lässt sich die Suffizienz einer Statistik mittels der Suffizienz von σ-Algebren definieren: Eine Statistik heißt suffizient, oder erschöpfend wenn die von ihr erzeugte σ-Algebra eine suffiziente σ-Algebra ist.

Beachte, dass eine Suffiziente Statistik nicht unbedingt nur skalarwertig sein muss, sondern auch mehrdimensional oder in allgemeine Mengen gehen kann.

Beispiel: Binomialverteilung

Ein einfaches Beispiel für suffiziente Statistiken erhalten wir bei der Untersuchung identisch unabhängig Bernoulli-verteilter Zufallsvariablen. Das zugrundeliegende Modell ist also ein Bernoulli-Prozess. Die Zähldichte der Zufallsvariable ist in diesem Fall durch gegeben, wobei die entweder 0 oder 1 sind. Man beachte, dass das Zählmaß auf endlich (insbesondere also -endlich) ist und wegen der Existenz der Dichten die Klasse dominiert. Daher erkennt man anhand der Neyman-Charakterisierung, dass suffizient für ist.

Mithilfe der Definition zeigt man die Suffizienz von , indem man berechnet. Benutzt man nun bedingte Wahrscheinlichkeiten erhält man:

.

Diese bedingte Dichte ist nun unabhängig von und somit ist suffizient.

Heuristisch gesprochen genügt es also, an Stelle des gesamten Datenvektors bloß die Anzahl der Erfolge in diesem Experiment zu kennen, um alle Informationen über den unbekannten Parameter zu erhalten.

Sätze über Suffizienz bei dominierten Verteilungsklassen

Satz von Halmos-Savage

Der Satz von Halmos-Savage liefert ein Suffizienzkriterium unter der Annahme, dass die Verteilungsklasse dominiert ist. Lassen sich dann abzählbar unendlich viele Maße der Verteilungsklasse zu einem Maß kombinieren, so dass dieses die Verteilungsklasse dominiert und jedes Wahrscheinlichkeitsmaß der Verteilungsklasse eine -messbare Dichte bezüglich besitzt, dann ist eine suffiziente σ-Algebra.

Neyman-Kriterium

Unter der Voraussetzung, dass eine dominierte Verteilungsklasse ist, ist eine Statistik genau dann suffizient, wenn messbare Funktionen und existieren, so dass die Dichte wie folgt zerlegt werden kann: Diese Charakterisierung der Suffizienz geht auf Jerzy Neyman zurück. Insbesondere sind bijektive Transformationen suffizienter Statistiken wieder suffizient. Das Neyman-Kriterium leitet sich aus dem Satz von Halmos-Savage ab, ist aber leichter zu handhaben.

Weitere Suffizienzbegriffe

Minimalsuffizienz

Die Minimalsuffizienz ist eine stärkere Forderung als die Suffizienz, die ebenfalls für Statistiken und σ-Algebren definiert wird. Sie stellt die Frage nach der maximal möglichen Datenkompression, also nach einer kleinstmöglichen suffizienten σ-Algebra.

Starke Suffizienz

Die starke Suffizienz ist eine Abwandlung des herkömmlichen Suffizienzbegriffes, die mittels Markow-Kernen definiert wird. Für borelsche Räume stimmen starke Suffizienz und Suffizienz überein.

Wichtige Sätze

Literatur

Einzelnachweise

  1. Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014), ISBN 978-3-642-37886-7, S. 41.
  2. Stephen Stigler: Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency. In: Biometrika. Vol. 60, Nr. 3, Dezember 1973, S. 439–445, doi:10.1093/biomet/60.3.439, JSTOR:2334992 (englisch).

Read other articles:

En replika av SSEM Manchester Baby eller Manchester Small-Scale Experimental Machine (SSEM) var den första digitala programlagringsbara datorn. Projektet med Baby startades 1946 av Frederic Williams och Tom Kilburn vid Manchester University, England. Den 12 juni 1948 kunde man för första gången använda datorn för att göra beräkningar. Även om de flesta uppslagsverk pekar på att Eniac var den första datorn, var skillnaderna mellan Baby och Eniac mycket stora. Eniac byggde på att sj...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (أبريل 2019) رون سكارليت معلومات شخصية الميلاد 22 مارس 1911  نيلسون  الوفاة 9 يوليو 2002 (91 سنة)   كرايستشرش  مواطنة نيوزيلندا  الحياة العملية المهنة عالم إنسان،  ...

 

1938 film by Busby Berkeley Garden of the MoonTheatrical release posterDirected byBusby BerkeleyScreenplay byJerry WaldRichard MacaulayBased onGarden of the Moon1937 story The Saturday Evening Postby H. Bedford-JonesJohn Barton BrowneProduced byLouis F. EdelmanStarringPat O'BrienMargaret LindsayJohn PayneJohnnie DavisMelville CooperIsabel JeansCinematographyTony GaudioEdited byGeorge AmyMusic byHeinz RoemheldProductioncompanyWarner Bros.Distributed byWarner Bros.Release date October 1,&#...

Head of the Royal Australian Air Force Chief of Air ForceIncumbentRobert Chipmansince 1 July 2022 Royal Australian Air ForceStyleAir MarshalAbbreviationCAFMember ofAustralian Defence ForceReports toChief of the Defence ForceTerm lengthFour years(renewable)FormationOctober 1922First holderRichard WilliamsDeputyDeputy Chief of Air Force Chief of Air Force (CAF) is the most senior appointment in the Royal Australian Air Force (RAAF), responsible to the Chief of the Defence Force (CDF) ...

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Autodesk Animator – news · newspapers · books · scholar · JSTOR (February 2017) (Learn how and when to remove this template message) Autodesk AnimatorScreenshotDeveloper(s)Jim Kent, Yost Group, AutodeskInitial release1989; 34 years ago (1989)F...

 

AT-1K Raybolt Jenis Portable fire-and-forget anti-tank Sejarah pemakaian Digunakan oleh Lihat Operators Pada perang Perang Saudara Yaman Sejarah produksi Perancang Agency for Defense Development Tahun 2007-10 Produsen LIG Nex1 Diproduksi June 2017 - sekarang LIG Nex1 AT-1K Raybolt (bahasa Korea: 현궁 Hyungung) adalah rudal anti-tank berpemandu portabel generasi ketiga Korea Selatan yang dibuat oleh LIG Nex1. Rudal ini memeiliki kemampuan fire-and-forget menggunakan citra penca...

United States historic placeBrooklyn Historical Society Building(Long Island Historical Society Building)U.S. National Register of Historic PlacesU.S. National Historic Landmark Location128 Pierrepont StreetBrooklyn Heights, New York CityCoordinates40°41′41.5″N 73°59′34″W / 40.694861°N 73.99278°W / 40.694861; -73.99278Built1878–1881[2]Built byDavid H. King, Jr.ArchitectGeorge B. PostArchitectural styleRenaissance revival[2]NRHP r...

 

Mistrzostwa Świata w Narciarstwie Alpejskim 2007 2005 2009 Data 2 - 18 lutego 2007 Miejscowość Åre, Szwecja Strona internetowa 39. Mistrzostwa świata w narciarstwie alpejskim odbywały się od 2 do 18 lutego 2007 w Åre. W tej szwedzkiej miejscowości mistrzostwa odbyły się po raz drugi, poprzednio zawodnicy rywalizowali tu w 1954 roku. Mistrzostwa świata otworzył król Szwecji Karol XVI Gustaw. W klasyfikacji medalowej triumfowali reprezentanci Austrii, którzy zdobyli dziewięć me...

 

American college football season 2000 Fresno State Bulldogs footballSilicon Valley Football Classic, L 34–37 vs. Air ForceConferenceWestern Athletic ConferenceRecord7–5 (6–2 WAC)Head coachPat Hill (4th season)Offensive coordinatorAndy Ludwig (3rd season)Defensive coordinatorKevin Coyle (4th season)Home stadiumBulldog Stadium(capacity: 41,031)Seasons← 19992001 → 2000 Western Athletic Conference football standings vte Conf Overall Team   W &#...

اولًا العلم بيد الله سبحانه و تعالى و سرد هذه المقالة تعداد السكان في العالم، بالإضافة إلى بعض التكهنات المستقبلية بشأن تلك الأعداد. وباختصار، تقع التقديرات الخاصة بأعداد سكان العالم منذ أواخر العصور الوسطى في النطاقات التالية: السنة 1400 1500 1600 1700 1800 1900 2000 2100[1] التعداد ا...

 

American baseball player (born 1973) Baseball player Todd HollandsworthHollandsworth with the Cincinnati Reds in 2006OutfielderBorn: (1973-04-20) April 20, 1973 (age 50)Dayton, Ohio, U.S.Batted: LeftThrew: LeftMLB debutApril 25, 1995, for the Los Angeles DodgersLast MLB appearanceSeptember 30, 2006, for the Cincinnati RedsMLB statisticsBatting average.273Home runs98Runs batted in401 Teams Los Angeles Dodgers (1995–2000) Colorado Rockies (2000–2002) Texas...

 

American swimmer (1900–1970) Irene GuestPersonal informationFull nameIrene May GuestNational teamUnited StatesBorn(1900-07-22)July 22, 1900Philadelphia, Pennsylvania, U.S.DiedJune 14, 1970(1970-06-14) (aged 69)Ocean Gate, New Jersey, U.S.Height5 ft 2 in (1.57 m)SportSportSwimmingStrokesFreestyleClubMeadowbrook Club Medal record Women's swimming Representing the United States Olympic Games 1920 Antwerp 4×100 m freestyle 1920 Antwerp 100 m freestyle Irene May Gu...

Trentino-Alto Adige - 01 Uninominalecollegio elettoraleLa deputata del collegio, Maria Elena Boschi Stato Italia Elezioni perCamera dei deputati ElettiDeputati Periodo 2017-2022Tipologiauninominale TerritorioPosizione del collegio all'interno della regione Manuale Il collegio elettorale uninominale Trentino-Alto Adige - 01 è stato un collegio elettorale uninominale della Repubblica Italiana per l'elezione della Camera tra il 2017 ed il 2022. Indice 1 Territorio 2 Eletti 3 Dati elet...

 

Power and utility company that served Greater Houston of the U.S. state of Texas Houston Lighting & Power Co. (HL&P), later named Reliant Energy HL&P/Entex, was the single power and utility company that served Greater Houston of the U.S. state of Texas. It was a subsidiary of Houston Industries (HI, NYSE: HOU),[1] which later was renamed to Reliant Energy (REI). HL&P had a service area of 5,000 square miles (13,000 km2). In 1998 in terms of kilowatt-hour sales it ...

 

1942 film by P. K. Raja Sandow Araichimani or Manuneethi ChozhanFilm posterஆராய்ச்சிமணி ஆராய்ச்சிமணி அல்லது மனுநீதி சோழன்Directed byP. K. Raja SandowRagubeer S. RamyeStory byKavi KunjaramBased onLife Story of Manu Needhi Cholan[1]StarringP. B. RangachariarM. R. SanthanalakshmiCinematographyE. R. CooperEdited byS. PanjuMusic bySrinivasa Rao ShindeProductioncompaniesKandhan Studio, CoimbatoreRelease date...

School of Naropa University in Colorado, USA This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article contains content that is written like an advertisement. Please help improve it by removing promotional content and inappropriate external links, and by adding encyclopedic content written from a neutral point of view. (August 2016) (Learn how and when to remove this template message) ...

 

Río MaipuéUbicación geográficaCuenca cuenca del río BuenoNacimiento Cordillera de la CostaDesembocadura Río Negro (Rahue)Coordenadas 40°58′44″S 73°15′10″O / -40.97883, -73.25273Ubicación administrativaPaís ChileDivisión Región de Los LagosMapa de localización Cuenca hidrográfica del río Bueno, la 103.[editar datos en Wikidata] El río Maipué es un curso natural de agua que drena las laderas orientales de la cordillera de la Costa y fluye en la...

 

Jianzhi Sengcan Informasi Tanggal lahir: ? Tempat lahir: China Tanggal wafat: 606 Kewarganegaraan: Cina Sekolah: Ch'an Gelar: Patriark ke-3 Predecessor(s): Dazu Huike Successor(s): Dayi Daoxin Website Portal Buddhisme Jianzhi Sengcan (Tionghoa: 僧璨) (-606)? (Wade-Giles: Chien-chih Seng-ts'an; Jepang: Kanchi Sosan) dikenal sebagai Patriark ketiga Chán setelah Bodhidharma dan Patriark ketigapuluh setelah Buddha Siddhartha. Dia dianggap sebagai penerus Dharma dari Patriark Cina kedua, Dazu ...

Narayaniनारायणी Zona 1961-2015 Ubicación de Zona de NarayaniCoordenadas 27°25′00″N 85°00′00″E / 27.416666666667, 85Capital BirganjEntidad ZonaSuperficie   • Total 8313 km²Población (2011)   • Total 2 975 908 hab. • Densidad 357,98 hab/km²Historia   • 1961 Establecido • 2015 Disuelto Distritos de Narayani [editar datos en Wikidata] La zona de Narayani (Nepalí: नार...

 

Nuevo Zacatecas Osnovni podaci Država  Meksiko Savezna država Tamaulipas Opština San Carlos Stanovništvo Stanovništvo (2014.) 5[1] Geografija Koordinate 24°12′38″N 99°01′39″W / 24.21056°N 99.0275°W / 24.21056; -99.0275 Vremenska zona UTC-6, leti UTC-5 Nadmorska visina 177[1] m Nuevo ZacatecasNuevo Zacatecas na karti Meksika Nuevo Zacatecas je naselje u Meksiku, u saveznoj državi Tamaulipas, u opštini San Carlos. Prema proceni iz...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!