Sizer: hvilke funktioner der er “virkelig der”?

Link: http://www.unc.edu/~marron/DataAnalyses/SiZer_Intro.html

Hvad er Sizer alt om, og hvordan vil det hjælpe mig analysere data?

Sizer giver meningsfuld statistisk inferens, mens du gør eksplorativ dataanalyse ved hjælp af statistiske udjævning metoder (f.eks histogrammer eller Scatterplot udglattere). Det er en ny visualisering, der bringer klar og umiddelbar indsigt i et centralt videnskabeligt emne i eksplorativ dataanalyse:

Som har observeret i en jævn af data er “virkelig der”?

En omformulering er:

Hvad er “vigtig underliggende struktur”, i modsætning til at være “støj artefakter”, eller “kan henføres til variation sampling”?

Dette centrale spørgsmål er kritisk i det virkelige dataanalyse, fordi opdagelsen af ​​en ny funktion, såsom en uventet “bump” eller overraskende “regioner af fald / stigning”, kan føre til vigtige nye videnskabelige indsigt (se afsnit B for flere eksempler på dette ). Ordet “måske” er meget vigtigt, fordi (som vist i afsnit A nedenfor), mens udjævning er en kraftfuld metode til at finde sådanne funktioner, er det også i stand til at fremhæve mange falske funktioner. Nyopdagede ægte struktur fører til videnskabelige gennembrud, og guider forskningen på vigtige nye retninger, fx til at forklare fænomenet, ofte med en passende ny model. Men sådanne nye forskningsindsats kræver seriøs investering af tid og ressourcer, der går til spilde, bør den dybere undersøgelse viser, at nyopdagede funktioner var blot støj artefakter.

Dette punkt illustreres af de følgende datasæt, som består af Family Indkomsterne i Det Forenede Kongerige, i løbet af 1975. Histogrammet tyder på, at der kan være to tilstande i indkomstfordelingen. Fra et klassisk synspunkt ville det være overraskende, da flere parametriske familier til distributioner modellering indkomst er alle unimodale. Undersøgelse, detaljeret validering (herunder eventuel montering af en parametrisk blanding model), og forklaring af de bump blev ph.d.-afhandlingen af ​​Heinz-Peter Schmitz (University of Bonn), hvoraf en del er udgivet i Econometric Theory (1992) 8, 476- 488. Havde den bimodale struktur vist sig at være en simpel artefakt af variabilitet prøveudtagning, kunne have været spildt en betydelig indsats. Sizer giver selv ikke-eksperter en hurtig og effektiv metode til at gøre denne vigtige form for beslutning forskning. Dette punkt illustreres yderligere i forbindelse med denne datasættet i afsnit B.

 

Dette spørgsmål er ikke enkelt at håndtere, fordi (som illustreret i afsnit A) er det forveksles med problemet med “mængde udjævning”. Erfarne data analytikere (der kender nok til at se flere niveauer af udjævning, og til at forstå, hvad de kigger på!) Er normalt meget effektive til at afgøre, hvilke strukturer er “signal”, og som “støj”. Sizer giver store fremskridt i denne beslutningsproces i to forskellige sammenhænge:

(i) Det gør denne type inferens let gør-stand af den ikke-ekspert.

(ii) Det fremskynder beslutningen om udjævning ekspert.

Et indeks til sider med et detaljeret kig på forskellige aspekter af Sizer, og nogle interessante sidebemærkninger følger.

??? At gøre: tilføje link til software siden ???
Indholdsfortegnelse
(Links til sider med en detaljeret introduktion til Sizer, nogle motiverende analyser, nogle indsigtsfulde simulerede eksempler, forbindelser til tidligere arbejde i statistisk udjævning, nogle interessante sidebemærkninger, og nogle ideer til udvidelse til mere komplicerede udjævning indstillinger)
A. En introduktion til det grundlæggende:
Dette afsnit indeholder baggrundsmateriale i statistisk udjævning og en introduktion til Sizer.

1. histogrammer er “udglattere”
men her er hvorfor du bør ikke bruge dem.

2. Kernel Density Estimation,
en “udglattet histogram”, og betydningen af ​​båndbredden.

3. En introduktion til Scatterplot udjævning, dvs ikke-parametrisk regression,
en nyttig måde at finde struktur i data, og igen vigtigheden af ​​båndbredden.

4. Familien tilgang til udglatning,
se på alle medlemmer af familien af ​​udglatter, dvs. alle båndbredder stedet for at forsøge at vælge en “bedste” en.
af J. S. Marron og S. S. Chung

5. Sizer,
Introduktion til de grundlæggende ideer.

B. Et sæt af eksempler:

C. Forbindelser til historien om statistisk udjævning:
Dette afsnit er beregnet til eksperter i statistisk udjævning. Det forbinder skala plads ideer, herunder Sizer til tidligere tilgange til disse problemer. Her er to bevidst provokerende personlige meninger, der er bakket op inde:

1. Båndbredde valg er ingen hvor nær så vigtigt som jeg engang troede.

2. konfidensbånd er den forkerte vej at undertand variabiliteten af ​​en jævnere (dvs. kurve estimatoren).

D. Sjov med Scale Space:

E. Extensions og Forbedringer af Sizer:
Her er nogle af de måder, at Sizer idé er blevet forlænget til dato:

1. Sizer for at finde hopper
C. S. Kim og J. S. Marron

2. Sizer for afhængige data
V. Rondonotti og J. S. Marron

3. Sizer til lokal sandsynlighed
ved R. Z. Li og J. S. Marron

4. Sizer for censureret og ucensureret tæthed og fare sats estimering
af J. C. Jiang og J. S. Marron

5. Sizer for længden liased tæthed og fare estimering
af Jacques de Uña Alvarez og J. S. Marron

6. Høje Dimensional Versioner
F. Godtliebsen, J. S. Marron og P. Chaudhuri
Sizer og dets højere dimensionelle extensions kaldes “SSS”, eller “S kubik”, for “Betydning i Scale Space”. Udvidelse til mere end én dimension kræver en virkelig forskelligt visuelt paradigme, selvom statistiske rygraden er den samme. Indtil videre kun dimension 2 er blevet implementeret. Den statistiske ende er ligetil i højere dimensioner, men visualisering synes at kræve endnu et nyt sæt af idéer. For detaljer i 2-d tilfælde, gå til http://www.unc.edu/~marron/Movies/SSS_movies.html.

Downloadable Sizer Software:
Matlab 7 Funktioner til Sizer og SSS (ASCII)
For en Java-version af Sizer (således ingen Matlab påkrævet), gå til Daniel H. Wagner Associates, og følg “Download Sizer software” linket.

Sizer Referencer:
“Scale plads billede af kurve estimering”, (2000) Chaudhuri, P. og Marron, JS, Annals of Statistics, 28, 408-428.

“Zoome statistik: Inferens tværs skalaer”, (2001) Hannig, J., Marron, JS og Riedi, RH, Journal af den koreanske Statistical Society, 30, 327-345.

“Dependent Sizer: goodness of fit Tests for Time Series modeller” (2004)
Park, C., Marron, JS og Rondonotti, V. Anvendt Statistik, 31, 999 til 1017.

“Sizer for længden forudindtaget, censureret tæthed og fare estimering” (2004) de Uña Álvarez, J. og Marron, JS, Journal of Statistisk Planlægning og inferens, 121, 149-161.
“Sizer til udglatning noter” (2005) Zhang, JT og Marron, JS, Computational Statistics, 20, 481-502.
“Lokal Sandsynlighed Sizer map”, Li, R. og Marron, JS (2005) Sankhya, 67, 476-498.

“Avanceret fordeling teori for Sizer”, Hannig, J. og Marron, JS (2006) Journal of American Statistical Association, 101, 484-499.
“Sizer til hoppe afsløring”, Kim, CS og Marron, JS (2006) Tidende Nonparametric Statistik, 18, 13-20.

“Sizer for tidsrækker: en ny tilgang til analysen af ​​tendenserne”, Rondonotti, V., Marron, JS og Park, C. (2007) Elektronisk Journal of Statistics, 1, 268-289 (http: //dx.doi .org / 10,1214 / 07-EJS006).

Comments are closed.