Homoscedasticity hva er det, betydning og eksempler

2921
Abraham McLaughlin

De homoscedasticity i en prediktiv statistisk modell oppstår det at i alle datagruppene til en eller flere observasjoner, variansen til modellen med hensyn til de forklarende (eller uavhengige) variablene forblir konstant.

En regresjonsmodell kan være homoscedastisk eller ikke, i så fall snakker vi om heteroscedasticity.

Figur 1. Fem datasett og regresjonspasning av settet. Avviket i forhold til den forutsagte verdien er den samme i hver gruppe. (upav-biblioteca.org)

En statistisk regresjonsmodell av flere uavhengige variabler kalles homoscedastisk, bare hvis variansen til feilen til den forutsagte variabelen (eller standardavviket til den avhengige variabelen) forblir enhetlig for forskjellige gruppeverdier av de forklarende eller uavhengige variablene.

I de fem datagruppene i figur 1 er avviket i hver gruppe beregnet, med hensyn til verdien estimert av regresjonen, noe som resulterer i å være den samme i hver gruppe. Det antas videre at dataene følger normalfordelingen.

På det grafiske nivået betyr det at punktene er like spredt eller spredt rundt verdien som er forutsagt av regresjonspassformen, og at regresjonsmodellen har samme feil og gyldighet for området til den forklarende variabelen..

Artikkelindeks

  • 1 Betydningen av homoscedasticity
    • 1.1 Homoscedasticity versus heteroscedasticity
    • 1.2 Homoscedasticity tester
    • 1.3 Standardiserte variabler
    • 1.4 Ikke-grafiske tester av homoscedasticitet
  • 2 Referanser

Betydningen av homoscedasticity

For å illustrere viktigheten av homoscedasticity i prediktiv statistikk, er det nødvendig å kontrastere med det motsatte fenomenet, heteroscedasticity.

Homoscedasticity versus heteroscedasticity

I tilfelle av figur 1, der det er homoscedasticity, er det sant at:

Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈… Var ((y4-Y4); X4)

Der Var ((yi-Yi); Xi) representerer variansen, representerer paret (xi, yi) data fra gruppe i, mens Yi er verdien som regnes for regresjonen for gjennomsnittsverdien Xi for gruppen. Variansen til n-dataene fra gruppe i beregnes som følger:

Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n

Tvert imot, når heteroscedastisitet oppstår, kan det hende at regresjonsmodellen ikke er gyldig for hele regionen der den ble beregnet. Figur 2 viser et eksempel på denne situasjonen.

Figur 2. Datagruppe som viser heteroscedasticitet. (Egen utdyping)

Figur 2 representerer tre grupper av data og passformen til settet ved hjelp av en lineær regresjon. Det skal bemerkes at dataene i den andre og tredje gruppen er mer spredt enn i den første gruppen. Grafen i figur 2 viser også gjennomsnittsverdien for hver gruppe og dens feilfelt ± σ, med σ standardavvik for hver datagruppe. Det skal huskes at standardavviket σ er kvadratroten til variansen.

Det er klart at når det gjelder heteroscedastisitet, endres regresjonsestimasjonsfeilen i verdiområdet til den forklarende eller uavhengige variabelen, og i intervallene der denne feilen er veldig stor, er regresjonsforutsigelsen upålitelig eller ikke anvendelig.

I en regresjonsmodell må feilene eller restene (og -Y) fordeles med lik varians (σ ^ 2) gjennom verdiområdet til den uavhengige variabelen. Det er av denne grunn at en god regresjonsmodell (lineær eller ikke-lineær) må bestå homoscedasticitetstesten.. 

Homoscedasticity tester

Punktene vist i figur 3 tilsvarer dataene fra en studie som ser etter et forhold mellom husprisene (i dollar) som en funksjon av størrelsen eller arealet i kvadratmeter..

Den første modellen som skal testes er en lineær regresjon. For det første bemerkes det at bestemmelseskoeffisienten R ^ 2 for tilpasningen er ganske høy (91%), så det kan tenkes at tilpasningen er tilfredsstillende..

Imidlertid kan to regioner skilles tydelig fra justeringsgrafen. En av dem, den til høyre innesluttet i en oval, oppfyller homoscedasticity, mens regionen til venstre ikke har homoscedasticity.

Dette betyr at prediksjonen til regresjonsmodellen er tilstrekkelig og pålitelig i området mellom 1800 m ^ 2 til 4800 m ^ 2, men veldig utilstrekkelig utenfor denne regionen. I den heteroscedastiske sonen er ikke bare feilen veldig stor, men også dataene ser ut til å følge en annen trend enn den som er foreslått av den lineære regresjonsmodellen..

Figur 3. Boligpriser mot areal og prediktiv modell ved lineær regresjon, som viser homoscedasticity og heteroscedasticity soner. (Egen utdyping)

Spredningsdiagrammet for dataene er den enkleste og mest visuelle testen av deres homoscedasticitet, men ved anledninger der det ikke er så tydelig som i eksemplet vist i figur 3, er det nødvendig å ty til grafer med hjelpevariabler..

Standardiserte variabler

For å skille områdene der homoscedasticitet er oppfylt og der den ikke er, introduseres de standardiserte variablene ZRes og ZPred:

ZRes = Abs (y - Y) / σ

ZPred = Y / σ

Det skal bemerkes at disse variablene avhenger av den anvendte regresjonsmodellen, siden Y er verdien av regresjonsforutsigelsen. Nedenfor er spredningsplottet ZRes vs ZPred for samme eksempel:

Figur 4. Det skal bemerkes at i homoscedasticitetssonen forblir ZRene ensartede og små i prediksjonsområdet (egen utdyping).

I grafen i figur 4 med standardiserte variabler er området der den gjenværende feilen er liten og ensartet, skilt tydelig fra området der den ikke er. I den første sonen oppfylles homoscedasticity mens i regionen der restfeilen er svært variabel og stor, oppfylles heteroscedasticity..

Regresjonsjustering blir brukt på samme gruppe data i figur 3, i dette tilfellet er justeringen ikke-lineær, siden modellen som brukes innebærer en potensiell funksjon. Resultatet er vist i følgende figur:

Figur 5. Nye soner med homoscedasticitet og heteroscedasticity i data passer med en ikke-lineær regresjonsmodell. (Egen utdyping).

I grafen i figur 5 bør homoscedastiske og heteroscedastiske soner være tydelig bemerket. Det skal også bemerkes at disse sonene ble byttet ut med hensyn til de som ble dannet i modellen med lineær passform.

I grafen i figur 5 er det tydelig at selv når det er en ganske høy bestemmelseskoeffisient for passformen (93,5%), er ikke modellen tilstrekkelig for hele intervallet for den forklarende variabelen, siden dataene for verdier større enn 2000 m ^ 2 nåværende heteroscedasticity.

Ikke-grafiske tester av homoscedasticitet

En av de ikke-grafiske testene som er mest brukt for å verifisere om homoscedasticity er oppfylt eller ikke, er Breusch-Pagan test.

Ikke alle detaljene i denne testen vil bli gitt i denne artikkelen, men dens grunnleggende egenskaper og trinnene i den er skissert i store trekk:

  1. Regresjonsmodellen blir brukt på n-dataene og deres varians beregnes i forhold til verdien estimert av modellen σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
  2. En ny variabel er definert ε = ((yj - Y) ^ 2) / (σ ^ 2)
  3. Den samme regresjonsmodellen brukes på den nye variabelen, og dens nye regresjonsparametere beregnes.
  4. Den kritiske verdien Chi kvadrat (χ ^ 2) bestemmes, dette er halvparten av summen av kvadratene nye rester i variabelen ε.
  5. Fordelingstabellen Chi kvadrat brukes med tanke på signifikansnivået (vanligvis 5%) og antall frihetsgrader (antall regresjonsvariabler minus enheten) på x-aksen til tabellen, for å oppnå verdien av brettet.
  6. Den kritiske verdien oppnådd i trinn 3 sammenlignes med verdien som finnes i tabellen (χ ^ 2).
  7. Hvis den kritiske verdien er under den i tabellen, har vi nullhypotesen: det er homoscedasticitet
  8. Hvis den kritiske verdien er over den i tabellen, har vi den alternative hypotesen: det er ingen homoscedasticitet.

De fleste av de statistiske programvarepakkene som: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic og flere andre inkluderer homoscedasticity-testen av Breusch-Pagan. En annen test for å verifisere ensartethet av varians Levene-test.

Referanser

  1. Box, Hunter & Hunter. (1988) Statistikk for forskere. Omvendte redaktører.
  2. Johnston, J (1989). Econometrics Methods, Vicens -Vives-redaktører.
  3. Murillo og González (2000). Økonometrihåndbok. Universitetet i Las Palmas de Gran Canaria. Gjenopprettet fra: ulpgc.es.
  4. Wikipedia. Homoscedasticity. Gjenopprettet fra: es.wikipedia.com
  5. Wikipedia. Homoscedasticity. Gjenopprettet fra: en.wikipedia.com

Ingen har kommentert denne artikkelen ennå.