- Homoscedasticitātes nozīme
- Homoscedasticitāte pret heteroscedasticitāti
- Homoscedasticitātes testi
- Standartizētie mainīgie
- Hrosegradiskuma testi, kas nav grafiski
- Atsauces
Paredzamā statistiskā modeļa homoskedasticitāte rodas, ja visas viena vai vairāku novērojumu datu grupas, dispersijas (vai neatkarīgās) shēma attiecībā uz skaidrojošajiem mainīgajiem paliek nemainīgi.
Regresijas modelis var būt homoskedastisks vai nē, šajā gadījumā mēs runājam par heteroscedasticitāti.
1. attēls. Piecas datu kopas un kopas regresijas piemērotība. Dispersija attiecībā pret paredzamo vērtību katrā grupā ir vienāda. (upav-biblioteca.org)
Vairāku neatkarīgu mainīgo statistiskās regresijas modeli sauc par homoskedastisku tikai tad, ja paredzamā mainīgā kļūdas dispersija (vai atkarīgā mainīgā standartnovirze) paliek vienveidīga dažādām skaidrojošo vai neatkarīgo mainīgo vērtību grupām.
Piecās datu grupās 1. attēlā ir aprēķināta dispersija katrā grupā attiecībā pret regresijas novērtēto vērtību, izrādoties, ka katrā grupā tā ir vienāda. Tālāk tiek pieņemts, ka dati atbilst normālajam sadalījumam.
Grafiskā līmenī tas nozīmē, ka punkti ir vienādi izkliedēti vai izkaisīti ap vērtību, ko paredz regresijas piemērotība, un ka regresijas modelim ir tāda pati kļūda un derīgums skaidrojošā mainīgā diapazonam.
Homoscedasticitātes nozīme
Lai ilustrētu homoskedasticitātes nozīmi prediktīvajā statistikā, nepieciešams pretstatīt pretēju parādību - heteroskedatilitāti.
Homoscedasticitāte pret heteroscedasticitāti
1. attēlā, kurā ir homoscedasticitāte, ir taisnība, ka:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Kur Var ((yi-Yi); Xi) apzīmē dispersiju, pāris (xi, yi) apzīmē datus no i grupas, bet Yi ir vērtība, ko paredz regresija grupas vidējai vērtībai Xi. N grupas n datu dispersiju aprēķina šādi:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Gluži pretēji, ja rodas heteroskedasticitāte, regresijas modelis var nebūt derīgs visā reģionā, kurā tas tika aprēķināts. 2. attēlā parādīts šīs situācijas piemērs.
2. attēls. Datu grupa, kas parāda heteroskedastiskumu. (Pašu izstrādāts)
2. attēlā parādītas trīs datu grupas un kopas piemērotība, izmantojot lineāru regresiju. Jāatzīmē, ka dati otrajā un trešajā grupā ir vairāk izkliedēti nekā pirmajā grupā. Grafiks 2. attēlā parāda arī katras grupas vidējo vērtību un tās kļūdu joslu ± σ ar katras datu grupas σ standarta novirzi. Jāatceras, ka standartnovirze σ ir dispersijas kvadrātsakne.
Ir skaidrs, ka heteroskedasticitātes gadījumā regresijas aplēses kļūda mainās skaidrojošā vai neatkarīgā mainīgā vērtību diapazonā, un intervālos, kur šī kļūda ir ļoti liela, regresijas prognoze nav uzticama vai nav piemērojams.
Regresijas modelī kļūdas vai atlikumi (un -Y) jāsadala ar vienādu dispersiju (σ ^ 2) visā neatkarīgā mainīgā vērtību intervālā. Tieši šī iemesla dēļ labam regresijas modelim (lineāram vai nelineāram) jāiztur homoscedasticitātes tests.
Homoscedasticitātes testi
Punkti, kas parādīti 3. attēlā, atbilst pētījuma datiem, kas meklē sakarību starp māju cenām (dolāros) kā lieluma vai platības funkciju kvadrātmetros.
Pirmais pārbaudāmais modelis ir lineārā regresija. Pirmkārt, tiek atzīmēts, ka piemērotības noteikšanas koeficients R ^ 2 ir diezgan augsts (91%), tāpēc var uzskatīt, ka piemērotība ir apmierinoša.
Tomēr no pielāgošanas diagrammas var skaidri atšķirt divus reģionus. Viens no tiem, labajā pusē, ievietots ovālā formā, pilda homoscedasticitāti, bet kreisajā pusē esošajam reģionam nav homoscedasticitātes.
Tas nozīmē, ka regresijas modeļa prognozes ir piemērotas un ticamas diapazonā no 1800 m ^ 2 līdz 4800 m ^ 2, bet ir ļoti nepietiekamas ārpus šī reģiona. Heteroskedastiskajā zonā kļūda ir ne tikai ļoti liela, bet arī dati, šķiet, seko citādāk, nekā ierosināja lineārās regresijas modelis.
3. attēls. Mājokļu cenas pret platību un prognozējošais modelis ar lineāro regresiju, parādot homoscedasticitātes un heteroscedasticitātes zonas. (Pašu izstrādāts)
Datu izkliedes diagramma ir vienkāršākais un vizuālākais to homoscedasticitātes tests, tomēr gadījumos, kad tas nav tik acīmredzami kā 3. attēlā parādītajā piemērā, ir jāizmanto grafiki ar palīgmateriāliem.
Standartizētie mainīgie
Lai atdalītu apgabalus, kur ir izpildīta homoskedasticitāte un kur tā nav, tiek ieviesti standartizētie mainīgie ZRes un ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Jāatzīmē, ka šie mainīgie ir atkarīgi no izmantotā regresijas modeļa, jo Y ir regresijas prognozes vērtība. Zem tā paša piemēra ir izkliedes diagramma ZRes vs ZPred:
4. attēls. Jāatzīmē, ka homoscedasticitātes zonā ZRes ir vienmērīgi un mazi prognozēšanas reģionā (pašu izstrādājums).
Diagrammā 4. attēlā ar standartizētajiem mainīgajiem lielumiem apgabals, kurā atlikušā kļūda ir maza un vienmērīga, ir skaidri nodalīts no apgabala, kur tā nav. Pirmajā zonā tiek izpildīta homoskedasticitāte, savukārt reģionā, kur atlikušā kļūda ir ļoti mainīga un liela, tiek izpildīta heteroskedasticitāte.
Regresijas korekcija tiek piemērota tai pašai datu grupai 3. attēlā, šajā gadījumā korekcija ir nelineāra, jo izmantotais modelis ietver potenciālu funkciju. Rezultāts parādīts šajā attēlā:
5. attēls. Jaunas datu homoskedalastības un heteroskedalastības zonas, kas atbilst nelineāras regresijas modelim. (Pašu izstrādāts).
5. attēla grafikā skaidri jānorāda homoskedastiskie un heteroskedastiskie apgabali. Jāatzīmē arī, ka šīs zonas tika savstarpēji nomainītas pret tām, kuras tika veidotas lineārā fit modelī.
5. attēla grafikā ir redzams, ka pat tad, ja ir diezgan augsts piemērotības noteikšanas koeficients (93,5%), modelis nav piemērots visam skaidrojošā mainīgā intervālam, jo dati par vērtībām lielāka par 2000 m ^ 2 pašreizējā heteroskedastritāte.
Hrosegradiskuma testi, kas nav grafiski
Viens no negrafiskajiem testiem, ko visbiežāk izmanto, lai pārbaudītu, vai homoscedasticitāte ir izpildīta, ir Breuša-Pagāna tests.
Šajā rakstā netiks sniegta visa šī testa informācija, taču aptuveni ir aprakstītas tā pamatīpašības un to soļi:
- Regresijas modeli piemēro n datiem un aprēķina tā dispersiju attiecībā uz vērtību, kas aprēķināta pēc modeļa σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Tiek definēts jauns mainīgais ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Tas pats regresijas modelis tiek piemērots jaunajam mainīgajam un tiek aprēķināti tā jaunie regresijas parametri.
- Tiek noteikta Chi kvadrāta kritiskā vērtība (χ ^ 2), kas ir puse no mainīgo ε jauno atlikumu kvadrātu summas.
- Chi kvadrāta sadalījuma tabulu izmanto, ņemot vērā nozīmīguma līmeni (parasti 5%) un brīvības pakāpes skaitu (regresijas mainīgo skaits mīnus vienība) uz tabulas x ass, lai iegūtu vērtību dēlis.
- Kritiskā vērtība, kas iegūta 3. solī, tiek salīdzināta ar vērtību, kas atrodama tabulā (χ ^ 2).
- Ja kritiskā vērtība ir zemāka par tabulas vērtību, mums ir nulle hipotēze: pastāv homoscedasticitāte
- Ja kritiskā vērtība pārsniedz tabulas vērtību, mums ir alternatīva hipotēze: nav homoscedasticitātes.
Lielākajā daļā statistikas programmatūras pakešu, piemēram: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic un vairākās citās, ir iekļauts Breusch-Pagan homoscedasticitātes tests. Vēl viens tests, lai pārbaudītu dispersijas vienveidību, ir Levene tests.
Atsauces
- Bokss, mednieks un mednieks. (1988) Statistika pētniekiem. Es mainīju redaktorus.
- Johnston, J (1989). Ekonometrijas metodes, Vicens-Vives editores.
- Murillo un Gonzalez (2000). Ekonometrijas rokasgrāmata. Las Palmasa de Grankanārijas universitāte. Atgūts no: ulpgc.es.
- Wikipedia. Homoscedasticitāte. Atgūts no: es.wikipedia.com
- Wikipedia. Homoscedasticitāte. Atgūts no: en.wikipedia.com