- Kā aprēķināt noteikšanas koeficientu?
- Ilustratīvs gadījums
- Interpretācija
- Piemēri
- - 1. piemērs
- Risinājums
- - 2. piemērs
- Risinājums
- - 3. piemērs
- Risinājums
- Piemērots salīdzinājums
- Secinājumi
- Atsauces
Noteikšanas koeficients ir skaitlis no 0 līdz 1, kas apzīmē to punktu daļu (X, Y), kas seko datu kopas atbilstības regresijas līnijai ar diviem mainīgiem.
Ir zināms arī kā labestību fit un ir apzīmēts ar R 2 . Lai to aprēķinātu, ņem koeficientu starp datu dispersiju Ŷi, ko novērtē ar regresijas modeli, un datu Yi dispersiju, kas atbilst katram datu Xi.
R 2 = SY / Sy
1. attēls. Korelācijas koeficients četriem datu pāriem. Avots: F. Zapata.
Ja 100% datu atrodas uz regresijas funkcijas līnijas, tad noteikšanas koeficients ir 1.
Tieši pretēji, ja datu kopai un noteiktai pielāgošanas funkcijai koeficients R 2 izrādās vienāds ar 0,5, tad var teikt, ka korekcija ir 50% apmierinoša vai laba.
Līdzīgi, ja regresijas modelis dod R 2 vērtības zemākas par 0,5, tas norāda, ka izvēlētā pielāgošanas funkcija nepietiekami pielāgojas datiem, tāpēc jāmeklē cita pielāgošanas funkcija.
Un, kad kovariācijas vai korelācijas koeficients tiecas uz nulli, tad mainīgie X un Y, kas ir dati nav saistīti, un tāpēc R 2 tendence arī uz nulli.
Kā aprēķināt noteikšanas koeficientu?
Iepriekšējā sadaļā tika teikts, ka noteikšanas koeficientu aprēķina, atrodot koeficientu starp dispersijām:
-Novērtēts ar mainīgā Y regresijas funkciju
- Tas mainīgais Yi, kas atbilst katram N datu pāru mainīgajam Xi.
Matemātiski izsakoties, tas izskatās šādi:
R 2 = SY / Sy
No šīs formulas izriet, ka R 2 apzīmē īpatsvars dispersijas skaidrojams ar regresijas modeli. Alternatīvi, R 2 var aprēķināt , izmantojot šādu formulu, pilnībā ekvivalentu uz iepriekšējo:
R 2 = 1 - (Sε / Sy)
Kur Sε apzīmē atlikumu εi = Ŷi - Yi dispersiju, bet Sy ir datu Yi kopas dispersija. Lai noteiktu Ŷi, tiek pielietota regresijas funkcija, kas nozīmē, ka Ŷi = f (Xi).
Datu kopas Yi dispersiju ar i no 1 līdz N aprēķina šādi:
Sy =
Un tad rīkojieties līdzīgi kā Sŷ vai Sε.
Ilustratīvs gadījums
Lai parādītu sīkāku informāciju par to, kā tiek veikts aprēķināšanas koeficients, mēs ņemsim šādu četru pāru datu kopu:
(X, Y): {(1, 1); (2. 3); (3, 6) un (4, 7)}.
Šai datu kopai tiek ierosināta lineārā regresijas atbilstība, ko iegūst, izmantojot mazāko kvadrātu metodi:
f (x) = 2,1 x - 1
Izmantojot šo pielāgošanas funkciju, griezes momentu iegūst:
(X, Ŷ): {(1, 1.1); (2, 3.2.); (3., 5.3.) Un (4., 7.4.)}.
Tad mēs aprēķinām X un Y vidējo aritmētisko:
Varianta Sy
Sy = / (4-1) =
= = 7583
Variants Sŷ
Sŷ = / (4-1) =
= = 7,35
Noteikšanas koeficients R 2
R 2 = SY / Sy = 7.35 / 7.58 = 0.97
Interpretācija
Iepriekšējā segmentā apskatītā ilustratīvā gadījuma noteikšanas koeficients izrādījās 0,98. Citiem vārdiem sakot, lineārā korekcija, izmantojot funkciju:
f (x) = 2,1x - 1
Tas ir 98% ticams, izskaidrojot datus, ar kuriem tie iegūti, izmantojot mazāko kvadrātu metodi.
Papildus noteikšanas koeficientam ir arī lineārās korelācijas koeficients vai arī pazīstams kā Pīrsona koeficients. Šo koeficientu, kas apzīmēts kā r, aprēķina pēc šādas attiecības:
r = seksīgs / (Sx Sy)
Šeit skaitītājs apzīmē kovariāciju starp mainīgajiem X un Y, savukārt saucējs ir mainīgā X standarta novirzes un mainīgā Y standarta novirzes reizinājums.
Pīrsona koeficients var iegūt vērtības no -1 līdz +1. Kad šim koeficientam ir tendence uz +1, pastāv tieša lineārā korelācija starp X un Y. Ja tā vietā ir tendence uz -1, pastāv lineāra korelācija, bet, kad X aug, Y samazinās. Visbeidzot, tas ir tuvu 0, starp abiem mainīgajiem nav korelācijas.
Jāatzīmē, ka noteikšanas koeficients sakrīt ar Pīrsona koeficienta kvadrātu tikai tad, ja pirmais ir aprēķināts, pamatojoties uz lineāru saderību, taču šī vienādība nav derīga citām nelineārām derībām.
Piemēri
- 1. piemērs
Vidusskolēnu grupa izlēma noteikt empīrisko likumu svārsta periodam kā tā garuma funkciju. Lai sasniegtu šo mērķi, viņi veic virkni mērījumu, kuros mēra svārsta svārstību laiku dažādiem garumiem, iegūstot šādas vērtības:
Garums (m) | Periods (-i) |
---|---|
0,1 | 0,6 |
0,4 | 1.31 |
0.7 | 1,78 |
viens | 1,93 |
1.3 | 2.19 |
1.6 | 2,66 |
1.9 | 2,77 |
3 | 3.62 |
Tiek lūgts veikt datu izkliedes diagrammu un veikt lineāru pielāgošanu ar regresijas palīdzību. Parādiet arī regresijas vienādojumu un tā noteikšanas koeficientu.
Risinājums
2. attēls. 1. uzdevuma risinājuma diagramma. Avots: F. Zapata.
Var novērot diezgan augstu noteikšanas koeficientu (95%), tāpēc varētu domāt, ka lineārā piemērotība ir optimāla. Tomēr, ja punkti tiek apskatīti kopā, tiem, šķiet, ir tendence izliekties uz leju. Šī detaļa nav apskatīta lineārajā modelī.
- 2. piemērs
Šiem pašiem datiem 1. piemērā izveidojiet datu izkliedes diagrammu. Šajā gadījumā, atšķirībā no 1. piemēra, tiek pieprasīta regresijas korekcija, izmantojot potenciālo funkciju.
3. attēls. 2. uzdevuma risinājuma diagramma. Avots: F. Zapata.
Parādiet arī piemērotības funkciju un tās noteikšanas koeficientu R 2 .
Risinājums
Potenciālā funkcija ir no formas f (x) = B ass , kur A un B ir konstantes, kuras nosaka ar mazāko kvadrātu metodi.
Iepriekšējais attēls parāda potenciālo funkciju un tās parametrus, kā arī noteikšanas koeficientu ar ļoti augstu vērtību - 99%. Ievērojiet, ka dati seko tendences līnijas izliekumam.
- 3. piemērs
Izmantojot tos pašus datus no 1. un 2. piemēra, veiciet otrās pakāpes polinomu pielāgošanu. Parādiet grafiku, piemēroto polinomu un atbilstošo noteikšanas koeficientu R 2 .
Risinājums
4. attēls. 3. uzdevuma risinājuma diagramma. Avots: F. Zapata.
Izmantojot otrās pakāpes polinomu, jūs varat redzēt tendences līniju, kas labi atbilst datu izliekumam. Arī noteikšanas koeficients ir virs lineārā un zem potenciālā.
Piemērots salīdzinājums
No trim parādītajiem variantiem viens ar augstāko noteikšanas koeficientu ir potenciālais pielietojums (2. piemērs).
Potenciālā ietilpība sakrīt ar svārsta fizikālo teoriju, kas, kā zināms, nosaka, ka svārsta periods ir proporcionāls tā garuma kvadrātsaknei, proporcionalitātes konstante ir 2π / √g, kur g ir gravitācijas paātrinājums.
Šim potenciālajam piemērotības veidam ir ne tikai augstākais noteikšanas koeficients, bet proporcionalitātes eksponents un konstante atbilst fiziskajam modelim.
Secinājumi
- Regresijas korekcija nosaka tās funkcijas parametrus, kuras mērķis ir izskaidrot datus, izmantojot mazāko kvadrātu metodi. Šī metode sastāv no datu Xi vērtību kvadrātiskās starpības summas samazināšanas starp Y korekcijas vērtību un Yi vērtību. Tas nosaka iestatīšanas funkcijas parametrus.
-Kā mēs redzējām, visizplatītākā pielāgošanas funkcija ir līnija, taču tā nav vienīgā, jo pielāgojumi var būt arī polinoma, potenciālie, eksponenciālie, logaritmiskie un citi.
- Jebkurā gadījumā noteikšanas koeficients ir atkarīgs no datiem un pielāgojuma veida un ir norādes par piemērotās korekcijas labestību.
-Visbeidzot, noteikšanas koeficients norāda procentuālo daļu no kopējās mainības starp datu Y vērtību attiecībā pret X piešķirtās korekcijas Ŷ vērtību.
Atsauces
- González C. Vispārīgā statistika. Atgūts no: tarwi.lamolina.edu.pe
- IAKS. Aragonas veselības zinātņu institūts. Atgūts no: ics-aragon.com
- Salazar C. un Castillo S. Statistikas pamatprincipi. (2018). Atgūts no: dspace.uce.edu.ec
- Superprof. Noteikšanas koeficients. Atgūts no: superprof.es
- USAC. Aprakstošā statistikas rokasgrāmata. (2011). Atgūts no: statistika.ingenieria.usac.edu.gt.
- Wikipedia. Noteikšanas koeficients. Atgūts no: es.wikipedia.com.