- Kā aprēķināt korelācijas koeficientu?
- Kovariācija un dispersija
- Ilustratīvs gadījums
- Kovariācija Sxy
- Standarta novirze Sx
- Standarta novirze Sy
- Korelācijas koeficients r
- Interpretācija
- Lineārā regresija
- Piemērs
- Atsauces
Korelācijas koeficients statistikā ir rādītājs, ka pasākumi tendence divu kvantitatīvo mainīgo X un Y, ir lineārs vai proporcionāli attiecības starp tām.
Parasti mainīgo X un Y pāri ir vienas un tās pašas populācijas divi raksturlielumi. Piemēram, X var būt cilvēka augums un Y viņa svars.
1. attēls. Korelācijas koeficients četriem datu pāriem (X, Y). Avots: F. Zapata.
Šajā gadījumā korelācijas koeficients norāda, vai attiecīgajā populācijā ir tendence uz proporcionālu attiecību starp augstumu un svaru.
Pīrsona lineārās korelācijas koeficients tiek apzīmēts ar mazo burtu r, un tā minimālās un maksimālās vērtības ir attiecīgi -1 un +1.
Vērtība r = +1 norāda, ka pāru kopums (X, Y) ir perfekti izlīdzināti un, kad X aug, Y pieaugs tādā pašā proporcijā. No otras puses, ja notiktu, ka r = -1, arī pāru kopums būtu perfekti izlīdzināts, bet šajā gadījumā, kad X palielinās, Y samazinās tādā pašā proporcijā.
2. attēls. Lineārās korelācijas koeficienta dažādas vērtības. Avots: Wikimedia Commons.
No otras puses, vērtība r = 0 norāda, ka starp mainīgajiem X un Y nav lineāras korelācijas. Lai gan r = +0,8 vērtība norāda, ka pāriem (X, Y) ir tendence sagrupēties vienā pusē un vēl viena noteikta līnija.
Korelācijas koeficienta r aprēķināšanas formula ir šāda:
Kā aprēķināt korelācijas koeficientu?
Lineārās korelācijas koeficients ir statistiskais lielums, kas ir iebūvēts zinātniskajos kalkulatoros, lielākajā daļā izklājlapu un statistikas programmās.
Tomēr ir ērti zināt, kā tiek piemērota formula, kas to definē, un šim nolūkam tiks parādīts sīks aprēķins, kas veikts ar nelielu datu kopu.
Un kā teikts iepriekšējā sadaļā, korelācijas koeficients ir kovariācija Sxy, dalīta ar mainīgās vērtības X mainīgā lieluma X un Sy standartnovirzes Sx reizinājumu.
Kovariācija un dispersija
Kovariants Sxy ir:
Sxy = / (N-1)
Kur summa iet no 1 līdz N datu pāriem (Xi, Yi).
Savukārt mainīgā lieluma X standartnovirze ir datu kopas Xi dispersijas kvadrātsakne ar i no 1 līdz N:
Sx = √
Tāpat mainīgā Y standartnovirze ir datu kopas Yi dispersijas kvadrātsakne ar i no 1 līdz N:
Sy = √
Ilustratīvs gadījums
Lai sīki parādītu, kā aprēķināt korelācijas koeficientu, mēs ņemsim šādu četru datu pāru kopu
(X, Y): {(1, 1); (2. 3); (3, 6) un (4, 7)}.
Vispirms aprēķina X un Y vidējo aritmētisko vērtību šādi:
Tad tiek aprēķināti atlikušie parametri:
Kovariācija Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standarta novirze Sx
Sx = √ = √ = 1,29
Standarta novirze Sy
Sx = √ =
√ = 2,75
Korelācijas koeficients r
r = 3,5 / (1,29 * 2,75) = 0,98
Interpretācija
Iepriekšējā gadījuma datu kopā tiek novērota spēcīga lineārā korelācija starp mainīgajiem X un Y, kas izpaužas gan izkliedes diagrammā (parādīts 1. attēlā), gan korelācijas koeficientā, kas deva vērtība diezgan tuvu vienotībai.
Ciktāl korelācijas koeficients ir tuvāk 1 vai -1, jo vairāk jēgas ir datu pielāgošanai līnijai, tas ir lineāras regresijas rezultāts.
Lineārā regresija
Lineāro regresijas līniju iegūst ar mazāko kvadrātu metodi. kurā regresijas līnijas parametrus iegūst, minimizējot N datu atšķirības starp aprēķināto Y vērtību un Yi starpību kvadrātā.
No otras puses, regresijas līnijas y = a + bx parametri a un b, kas iegūti ar mazāko kvadrātu metodi, ir:
* b = Sxy / (Sx 2 ) slīpumam
* a =
Atgādiniet, ka Sxy ir iepriekš definētā kovariācija un Sx 2 ir iepriekš definētās standartnovirzes dispersija vai kvadrāts.
Piemērs
Korelācijas koeficientu izmanto, lai noteiktu, vai starp diviem mainīgajiem pastāv lineāra korelācija. Tas ir piemērojams, ja pētāmie mainīgie ir kvantitatīvi, un turklāt tiek pieņemts, ka tie seko normāla tipa sadalījumam.
Turpmāk sniegts ilustratīvs piemērs: aptaukošanās pakāpes mērs ir ķermeņa masas indekss, ko iegūst, dalot personas svaru kilogramos ar viņa kvadrāta augstumu kvadrātmetru vienībās.
Jūs vēlaties zināt, vai pastāv cieša korelācija starp ķermeņa masas indeksu un ABL holesterīna koncentrāciju asinīs, ko mēra milimolos litrā. Šim nolūkam tika veikts pētījums ar 533 cilvēkiem, kas ir apkopots nākamajā diagrammā, kurā katrs punkts apzīmē vienas personas datus.
3. attēls. ĶMI un ABL holesterīna līmeņa pētījums 533 pacientiem. Avots: Aragonas Veselības zinātņu institūts (IAKS).
Rūpīga diagrammas novērošana parāda, ka starp HDL holesterīna koncentrāciju un ķermeņa masas indeksu ir zināma lineāra tendence (ne pārāk izteikta). Šīs tendences kvantitatīvais rādītājs ir korelācijas koeficients, kas šajā gadījumā izrādījās r = -0,276.
Atsauces
- González C. Vispārīgā statistika. Atgūts no: tarwi.lamolina.edu.pe
- IAKS. Aragonas veselības zinātņu institūts. Atgūts no: ics-aragon.com
- Salazar C. un Castillo S. Statistikas pamatprincipi. (2018). Atgūts no: dspace.uce.edu.ec
- Superprof. Korelācijas koeficients. Atgūts no: superprof.es
- USAC. Aprakstošā statistikas rokasgrāmata. (2011). Atgūts no: statistika.ingenieria.usac.edu.gt
- Wikipedia. Pīrsona korelācijas koeficients. Atgūts no: es.wikipedia.com.