Klase zīme , kas pazīstams arī kā viduspunktā, ir vērtība centrā klases, kas pārstāv visas vērtības, kas ir šajā kategorijā. Pamatā klases atzīme tiek izmantota noteiktu parametru, piemēram, vidējā aritmētiskā vai standarta novirzes, aprēķināšanai.
Tātad klases zīme ir jebkura intervāla viduspunkts. Šī vērtība ir arī ļoti noderīga, lai atrastu datu kopas dispersiju, kas jau ir sagrupēta kategorijās, kas savukārt ļauj mums saprast, cik tālu no centra atrodas šie specifiskie dati.
Frekvences sadalījums
Lai saprastu, kas ir klases zīme, ir nepieciešams frekvences sadalījuma jēdziens. Ņemot vērā datu kopumu, frekvences sadalījums ir tabula, kas datus sadala vairākās kategorijās, ko sauc par klasēm.
Šajā tabulā parādīts elementu skaits, kas pieder katrai klasei; pēdējo sauc par frekvenci.
Šajā tabulā tiek upurēta daļa informācijas, ko mēs iegūstam no datiem, jo tā vietā, lai katram elementam būtu individuāla vērtība, mēs zinām tikai to, ka tas pieder šai klasei.
No otras puses, mēs iegūstam labāku izpratni par datu kopu, jo tādā veidā ir vieglāk novērtēt izveidotos modeļus, kas atvieglo manipulācijas ar minētajiem datiem.
Cik klases jāņem vērā?
Lai veiktu frekvences sadalījumu, mums vispirms jānosaka klašu skaits, kuras mēs vēlamies ņemt, un jāizvēlas to klašu robežas.
Izvēlei, cik klases jāveic, jābūt ērtai, ņemot vērā, ka neliels nodarbību skaits var slēpt informāciju par datiem, kurus mēs vēlamies izpētīt, un ļoti liela klase var radīt pārāk daudz detaļu, kas nebūt nav noderīgas.
Ir vairāki faktori, kas mums jāņem vērā, izvēloties, kuras klases ņemt, bet divi izceļas: pirmais ir ņemt vērā, cik daudz datu mums ir jāņem vērā; otrais ir zināt, cik liels ir sadalījuma diapazons (tas ir, atšķirība starp lielāko un mazāko novērojumu).
Pēc tam, kad klases jau ir definētas, mēs turpinām skaitīt, cik datu ir katrā klasē. Šo numuru sauc par klašu biežumu un apzīmē ar fi.
Kā mēs jau iepriekš teicām, mums ir tā, ka frekvences sadalījums zaudē informāciju, kas nāk atsevišķi no katra datu vai novērojuma. Šī iemesla dēļ tiek meklēta vērtība, kas apzīmē visu klasi, kurai tā pieder; šī vērtība ir klases zīme.
Kā to iegūst?
Klases atzīme ir pamatvērtība, ko klase pārstāv. To iegūst, saskaitot intervāla robežas un dalot šo vērtību ar divām. To varētu izteikt matemātiski šādi:
x i = (apakšējā robeža + augšējā robeža) / 2.
Šajā izteiksmē x i apzīmē i-tās klases atzīmi.
Piemērs
Ņemot vērā šo datu kopu, piešķiriet reprezentatīvu frekvences sadalījumu un iegūstiet atbilstošo klases atzīmi.
Tā kā dati ar augstāko skaitlisko vērtību ir 391 un zemākie - 221, tad diapazons ir 391 –221 = 170.
Mēs izvēlēsimies 5 klases, visām vienāda lieluma. Viens veids, kā izvēlēties nodarbības, ir šāds:
Ņemiet vērā, ka visi dati ir klasē, tie ir nesavienoti un tiem ir tāda pati vērtība. Vēl viens veids, kā izvēlēties klases, ir, apsverot datus kā nepārtraukta mainīgā daļu, kas varētu sasniegt jebkuru reālu vērtību. Šajā gadījumā mēs varam apsvērt formas klases:
205-245, 245-285, 285-325, 325-365, 365-405
Tomēr šāds datu grupēšanas veids var radīt dažas neskaidrības attiecībā uz robežām. Piemēram, 245 gadījumā rodas jautājums: kurai klasei tā pieder, pirmā vai otrā?
Lai izvairītos no šīs neskaidrības, tiek izveidots parametru apvienojums. Tādā veidā pirmā klase būs intervāls (205,245], otrā (245,285] utt.).
Kad klases ir noteiktas, mēs turpinām aprēķināt biežumu, un mums ir šāda tabula:
Pēc datu biežuma sadalījuma iegūšanas mēs turpinām atrast katra intervāla klases zīmes. Faktiski mums ir:
x 1 = (205+ 245) / 2 = 225
x 2 = (245+ 285) / 2 = 265
x 3 = (285+ 325) / 2 = 305
x 4 = (325+ 365) / 2 = 345
x 5 = (365+ 405) / 2 = 385
To var attēlot ar šādu diagrammu:
Kam tas domāts?
Kā minēts iepriekš, klases marķējums ir ļoti funkcionāls, lai atrastu aritmētisko vidējo un datu grupas dispersiju, kas jau ir sagrupēta dažādās klasēs.
Aritmētisko vidējo mēs varam definēt kā novērojumu summu, kas iegūta starp parauga lielumu. No fiziskā viedokļa tā interpretācija ir līdzīga datu kopas līdzsvara punktam.
Identificēt visu datu kopu ar vienu numuru var būt riskanti, tāpēc jāņem vērā arī atšķirība starp šo pārrāvuma punktu un faktiskajiem datiem. Šīs vērtības sauc par novirzi no vidējās aritmētiskās, un ar tām mēs cenšamies noteikt, cik ļoti atšķiras datu vidējais aritmētiskais.
Visizplatītākais veids, kā atrast šo vērtību, ir dispersija, kas ir vidējā noviržu kvadrātu no aritmētiskā vidējā vērtība.
Lai aprēķinātu aritmētisko vidējo un klasē esošo datu kopas dispersiju, mēs izmantojam attiecīgi šādas formulas:
Šajās izteiksmēs x i ir i-tās klases atzīme, f i apzīmē atbilstošo frekvenci un k to klašu skaitu, kurās dati ir sagrupēti.
Piemērs
Izmantojot iepriekšējā piemērā sniegtos datus, mēs varam nedaudz paplašināt frekvences sadalījuma tabulas datus. Jūs saņemat sekojošo:
Pēc tam, aizstājot datus formulā, vidējais aritmētiskais tiek atstāts šādi:
Tā dispersija un standartnovirze ir:
No tā mēs varam secināt, ka sākotnējo datu vidējais aritmētiskais ir 306,6 un standarta novirze 39,56.
Atsauces
- Fernandez F. Santiago, Cordoba L. Alejandro, Cordero S. Jose M. Aprakstošā statistika. Esic redakcija.
- Džonsons Ričards A. Millers un Freunda varbūtība un valstsvīri inženieriem Pīrsona izglītība.
- Millers I un Freunds J. Varbūtība un valstsvīri inženieriem. ATJAUNOT.
- Sarabia A. Jose Maria, Pascual Marta. Statistikas pamatkurss uzņēmumiem
- Llinás S. Humberto, Rojas A. Carlos Aprakstošā statistika un varbūtību sadalījums, Universidad del Norte Redakcija