De grupperte data er de som er klassifisert i kategorier eller klasser, og tar deres frekvens som et kriterium. Dette gjøres for å forenkle håndteringen av store datamengder og etablere trender..
Når dataene er organisert i disse klassene etter frekvenser, utgjør de en frekvensfordeling, hvor nyttig informasjon blir hentet ut gjennom egenskapene.
Her er et enkelt eksempel på grupperte data:
Anta at høyden på 100 kvinnelige studenter, valgt fra alle de grunnleggende fysikkursene til et universitet, måles og følgende resultater oppnås:
De oppnådde resultatene ble delt inn i 5 klasser, som vises i venstre kolonne.
Første klasse, mellom 155 og 159 cm, har 6 elever, andre klasse 160 - 164 cm har 14 elever, tredje klasse på 165 til 169 cm har flest medlemmer: 47. Deretter fortsetter klassen 170-174 cm med 28 studenter og til slutt 175-174 cm med bare 5.
Antall medlemmer i hver klasse er nøyaktig Frekvens eller Absolutt frecuency og når du legger til alle, oppnås den totale data, som i dette eksemplet er 100.
Artikkelindeks
Som vi har sett, er frekvensen antall ganger et stykke data blir gjentatt. Og for å lette beregningene av egenskapene til fordelingen, som gjennomsnitt og varians, er følgende størrelser definert:
-Kumulativ frekvens: det oppnås ved å legge til frekvensen til en klasse med den forrige akkumulerte frekvensen. Den første av alle frekvenser samsvarer med intervallet i spørsmålet, og den siste er det totale antallet data.
-Relativ frekvens: beregnes ved å dele den absolutte frekvensen til hver klasse med det totale antall data. Og hvis du multipliserer med 100, har du den relative prosentfrekvensen.
-Kumulativ relativ frekvens: er summen av de relative frekvensene for hver klasse med den forrige akkumulerte. Den siste av de akkumulerte relative frekvensene må være lik 1.
For vårt eksempel ser frekvensene slik ut:
De ekstreme verdiene for hver klasse eller intervall kalles klassegrenser. Som vi kan se, har hver klasse en lavere og en høyere grense. For eksempel har første klasse i studien om høyder en nedre grense på 155 cm og en høyere grense på 159 cm..
Dette eksemplet har klart definerte grenser, men det er mulig å definere åpne grenser: hvis du i stedet for å definere de nøyaktige verdiene, sier "høyde mindre enn 160 cm", "høyde mindre enn 165 cm" og så videre.
Høyde er en kontinuerlig variabel, så det kan betraktes at første klasse faktisk starter på 154,5 cm, siden avrunding av denne verdien til nærmeste heltall gir 155 cm.
Denne klassen dekker alle verdier opp til 159,5 cm, for etter dette er høydene avrundet til 160,0 cm. En høyde på 159,7 cm tilhører allerede følgende klasse.
De faktiske klassegrensene for dette eksemplet er, i cm:
Bredden på en klasse oppnås ved å trekke grensene. For det første intervallet i eksemplet vårt har vi 159,5 - 154,5 cm = 5 cm.
Leseren kan verifisere at amplituden også er 5 cm for de andre intervallene i eksemplet. Imidlertid bør det bemerkes at distribusjoner kan konstrueres med intervaller med forskjellig amplitude.
Det er midtpunktet for intervallet og oppnås ved gjennomsnittet mellom øvre og nedre grense.
For vårt eksempel er det første klassemerket (155 + 159) / 2 = 157 cm. Leseren kan se at gjenværende klassemerker er: 162, 167, 172 og 177 cm.
Å bestemme klassemerker er viktig, da de er nødvendige for å finne det aritmetiske gjennomsnittet og variansen til fordelingen.
De mest brukte målene for sentral tendens er middelverdien, medianen og modusen, og de beskriver nøyaktig tendensen til dataene til å klynges rundt en viss sentral verdi..
Det er et av hovedmålene for sentral tendens. I de grupperte dataene kan det aritmetiske gjennomsnittet beregnes ved hjelp av formelen:
-X er gjennomsnittet
-FJeg er frekvensen til klassen
-mJeg er klassemerket
-g er antall klasser
-n er det totale antallet data
For medianen er det nødvendig å identifisere intervallet der observasjonen n / 2 er funnet. I vårt eksempel er denne observasjonen nummer 50, fordi det er totalt 100 datapunkter. Denne observasjonen er i området 165-169 cm.
Deretter må du interpolere for å finne den numeriske verdien som tilsvarer den observasjonen, som formelen brukes for:
Hvor:
-c = bredden på intervallet der medianen er funnet
-BM = den nedre grensen for intervallet som medianen tilhører
-Fm = antall observasjoner i medianintervallet
-n / 2 = halvparten av totale data
-FBM = totalt antall observasjoner før medianintervall
For modusen identifiseres modalklassen, den som inneholder flest observasjoner, hvis klassemerke er kjent.
Variansen og standardavviket er mål for spredning. Hvis vi betegner avviket med sto og standardavviket, som er kvadratroten til variansen som s, for grupperte data vil vi ha henholdsvis:
Y
For fordelingen av høydene til kvinnelige universitetsstudenter som ble foreslått i begynnelsen, beregne verdiene av:
a) Gjennomsnitt
b) Median
c) Mote
d) Avvik og standardavvik.
La oss lage følgende tabell for å lette beregningene:
Erstatte verdier og gjennomføre summeringen direkte:
X = (6 x 157 + 14 x 162 + 47 x 167 + 28 x 172+ 5 x 177) / 100 cm =
= 167,6 cm
Intervallet som medianen tilhører er 165-169 cm fordi det er intervallet med høyest frekvens.
La oss identifisere hver av disse verdiene i eksemplet, ved hjelp av tabell 2:
c = 5 cm (se amplitudeseksjonen)
BM = 164,5 cm
Fm = 47
n / 2 = 100/2 = 50
FBM = 20
Erstatter i formelen:
Intervallet som inneholder de fleste observasjonene er 165-169 cm, hvis klassemerke er 167 cm.
Vi utvider forrige tabell ved å legge til to ekstra kolonner:
Vi bruker formelen:
Og vi utvikler summeringen:
sto = (6 x 112,36 + 14 x 31,36 + 47 x 0,36 + 28 x 19,36 + 5 x 88,36) / 99 = = 21,35 cmto
Derfor:
s = √21,35 cmto = 4,6 cm
Ingen har kommentert denne artikkelen ennå.