Cieľom popisnej štatistiky je prezentovať výsledky štatistického skúmania v prehľadnej, koncentrovanej forme. Poskytujú predstavu o celom sledovanom štatistickom súbore vo forme jednej alebo viacerých číselných hodnôt. Tieto číselné hodnoty, ktoré nazývame štatistické charakteristiky. Rozdeľujeme ich do dvoch základných skupín - charakteristiky polohy a charakteristiky variability.
Medzi charakteristiky polohy patrí aritmetický priemer, geometrický priemer, harmonický priemer, medián a modus, ale aj dolný kvartil, horný kvartil. Medzi charakteristiky variability patrí variačné rozpätie, rozptyl smerodajná odchýlka, kvartilová odchýlka.
CHARAKTERISTIKY POLOHY
Do premennej mojeudaje načítajme hodnoty: 2,3,5,8,9,7,5,6,2,7 . Vypíšme ich.
Najjedmoduchší spôsob ako získať vybrané popisné štatistiky je použiť príkaz summary. Počet údajov (rozsah súboru) zistime pomocou prikazu length.
mojeudaje = c(2,3,5,8,9,7,5,6,2,7)
mojeudaje
## [1] 2 3 5 8 9 7 5 6 2 7
summary(mojeudaje)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.0 3.5 5.5 5.4 7.0 9.0
length(mojeudaje)
## [1] 10
Z výstupu vidíme, že minimálna hodnota je 2, dolný kvartil je 3,5 (25 percent údajov je menších ako 3,5), medián je 5,5 (50 percent údajov je menších a 50 percent údajov je väčších ako 5,5), priemer je (myslí sa aritmetický priemer) je 5,4, horný kvartil je 7 (25 percent udajov je väčších ako 7), maximálna hodnota je 9.
Rozsah suboru je 10.
Jednotlivé charakteristiky môžeme vypočítať aj každú zvlášť.
minimum =min(mojeudaje)
minimum
## [1] 2
dkvartil= quantile(mojeudaje,0.25)
dkvartil
## 25%
## 3.5
median = median(mojeudaje)
median
## [1] 5.5
priemer = mean(mojeudaje)
priemer
## [1] 5.4
hkvartil= quantile(mojeudaje,0.75)
hkvartil
## 75%
## 7
maximum=max(mojeudaje)
maximum
## [1] 9
Poznámka:
Funkcia quantile vracia kvantil pre analyzované údaje. Funkcia umožňuje vybrať jeden z 9 možných spôsobov výpočtu pomocou argumentu type. Prednastavená hodnota argumentu je type=7. Podrobnejšie informácie (vrátane vzorcov) získame, keď v R-ku napíšeme ?quantile .
Vypočítajme geometrický priemer. Package R Base neobsahuje funkciu, ktorá by geometrický priemer vypočítala. Vypočítame ho priamo zo vzorca dvoma spôsobmi.Druhý spôsob je z numerického hľadiska vhodnejší.
geompr1 = prod(mojeudaje)^(1/length(mojeudaje))
geompr1
## [1] 4.789389
geompr2 = exp(mean(log(mojeudaje)))
geompr2
## [1] 4.789389
Geometrický priemer je 4,789389.
Zostáva nám vypočítať harmonický priemer. Načítame knižnicu psych. Iná možnosť je vypočítať harmonický priemer priamo zo vzorca. Uvádzame oba spôsoby.
library(psych)
## Warning: package 'psych' was built under R version 4.0.3
harmpr =harmonic.mean(mojeudaje)
harmpr
## [1] 4.129117
harmpriemer = length(mojeudaje) /sum(1/mojeudaje)
harmpriemer
## [1] 4.129117
Harmonický priemer je 4,129117.
V literatúre stretávame sa tiež s pojmom kvadratický a kubický priemer. Používajú sa na spriemerovanie plošných, resp.objemových veličín. Vypočítajme ich zo vzorca.
kvpr=(sum(mojeudaje^2)/length(mojeudaje))^(1/2)
kvpr
## [1] 5.882176
kubpr=(sum(mojeudaje^3)/length(mojeudaje))^(1/3)
kubpr
## [1] 6.245383
Kvadratický priemer je 5,882176 ; kubický priemer je 6,245383 .
V prípade extrémnych hodnôt alebo zošikmených rozdelení je zastrihnutý priemer (trimmed mean) vhodnejšou charakteristikou polohy ako aritmetický priemer. Urežeme určité dané percento najmenších a najväčších hodnôt. Použijeme funkciu mean. Argument trim = 0 v prípade, že počítame priemer zo všetkých údajov. V prípade, že chceme vylúčiť z výpočtu priemeru veľmi malé aveľmi veľké hodnoty volíme hodnotu argumentu ako číslo z intervalu (0;0,5). Argument trim je obvykle 0,10; t.j. počítame priemer po vylúčení 10 percent najmenších a 10 najväčších hodnôt.
m=mean(mojeudaje)
m10=mean(mojeudaje,trim=0.10)
m10
## [1] 5.375
10 percentný zastrihnutý priemer je 5,375.
Može sa stať, že pri analýze údajov potrebujeme vypočítať priemer údajov po vylúčení p percent najmenších, resp. najväčích hodnôt. Zvoľme p=10 percent. Vypíšme údaje po vylúčení 10 percent najmenších hodnôt. Potom vypočíajme priemer z údajov po vylúčení 10 percent najmenších hodnôt.
mojeudaje2=mojeudaje [mojeudaje > quantile(mojeudaje, .10)]
mojeudaje2
## [1] 3 5 8 9 7 5 6 7
priemerbez10 = mean(mojeudaje2)
priemerbez10
## [1] 6.25
Priemer údajov po vylúčení desiatich percent najmenších hodnôt je 6,25.
V prípade, že na objektoch skúmame viacero znakov,môže sa stať, že niektoré hodnoty pre niektoré znaky chýbajú. Stručne povedané súbor obsahuje chýbajúce hodnoty. Súbor (presnejšie povedané vektor údajov) chybaudaj má tri chybajuce hodnoty (značia sa NA). Prikaz na výpočet priemeru musí mať argument na.rm hodnotu TRUE, t.j. na.rm = TRUE.
Poznamka: Niekedy môže byť užitočné zaokrúhliť výsledok na určitý počet desatinných miest. Ako ukážku zaokrúhlime priemer na tri desatinné miesta.
chybaudaj = c(56,45,89,78,65,32,NA,1,5,NA,NA,456)
chybaudaj
## [1] 56 45 89 78 65 32 NA 1 5 NA NA 456
priemer=mean(chybaudaj,na.rm = TRUE)
priemer
## [1] 91.88889
zaokr=format(round(priemer, 2), nsmall = 3)
zaokr
## [1] "91.890"
Výpočet modusu, najčastejšie sa vyskytujúcej hodnoty sme nechali na záver. Package R Base neobsahuje funkciu na výpočet modusu. Na výpočet modusu použijeme funkciu (prevzate z https://statisticsglobe.com/mode-in-r-programming-example)
modus= function(x)
{
unique_x <- unique(x)
tabulate_x <- tabulate(match(x, unique_x))
unique_x[tabulate_x == max(tabulate_x)]
}
Mo=modus(mojeudaje)
Mo
## [1] 2 5 7
Náš súbor mojeudaje má tri modusy:2, 5 a 7.
Poznámka:
Nesmieme sa uspokojiť s popisnými štatistikami. Nasledujúci jednoduchý príklad iba s niekoľkými údajmi je toho dôkazom. Oba súbory majú rovnaký priemer, rovnaký medián a dokonca rovnaký dolný kvartil. Funkcie hustoty na obrázku však hovoria o tom, že sa jedná o premenné úplne rozdielne (s rozdielnymi fukciami hustoty). V literatúre nájdeme sofistikovanejšie príklady.
Pomocou príkazu par rozdelíme plochu pre grafický výstup na 1 riadok a 2 stĺpce.
udaje1=c(2, 2, 2, 3.59, 3.41, 2, 4.025, 1.975, 2, 2.95, 5.05, 2.7, 0.1)
udaje2=c(2, 2, 4.1,2, 2, 2, 1.7, 5)
summary (udaje1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.10 2.00 2.00 2.60 3.41 5.05
summary (udaje2)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.700 2.000 2.000 2.600 2.525 5.000
par(mfrow=c(1, 2))
hustota1=density(udaje1)
hustota2=density(udaje2)
plot(hustota1, main="Prvý súbor")
polygon(hustota1, col="green3", border="black")
plot(hustota2, main="Druhý súbor")
polygon(hustota2, col="green3", border="black")
Literatúra:
R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
Revelle, W. (2020) psych: Procedures for Personality and Psychological Research, Northwestern University, Evanston, Illinois, USA, https://CRAN.R-project.org/package=psych Version = 2.0.12,.
https://statisticsglobe.com/mode-in-r-programming-example
Markechová, D., Tirpáková, A. & Stehlíková, B. (2011). Základy štatistiky pre pedagógov. Nitra: uKF.
Paneurópska vysoká škola v Bratislave
GA/2/2019 “Využitie informačných technológií pri rozvoji aplikačných možností kvantitatívnych metód v ekonómii”