#Primer Maraton-slide 49

  1. Uvozite podatke v RStudio in jih prikažite.
podatki<- read.table ("~/MAGISTERIJ/MTRD R STUDIO/Maraton/Maraton.csv",
                       header=TRUE,
                       sep=";",
                       dec=",")

head(podatki)
##   ID Teža Višina Tlak Utrip Hemoglobin Hematokrit Holesterol Glukoza Spol
## 1  1   72  179.0  105    64        160         50        4.9     4.7    1
## 2  2   68  178.0  105    60        158         51        4.8     4.9    0
## 3  3   64  174.0  109    54        155         51        4.5     7.0    0
## 4  4   63  174.0  112    54        153         58        8.0     7.2    0
## 5  5   61  173.5  100    53        152         59        4.6     6.7    0
## 6  6   60  173.0   99    53        158         49        3.9     6.0    0
  1. Opredeite enoto proučevanja ter razložite, katerim merskim lestvicam pripadajo proučevane spremenljivke. Dodatna razlaga spremenljivke Spol: 0:Z, 1:M

Enota proučevanja: Atlet med 18 in 25 let. Številske razmernostne, spol pa je nominalen.

  1. Za spremenljivko Višina ocenite in razložite aritmetično sredino in standardni odklon.
round(mean(podatki$Višina), 2)
## [1] 176.96
round(sd(podatki$Višina), 2)
## [1] 5.85

Pojasnitev: Če bi se višina porazdeljevala normalno, lahko pričakujemo da bo 68% vseh atletov visokih na tem intervalu.

Lahko tudi takole:

library("psych")
describe(podatki$Višina)
##    vars  n   mean   sd median trimmed  mad min max range  skew kurtosis   se
## X1    1 35 176.96 5.85    177  176.91 5.93 166 189    23 -0.03    -0.96 0.99
  1. Spremenljivko Spol spremenite v faktor.
podatki$Spol_factor<- factor(podatki$Spol,
                             levels= c(0, 1),
                             labels= c("Z", "M"))
  1. Za vsak spol posebej ocenite opisno statistiko za spremenljivko Glukoza.

1.način

describeBy(podatki$Glukoza, podatki$Spol_factor)
## 
##  Descriptive statistics by group 
## group: Z
##    vars  n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 14 5.96 0.93    5.8    5.97 1.33 4.6 7.2   2.6 0.12    -1.62 0.25
## ------------------------------------------------------------ 
## group: M
##    vars  n mean  sd median trimmed  mad min max range skew kurtosis   se
## X1    1 21 4.54 0.7    4.6    4.45 0.74 3.8   6   2.2 0.97    -0.13 0.15

2.način:

podatkiZ <-podatki[podatki$Spol_factor == "Z" , ]
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
podatkiM <- podatki %>%
  filter(Spol_factor == "M")
describe(podatkiM$Glukoza)
##    vars  n mean  sd median trimmed  mad min max range skew kurtosis   se
## X1    1 21 4.54 0.7    4.6    4.45 0.74 3.8   6   2.2 0.97    -0.13 0.15
describe(podatkiZ$Glukoza)
##    vars  n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 14 5.96 0.93    5.8    5.97 1.33 4.6 7.2   2.6 0.12    -1.62 0.25
  1. S funkcijo stat.desc prikažite opisno statistiko spremenljivk in preverite, če poznate vse ocenjene parametre. Katera spremenljivka ima največjo variabilnost?
library(pastecs)
## 
## Attaching package: 'pastecs'
## The following objects are masked from 'package:dplyr':
## 
##     first, last
round(stat.desc(podatki[c(-1, -10, -11)]), 3)
##                  Teža   Višina     Tlak    Utrip Hemoglobin Hematokrit
## nbr.val        35.000   35.000   35.000   35.000     35.000     35.000
## nbr.null        0.000    0.000    0.000    0.000      0.000      0.000
## nbr.na          0.000    0.000    0.000    0.000      0.000      0.000
## min            55.000  166.000   90.000   49.000    143.000     45.000
## max            81.000  189.000  135.000   64.000    183.000     69.000
## range          26.000   23.000   45.000   15.000     40.000     24.000
## sum          2375.000 6193.500 3838.000 1967.000   5445.000   1801.000
## median         68.000  177.000  108.000   55.000    157.000     51.000
## mean           67.857  176.957  109.657   56.200    155.571     51.457
## SE.mean         1.298    0.989    1.793    0.672      1.446      0.819
## CI.mean.0.95    2.639    2.010    3.643    1.366      2.938      1.665
## var            59.008   34.241  112.467   15.812     73.134     23.491
## std.dev         7.682    5.852   10.605    3.976      8.552      4.847
## coef.var        0.113    0.033    0.097    0.071      0.055      0.094
##              Holesterol Glukoza
## nbr.val          35.000  35.000
## nbr.null          0.000   0.000
## nbr.na            0.000   0.000
## min               3.400   3.800
## max               8.000   7.200
## range             4.600   3.400
## sum             167.600 178.650
## median            4.700   4.800
## mean              4.789   5.104
## SE.mean           0.169   0.179
## CI.mean.0.95      0.344   0.363
## var               1.003   1.117
## std.dev           1.001   1.057
## coef.var          0.209   0.207

Na drugi strani je coef.var kar je koeficient variacije, edino ta je primerljiv (ker nima enot), je relativna mera variabilnost. Največjo variabilnost ima Holesterol.

  1. Za spremenljibko Hematokrit narišite frekvenčno porazdelitev in jo opišite (to naredite v ggplotu).
library(ggplot2)
## 
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
## 
##     %+%, alpha
ggplot(podatki, aes(x = Hematokrit)) + 
  geom_histogram(binwidth = 5, colour = "black", fill="lightsalmon") +
  ylab("Frekvenca") +
  theme_dark()

Porazdelitev je asimetrična v desno.

  1. Za spremenljivko Glukoza narišite grafikon kvantilov, ločeno po spolu (v ggplotu).
library(ggplot2)
ggplot(podatki, aes(y=Spol_factor, x=Glukoza)) +
  geom_boxplot(fill="green") +
  ylab("Spol") +
  scale_x_continuous(breaks =seq(0, 10, 1), limits=c(0,10))