#Primer Maraton-slide 49
podatki<- read.table ("~/MAGISTERIJ/MTRD R STUDIO/Maraton/Maraton.csv",
header=TRUE,
sep=";",
dec=",")
head(podatki)
## ID Teža Višina Tlak Utrip Hemoglobin Hematokrit Holesterol Glukoza Spol
## 1 1 72 179.0 105 64 160 50 4.9 4.7 1
## 2 2 68 178.0 105 60 158 51 4.8 4.9 0
## 3 3 64 174.0 109 54 155 51 4.5 7.0 0
## 4 4 63 174.0 112 54 153 58 8.0 7.2 0
## 5 5 61 173.5 100 53 152 59 4.6 6.7 0
## 6 6 60 173.0 99 53 158 49 3.9 6.0 0
Enota proučevanja: Atlet med 18 in 25 let. Številske razmernostne, spol pa je nominalen.
round(mean(podatki$Višina), 2)
## [1] 176.96
round(sd(podatki$Višina), 2)
## [1] 5.85
Pojasnitev: Če bi se višina porazdeljevala normalno, lahko pričakujemo da bo 68% vseh atletov visokih na tem intervalu.
Lahko tudi takole:
library("psych")
describe(podatki$Višina)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 35 176.96 5.85 177 176.91 5.93 166 189 23 -0.03 -0.96 0.99
podatki$Spol_factor<- factor(podatki$Spol,
levels= c(0, 1),
labels= c("Z", "M"))
1.način
describeBy(podatki$Glukoza, podatki$Spol_factor)
##
## Descriptive statistics by group
## group: Z
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 14 5.96 0.93 5.8 5.97 1.33 4.6 7.2 2.6 0.12 -1.62 0.25
## ------------------------------------------------------------
## group: M
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 21 4.54 0.7 4.6 4.45 0.74 3.8 6 2.2 0.97 -0.13 0.15
2.način:
podatkiZ <-podatki[podatki$Spol_factor == "Z" , ]
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
podatkiM <- podatki %>%
filter(Spol_factor == "M")
describe(podatkiM$Glukoza)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 21 4.54 0.7 4.6 4.45 0.74 3.8 6 2.2 0.97 -0.13 0.15
describe(podatkiZ$Glukoza)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 14 5.96 0.93 5.8 5.97 1.33 4.6 7.2 2.6 0.12 -1.62 0.25
library(pastecs)
##
## Attaching package: 'pastecs'
## The following objects are masked from 'package:dplyr':
##
## first, last
round(stat.desc(podatki[c(-1, -10, -11)]), 3)
## Teža Višina Tlak Utrip Hemoglobin Hematokrit
## nbr.val 35.000 35.000 35.000 35.000 35.000 35.000
## nbr.null 0.000 0.000 0.000 0.000 0.000 0.000
## nbr.na 0.000 0.000 0.000 0.000 0.000 0.000
## min 55.000 166.000 90.000 49.000 143.000 45.000
## max 81.000 189.000 135.000 64.000 183.000 69.000
## range 26.000 23.000 45.000 15.000 40.000 24.000
## sum 2375.000 6193.500 3838.000 1967.000 5445.000 1801.000
## median 68.000 177.000 108.000 55.000 157.000 51.000
## mean 67.857 176.957 109.657 56.200 155.571 51.457
## SE.mean 1.298 0.989 1.793 0.672 1.446 0.819
## CI.mean.0.95 2.639 2.010 3.643 1.366 2.938 1.665
## var 59.008 34.241 112.467 15.812 73.134 23.491
## std.dev 7.682 5.852 10.605 3.976 8.552 4.847
## coef.var 0.113 0.033 0.097 0.071 0.055 0.094
## Holesterol Glukoza
## nbr.val 35.000 35.000
## nbr.null 0.000 0.000
## nbr.na 0.000 0.000
## min 3.400 3.800
## max 8.000 7.200
## range 4.600 3.400
## sum 167.600 178.650
## median 4.700 4.800
## mean 4.789 5.104
## SE.mean 0.169 0.179
## CI.mean.0.95 0.344 0.363
## var 1.003 1.117
## std.dev 1.001 1.057
## coef.var 0.209 0.207
Na drugi strani je coef.var kar je koeficient variacije, edino ta je primerljiv (ker nima enot), je relativna mera variabilnost. Največjo variabilnost ima Holesterol.
library(ggplot2)
##
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
##
## %+%, alpha
ggplot(podatki, aes(x = Hematokrit)) +
geom_histogram(binwidth = 5, colour = "black", fill="lightsalmon") +
ylab("Frekvenca") +
theme_dark()
Porazdelitev je asimetrična v desno.
library(ggplot2)
ggplot(podatki, aes(y=Spol_factor, x=Glukoza)) +
geom_boxplot(fill="green") +
ylab("Spol") +
scale_x_continuous(breaks =seq(0, 10, 1), limits=c(0,10))