U rješavanju zadataka na ovim vježbama biti će vam korisne ove funkcije:
| Funkcija | Opis |
|---|---|
| summary | osnovna deskriptivna statistika |
| min | minimum |
| max | maksimum |
| mean | aritmetička sredina |
| median | medijan |
| sd | standardna devijacija |
| var | varijanca |
| IQR | interkvartilni raspon |
| min | minimum |
| max | maksimum |
| hist | histogram |
| boxplot | dijagram s kutijom |
| stem | dijagram peteljka s listovima |
| sort | slaže redoslijed vrijednosti varijable od najmanje do najveće |
#Zadatak 1
Ovdje su prikazani podaci o broju konjskih snaga automobila o kojima je pisano u HAK-ovom časopisu.
KS <- c(155, 142, 125, 150, 68, 95, 97, 75, 103, 125, 115, 133, 105, 85, 110, 120, 130, 129, 138, 135, 88, 109, 65, 80, 80, 71, 68, 90, 115, 115, 90, 70, 65, 69, 78, 97, 110, 71)
KS. Prikažite
distribuciju grafički i deskriptivnim statistikama.sort(KS)
## [1] 65 65 68 68 69 70 71 71 75 78 80 80 85 88 90 90 95 97 97
## [20] 103 105 109 110 110 115 115 115 120 125 125 129 130 133 135 138 142 150 155
summary(KS)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 65.0 78.5 100.0 101.7 123.8 155.0
hist(KS,
breaks=10,
xlab="KS",
ylab="Broj automobila",
main="Histogram varijable KS",
las=1, col=5)
stem(KS)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 6 | 55889
## 7 | 01158
## 8 | 0058
## 9 | 00577
## 10 | 359
## 11 | 00555
## 12 | 0559
## 13 | 0358
## 14 | 2
## 15 | 05
boxplot(KS, col="yellow", horizontal=TRUE)
sd(KS) #standardna devijacija
## [1] 26.44493
IQR(KS) #Q3-Q1
## [1] 45.25
Histogram je iskošen u desno i unimodalan. Centar razdiobe je od 60 do 80 KS. Raspon vrijednosti je od 60 do 160. Nema stršila. Jer je iskošen u desno podatke ćemo opisati preko medijana i interkvartila. Medijan iznosi 100 (50% automobila ima manje od 100KS, a 50% automobila ima više od 100KS), a interkvartil IQR=45.25. Ako su podaci simetrični i nema stršila onda ih opisujemo s aritmetičkom sredinom (Mean) i standardnom devijacijom (sd).
boxplot.(Me<- median(KS)) #medijan
## [1] 100
(MIN<-min(KS)) #minimum
## [1] 65
(MAX<-max(KS)) #maksimum
## [1] 155
(Q1<-quantile(KS,probs=0.25)) #donji kvartil
## 25%
## 78.5
(Q3<-quantile(KS,probs=0.75)) #gornji kvartil
## 75%
## 123.75
(IQR<-Q3-Q1) #interkvartilni raspon
## 75%
## 45.25
Medijan je sredina kutije, a rubovi gornji i donji kvartil. Za računanje brkova(krajnjih granica) treba pogledati koliko iznosi:
Q1-1.5*IQR
## 25%
## 10.625
Q3+1.5*IQR
## 75%
## 191.625
Prva vrijednost veća od 10.625 je donja granica brka, a prva vrijednost manja od 191.625 je gornja granica. U ovom slučaju donja i gornja granica su minimum i maksimum. Ako ostane neka vrijednost izvan 10.625 i 191.625 onda se ona označi točkicom i predstavlja stršilo.
Učitavanje podataka:
library(readxl)
cookie_business <- read_excel("cookie_business.xlsx")
Age te opišite
distribuciju podataka? (Jesu li podaci simetrični ili lijevo ili desno
iskošeni, jesu li unimodalni, bimodalni ili više modalni, centar,
raspon, stršila)hist(cookie_business$Age,
breaks=7,
xlab="Dob",
ylab="Broj osoba",
main="Histogram varijable dob",
las=1, col=10)
Za navedeni histogram vidimo da je unimodalan i iskošen u desno. Iz histograma možemo pročitati da je 12 osoba staro između 10 i 20 godina, 10 između 20 i 30. Također je centar simetrije od 10 do 20 godina, a raspon podataka od 10 do 70 godina. Ne vide se stršila.
stem(cookie_business$Age)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 1 | 23677778899
## 2 | 0122225699
## 3 | 012233467
## 4 | 022456
## 5 | 23578
## 6 | 01468
stripchart(as.numeric(cookie_business$Age), method="stack", pch=1)
library(psych)
describe(cookie_business$Age)
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 46 34.17 16.19 31.5 33.03 18.53 12 68 56 0.56 -0.95 2.39
summary(cookie_business$Age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 20.25 31.50 34.17 44.75 68.00
mean(cookie_business$Age) #aritmetička sredina
## [1] 34.17391
sd(cookie_business$Age) #standardna devijacija
## [1] 16.18958
sd(cookie_business$Age)/mean(cookie_business$Age) #koeficijent varijacije
## [1] 0.4737408
Prosječna dob osobe koja je kupovala kolače iznosi 34,17 godina, uz prosječno odstupanje od aritmetičke sredine od 16,19 godina, tj. 47%.
boxplot(cookie_business$Age,col="lightblue", horizontal=TRUE)
Cookies bought each week). Također za navedenu
varijablu izračunajte karakteristične točke dijagrama s pravokutnikom
(početak i kraj kutije, početak i kraj “brkova”, položaj centralne crte)
bez korištenja funkcije boxplot.summary(cookie_business)
## Customer ID Age Age Group Postcode
## Min. :1001 Min. :12.00 Min. :1.000 Min. :2000
## 1st Qu.:1012 1st Qu.:20.25 1st Qu.:2.000 1st Qu.:2000
## Median :1024 Median :31.50 Median :3.000 Median :2014
## Mean :1024 Mean :34.17 Mean :2.978 Mean :2136
## 3rd Qu.:1035 3rd Qu.:44.75 3rd Qu.:4.000 3rd Qu.:2296
## Max. :1046 Max. :68.00 Max. :6.000 Max. :2873
## Gender Favourite Cookie Cookies bought each week
## Length:46 Length:46 Min. : 1.00
## Class :character Class :character 1st Qu.: 1.25
## Mode :character Mode :character Median : 3.00
## Mean : 4.00
## 3rd Qu.: 5.75
## Max. :20.00
boxplot(cookie_business$`Cookies bought each week`,col="lightblue", horizontal=TRUE)
Medijan iznosi 3. 1. kvartil iznosi 1.25, 3 kvartil 5.75. Maksimum je
20, dok je minimum 1. f. Nacrtajte scatterplot za varijable dob i broj
kupljenih kolača tjedno te opišite povezanost. (oblik povezanosti,
stršila, jačinu povezanosti, smjer povezanosti)
plot(cookie_business$Age, cookie_business$`Cookies bought each week`, main="Scatterplot",
xlab="Dob kupca ", ylab="Broj kupljenih kolača ", pch=19)
Slaba negativna linearna povezanost s jednim stršilom (osobom 20,20).
Učitavanje podataka:
Bodovi <- read_excel("Bodovi_statistikaIPS.xlsx")
describe.by(Bodovi$kol1, group=Bodovi$Grupa,mat=TRUE)
## Warning: describe.by is deprecated. Please use the describeBy function
## item group1 vars n mean sd median trimmed mad min max
## X11 1 G1 1 119 21.19748 8.510517 21.0 21.07732 8.1543 3 42.5
## X12 2 G2 1 91 18.54945 7.575199 18.5 18.21918 8.8956 5 41.0
## X13 3 G3 1 80 22.93125 8.945596 23.5 22.51562 9.6369 0 44.0
## range skew kurtosis se
## X11 39.5 0.1262484 -0.3001397 0.7801578
## X12 36.0 0.4202276 -0.4146470 0.7940966
## X13 44.0 0.2404938 -0.2241259 1.0001481
boxplot(Bodovi$kol1 ~ Bodovi$Grupa,
col = rainbow(3), xlab="Grupa",ylab="Bodovi na prvom kolokviju")
describe.by(Bodovi$kol2, group=Bodovi$Grupa,mat=TRUE)
## Warning: describe.by is deprecated. Please use the describeBy function
## item group1 vars n mean sd median trimmed mad min max
## X11 1 G1 1 120 14.98750 9.220561 14.5 14.73438 9.6369 0 36
## X12 2 G2 1 91 18.54396 10.560579 21.0 18.56164 11.8608 0 42
## X13 3 G3 1 80 23.15000 11.193748 23.0 23.42188 11.8608 0 45
## range skew kurtosis se
## X11 36 0.18882941 -0.8596183 0.8417182
## X12 42 -0.07650947 -0.9322751 1.1070495
## X13 45 -0.17914515 -0.6341414 1.2514991
boxplot(Bodovi$kol2 ~ Bodovi$Grupa,
col = rainbow(3), xlab="Grupa",ylab="Bodovi na drugom kolokviju")
Srednje jaka linearna povezanost. Ima jedno stršilo (0,30).
plot(jitter(Bodovi$kol1), Bodovi$kol2, main="Scatterplot",
xlab="Bodovi na prvom kolokviju ", ylab="Bodovi na drugom kolokviju ", pch=16, col="lightblue")