U rješavanju zadataka na ovim vježbama biti će vam korisne ove funkcije:

Funkcija Opis
summary osnovna deskriptivna statistika
min minimum
max maksimum
mean aritmetička sredina
median medijan
sd standardna devijacija
var varijanca
IQR interkvartilni raspon
min minimum
max maksimum
hist histogram
boxplot dijagram s kutijom
stem dijagram peteljka s listovima
sort slaže redoslijed vrijednosti varijable od najmanje do najveće

#Zadatak 1

Ovdje su prikazani podaci o broju konjskih snaga automobila o kojima je pisano u HAK-ovom časopisu.

KS <- c(155, 142, 125, 150, 68, 95, 97, 75, 103, 125, 115, 133, 105, 85, 110, 120, 130, 129, 138, 135, 88, 109, 65, 80, 80, 71, 68, 90, 115, 115, 90, 70, 65, 69, 78, 97, 110, 71)
  1. Opišite distribuciju varijable KS. Prikažite distribuciju grafički i deskriptivnim statistikama.
sort(KS)
##  [1]  65  65  68  68  69  70  71  71  75  78  80  80  85  88  90  90  95  97  97
## [20] 103 105 109 110 110 115 115 115 120 125 125 129 130 133 135 138 142 150 155
summary(KS)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    65.0    78.5   100.0   101.7   123.8   155.0
hist(KS, 
     breaks=10, 
     xlab="KS", 
     ylab="Broj automobila", 
     main="Histogram varijable KS", 
     las=1, col=5)

stem(KS)
## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##    6 | 55889
##    7 | 01158
##    8 | 0058
##    9 | 00577
##   10 | 359
##   11 | 00555
##   12 | 0559
##   13 | 0358
##   14 | 2
##   15 | 05
boxplot(KS, col="yellow", horizontal=TRUE)

sd(KS) #standardna devijacija
## [1] 26.44493
IQR(KS) #Q3-Q1
## [1] 45.25

Histogram je iskošen u desno i unimodalan. Centar razdiobe je od 60 do 80 KS. Raspon vrijednosti je od 60 do 160. Nema stršila. Jer je iskošen u desno podatke ćemo opisati preko medijana i interkvartila. Medijan iznosi 100 (50% automobila ima manje od 100KS, a 50% automobila ima više od 100KS), a interkvartil IQR=45.25. Ako su podaci simetrični i nema stršila onda ih opisujemo s aritmetičkom sredinom (Mean) i standardnom devijacijom (sd).

  1. Izračunajte karakteristične točke dijagrama s pravokutnikom (početak i kraj kutije, početak i kraj “brkova”, položaj centralne crte) bez korištenja funkcije boxplot.
(Me<- median(KS)) #medijan
## [1] 100
(MIN<-min(KS))   #minimum
## [1] 65
(MAX<-max(KS))   #maksimum
## [1] 155
(Q1<-quantile(KS,probs=0.25))  #donji kvartil
##  25% 
## 78.5
(Q3<-quantile(KS,probs=0.75)) #gornji kvartil
##    75% 
## 123.75
(IQR<-Q3-Q1) #interkvartilni raspon
##   75% 
## 45.25

Medijan je sredina kutije, a rubovi gornji i donji kvartil. Za računanje brkova(krajnjih granica) treba pogledati koliko iznosi:

Q1-1.5*IQR
##    25% 
## 10.625
Q3+1.5*IQR
##     75% 
## 191.625

Prva vrijednost veća od 10.625 je donja granica brka, a prva vrijednost manja od 191.625 je gornja granica. U ovom slučaju donja i gornja granica su minimum i maksimum. Ako ostane neka vrijednost izvan 10.625 i 191.625 onda se ona označi točkicom i predstavlja stršilo.

Zadatak 2

Učitavanje podataka:

library(readxl)
cookie_business <- read_excel("cookie_business.xlsx")
  1. Nacrtajte histogram za varijablu Age te opišite distribuciju podataka? (Jesu li podaci simetrični ili lijevo ili desno iskošeni, jesu li unimodalni, bimodalni ili više modalni, centar, raspon, stršila)
hist(cookie_business$Age, 
     breaks=7, 
     xlab="Dob", 
     ylab="Broj osoba", 
     main="Histogram varijable dob", 
     las=1, col=10)

Za navedeni histogram vidimo da je unimodalan i iskošen u desno. Iz histograma možemo pročitati da je 12 osoba staro između 10 i 20 godina, 10 između 20 i 30. Također je centar simetrije od 10 do 20 godina, a raspon podataka od 10 do 70 godina. Ne vide se stršila.

  1. Prikažite podatke steam and leaf dijagramom i dijagramom točaka.
stem(cookie_business$Age)
## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   1 | 23677778899
##   2 | 0122225699
##   3 | 012233467
##   4 | 022456
##   5 | 23578
##   6 | 01468
stripchart(as.numeric(cookie_business$Age), method="stack", pch=1)

  1. Odredite aritmetičku sredinu, standardnu devijaciju te koeficijent varijacije. Interpretirajte izračunate vrijednosti.
library(psych)
describe(cookie_business$Age)
##    vars  n  mean    sd median trimmed   mad min max range skew kurtosis   se
## X1    1 46 34.17 16.19   31.5   33.03 18.53  12  68    56 0.56    -0.95 2.39
summary(cookie_business$Age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   20.25   31.50   34.17   44.75   68.00
mean(cookie_business$Age) #aritmetička sredina
## [1] 34.17391
sd(cookie_business$Age) #standardna devijacija
## [1] 16.18958
sd(cookie_business$Age)/mean(cookie_business$Age) #koeficijent varijacije
## [1] 0.4737408

Prosječna dob osobe koja je kupovala kolače iznosi 34,17 godina, uz prosječno odstupanje od aritmetičke sredine od 16,19 godina, tj. 47%.

  1. Prikažite podatke dijagramom s pravokutnikom.
boxplot(cookie_business$Age,col="lightblue", horizontal=TRUE)

  1. Ponovite gore objašnjenu analizu za varijablu broj kupljenih kolača tjedno (Cookies bought each week). Također za navedenu varijablu izračunajte karakteristične točke dijagrama s pravokutnikom (početak i kraj kutije, početak i kraj “brkova”, položaj centralne crte) bez korištenja funkcije boxplot.
summary(cookie_business)
##   Customer ID        Age          Age Group        Postcode   
##  Min.   :1001   Min.   :12.00   Min.   :1.000   Min.   :2000  
##  1st Qu.:1012   1st Qu.:20.25   1st Qu.:2.000   1st Qu.:2000  
##  Median :1024   Median :31.50   Median :3.000   Median :2014  
##  Mean   :1024   Mean   :34.17   Mean   :2.978   Mean   :2136  
##  3rd Qu.:1035   3rd Qu.:44.75   3rd Qu.:4.000   3rd Qu.:2296  
##  Max.   :1046   Max.   :68.00   Max.   :6.000   Max.   :2873  
##     Gender          Favourite Cookie   Cookies bought each week
##  Length:46          Length:46          Min.   : 1.00           
##  Class :character   Class :character   1st Qu.: 1.25           
##  Mode  :character   Mode  :character   Median : 3.00           
##                                        Mean   : 4.00           
##                                        3rd Qu.: 5.75           
##                                        Max.   :20.00
boxplot(cookie_business$`Cookies bought each week`,col="lightblue", horizontal=TRUE)

Medijan iznosi 3. 1. kvartil iznosi 1.25, 3 kvartil 5.75. Maksimum je 20, dok je minimum 1. f. Nacrtajte scatterplot za varijable dob i broj kupljenih kolača tjedno te opišite povezanost. (oblik povezanosti, stršila, jačinu povezanosti, smjer povezanosti)

plot(cookie_business$Age, cookie_business$`Cookies bought each week`, main="Scatterplot",
   xlab="Dob kupca ", ylab="Broj kupljenih kolača ", pch=19)

Slaba negativna linearna povezanost s jednim stršilom (osobom 20,20).

Zadatak 3

Učitavanje podataka:

Bodovi <- read_excel("Bodovi_statistikaIPS.xlsx")
  1. Usporedite rezultate prvog kolokvija po grupama. Nacrtajte histograme, dijagrame s pravokutnikom te izračunajte deskriptivnu statistiku. Komentirajte raspon bodova po grupama, aritmetičke sredine, medijane broja bodova. U kojoj grupi se nalazi student ili studentica s najvećim brojem bodova na prvom kolokviju?
describe.by(Bodovi$kol1, group=Bodovi$Grupa,mat=TRUE)
## Warning: describe.by is deprecated.  Please use the describeBy function
##     item group1 vars   n     mean       sd median  trimmed    mad min  max
## X11    1     G1    1 119 21.19748 8.510517   21.0 21.07732 8.1543   3 42.5
## X12    2     G2    1  91 18.54945 7.575199   18.5 18.21918 8.8956   5 41.0
## X13    3     G3    1  80 22.93125 8.945596   23.5 22.51562 9.6369   0 44.0
##     range      skew   kurtosis        se
## X11  39.5 0.1262484 -0.3001397 0.7801578
## X12  36.0 0.4202276 -0.4146470 0.7940966
## X13  44.0 0.2404938 -0.2241259 1.0001481
boxplot(Bodovi$kol1 ~ Bodovi$Grupa,
        col = rainbow(3), xlab="Grupa",ylab="Bodovi na prvom kolokviju")

  1. Ponovite prethodnu analizu i za bodove na drugom kolokviju.
describe.by(Bodovi$kol2, group=Bodovi$Grupa,mat=TRUE)
## Warning: describe.by is deprecated.  Please use the describeBy function
##     item group1 vars   n     mean        sd median  trimmed     mad min max
## X11    1     G1    1 120 14.98750  9.220561   14.5 14.73438  9.6369   0  36
## X12    2     G2    1  91 18.54396 10.560579   21.0 18.56164 11.8608   0  42
## X13    3     G3    1  80 23.15000 11.193748   23.0 23.42188 11.8608   0  45
##     range        skew   kurtosis        se
## X11    36  0.18882941 -0.8596183 0.8417182
## X12    42 -0.07650947 -0.9322751 1.1070495
## X13    45 -0.17914515 -0.6341414 1.2514991
boxplot(Bodovi$kol2 ~ Bodovi$Grupa,
        col = rainbow(3), xlab="Grupa",ylab="Bodovi na drugom kolokviju")

  1. Opišite povezanost između bodova na prvom i bodova na drugom kolokviju. (oblik povezanosti, stršila, jačinu povezanosti, smjer povezanosti)

Srednje jaka linearna povezanost. Ima jedno stršilo (0,30).

plot(jitter(Bodovi$kol1), Bodovi$kol2, main="Scatterplot",
   xlab="Bodovi na prvom kolokviju ", ylab="Bodovi na drugom kolokviju ", pch=16, col="lightblue")