STATISTIČKA TEORIJA: VJEROJATNOST

Hrvatski studiji

dr.sc. Luka Šikić

04 studeni, 2019

CILJEVI PREDAVANJA

DESKRIPTIVNA I INFERENCIJALNA STATISTIKA

  1. Numerički opis podataka
  2. Vizualizacije
  3. Nema mnogo teoretske pozadine
  1. Osnova je teorija vjerojatnosti
  2. Razrađeni modeli za analizu strukture i odnosa među varijablama
  3. Moćniji analitički alat

OSNOVNI POSTULATI TEORIJE VJEROJATNOSTI

  1. Vjerojatnost da će pasti jedna strana (“pismo”)

\[ P(\mbox{pismo}) = 0.5 \]

  1. Statistički problem
P P P P P H H H H H
  1. Mogućnosti izbora
Vrsta.odjeće Plave.hlace Sive.hlace Crne.hlace Crno.odijelo Kostim
Naziv \(X_1\) \(X_2\) \(X_3\) \(X_4\) \(X_5\)
Vjerojatnost \(P(X_1) = .5\) \(P(X_2) = .3\) \(P(X_3) = .1\) \(P(X_4) = 0\) \(P(X_5) = .1\)
  1. Grafički prikaz distribucije
Prikaz distribucije vjerojatnosti za "Vrstu odjeće". Postoji pet mogućih ishoda vezanih uz pet mogućih modnih rijšenje. Svaki ishod ima jednaku vjerojatnost; vjerojatnost je u rasponu od 0 do 1.

Prikaz distribucije vjerojatnosti za “Vrstu odjeće”. Postoji pet mogućih ishoda vezanih uz pet mogućih modnih rijšenje. Svaki ishod ima jednaku vjerojatnost; vjerojatnost je u rasponu od 0 do 1.

  1. Formalni zapis

\[ P(E) = P(X_1) + P(X_2) + P(X_3) + P(X_4) + P(X_5) \]

  1. Osnovna pravila vjerojatnosti
Jezik Zapis Znak Formula
Nije \(A\) \(P(\neg A)\) = \(1-P(A)\)
\(A\) ili \(B\) \(P(A \cup B)\) = \(P(A) + P(B) - P(A \cap B)\)
\(A\) i \(B\) \(P(A \cap B)\) = \(P(A|B) P(B)\)

BINOMNA DISTRIBUCIJA

  1. Eksperiment uključuje 20 šestostranih kocki gdje je jedna strana označena, ostale su prazne.
  2. Kolika je vjerojatnost ishoda četiri označene strane u 20 bacanja?
  3. Znamo da je vjerojatnost jedne označene kocke jedna šestina, odnosno .167!

\[ P(X \ | \ \theta, N) \] \[ X \sim \mbox{Binomial}(\theta, N) \]

Binomna distribucija za $N=20$ opservacija i vjerojatnost ishoda $theta = 1/6$. Svaki stupac prikazuje vjerojatnost jednog ishoda (i.e., jedna moguća vrijednost $X$). Pošto je riječ o distribuciji vjerojatnosti, svaka od pojedinačnih vijednosti mora biti broj od 0 do 1 dok zbroj svih stupaca mora biti jednak 1.

Binomna distribucija za \(N=20\) opservacija i vjerojatnost ishoda \(theta = 1/6\). Svaki stupac prikazuje vjerojatnost jednog ishoda (i.e., jedna moguća vrijednost \(X\)). Pošto je riječ o distribuciji vjerojatnosti, svaka od pojedinačnih vijednosti mora biti broj od 0 do 1 dok zbroj svih stupaca mora biti jednak 1.

# x označava očekivani broj ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
dbinom( x = 4, size = 20, prob = 1/6 )
## [1] 0.2022036
# q označava očekivanu vjerojatnost ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
pbinom( q = 4, size = 20, prob = 1/6)
## [1] 0.7687492
# p označava očekivani broj ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
qbinom( p = 0.75, size = 20, prob = 1/6)
## [1] 4
# n označava broj ponavljanja u eksperimentu
# size je veličina uzorka 
# prob je vjerojatnost željenog ishoda
rbinom( n = 100, size = 20, prob = 1/6 )
##   [1] 5 3 4 5 2 3 4 3 4 6 2 3 4 2 6 4 3 0 6 1 3 3 1 4 5 3 3 6 3 0 4 3 4 7 5
##  [36] 3 7 3 2 2 4 3 3 2 3 3 3 4 3 1 3 1 5 6 5 3 1 4 6 2 6 3 4 1 1 2 6 3 6 3
##  [71] 6 2 2 3 1 3 3 3 3 5 2 4 5 2 3 1 1 1 3 2 5 2 3 3 4 2 2 3 1 4
Distribucija vjerojatnosti bacanja novčića 20 puta $N=20$ i 100 puta $N=100$; vjerojatnost jednog ishoda je $theta = 1/2$.

Distribucija vjerojatnosti bacanja novčića 20 puta \(N=20\) i 100 puta \(N=100\); vjerojatnost jednog ishoda je \(theta = 1/2\).

Distribucija vjerojatnosti bacanja novčića 20 puta $N=20$ i 100 puta $N=100$; vjerojatnost jednog ishoda je $theta = 1/2$.

Distribucija vjerojatnosti bacanja novčića 20 puta \(N=20\) i 100 puta \(N=100\); vjerojatnost jednog ishoda je \(theta = 1/2\).

Nazivi funkcija distribucije u R. Svaka distribucijska funkcija je povezana sa četiri druge funkcije (vidi prefiks).
Funkcija Prefiks NormalnaDistribcija BinomnaDistribucija
Vjerojatnost d dnorm() dbinom()
Kumulativna vjerojatnost p dnorm() pbinom()
Generiraj slučajni uzorak r rnorm() rbinom()
Kvartili distribucije q qnorm() qbinom()

STANDARDNA DISTRIBUCIJA

\[ X \sim \mbox{Normal}(\mu,\sigma) \]

Standardna distribucija sa prosjekom $mu = 0$ i standardnom devijacijom $sigma = 1$. $x$-os se odnosi na vrijednost ishoda dok $y$-os govori kolika je vjerojatnost ishoda. $y$-os je nazvana "Gustoća vjerojatnosti" , a ne "Vjerojatnost"(kao kod npr. binomne distribucije). Razlika se odnosi na to da je standardna distribucija kontinuirana (za razliku od npr. binomne koja je diskretna). Visina krivulje ne govori točno koja je vjerojatnost ishoda nego koje vrijednosti ishoda su vjerojatnije od drugih!

Standardna distribucija sa prosjekom \(mu = 0\) i standardnom devijacijom \(sigma = 1\). \(x\)-os se odnosi na vrijednost ishoda dok \(y\)-os govori kolika je vjerojatnost ishoda. \(y\)-os je nazvana “Gustoća vjerojatnosti” , a ne “Vjerojatnost”(kao kod npr. binomne distribucije). Razlika se odnosi na to da je standardna distribucija kontinuirana (za razliku od npr. binomne koja je diskretna). Visina krivulje ne govori točno koja je vjerojatnost ishoda nego koje vrijednosti ishoda su vjerojatnije od drugih!

Standardna distribucija sa drugim prosjekom. Puna linija prikazuje stdandardnu distribuciju sa prosjekom $mu=4$.  Isprekidana linija prikazuje sdandardnu distribuciju sa prosjekom $mu=7$. Standardna devijacija u oba slučaja iznosi $sigma=1$.

Standardna distribucija sa drugim prosjekom. Puna linija prikazuje stdandardnu distribuciju sa prosjekom \(mu=4\). Isprekidana linija prikazuje sdandardnu distribuciju sa prosjekom \(mu=7\). Standardna devijacija u oba slučaja iznosi \(sigma=1\).

Standardna distribucija sa drugom standardnom devijacijom. Obje distribucije imaju isti prosjek $mu = 5$, ali različite standardne devijacije. Puna linija prikazuje standardnu distribuciju sa sa standardnom devijacijom $sigma=1$, a isprekidana linija sa std. distribuciju sa standardnom devijacijom $sigma = 2$.

Standardna distribucija sa drugom standardnom devijacijom. Obje distribucije imaju isti prosjek \(mu = 5\), ali različite standardne devijacije. Puna linija prikazuje standardnu distribuciju sa sa standardnom devijacijom \(sigma=1\), a isprekidana linija sa std. distribuciju sa standardnom devijacijom \(sigma = 2\).

GUSTOĆA VJEROJATNOSTI

 Područje ispod krivulje pokazuje vjerojatnost da opservacija pada u određeni raspon. Puna crta pokazuje standardnu distribuciju sa prosjekom $mu=0$ i standardnom devijacijom $sigma=1$. Osjenčana područja prikazuju "površinu ispod krivulje". Na lijevoj strani vidimo da postoji 68.3% šansa da opservacija pada unutar jedne standardne devijacije od prosjeka. Na desnoj strani vidimo da postoji 95.4% šanse da će opservacija pasti unutar dvije standardne devijacije od prosjeka.

Područje ispod krivulje pokazuje vjerojatnost da opservacija pada u određeni raspon. Puna crta pokazuje standardnu distribuciju sa prosjekom \(mu=0\) i standardnom devijacijom \(sigma=1\). Osjenčana područja prikazuju “površinu ispod krivulje”. Na lijevoj strani vidimo da postoji 68.3% šansa da opservacija pada unutar jedne standardne devijacije od prosjeka. Na desnoj strani vidimo da postoji 95.4% šanse da će opservacija pasti unutar dvije standardne devijacije od prosjeka.

Dva dodatna primjera koncepta "površine ispod krivulje". Postoji 15.9%  šansa da je opservacija jednu standardnu devijaciju ispod prosjeka ili manje (desno) i 34.1% šansa da je opservacija veća od jedne standardne devijacije ispod prosjeka ali i dalje ispod prosjeka. Valja primijetiti da je 15.9% + 34.1% = 50%. Za standardnu distribuciju postoji 50% šansa da opservacija pada ispod prosjeka i 50% da pada iznad prosjeka.

Dva dodatna primjera koncepta “površine ispod krivulje”. Postoji 15.9% šansa da je opservacija jednu standardnu devijaciju ispod prosjeka ili manje (desno) i 34.1% šansa da je opservacija veća od jedne standardne devijacije ispod prosjeka ali i dalje ispod prosjeka. Valja primijetiti da je 15.9% + 34.1% = 50%. Za standardnu distribuciju postoji 50% šansa da opservacija pada ispod prosjeka i 50% da pada iznad prosjeka.

DRUGE DISTRIBUCIJE

$t$ distribucija sa 3 stupnja slobode (puna linija). Distribucija je slična normalnoj distribuciji ali je ipak različita. Zbog usporedbe je prikazana i standardna distribucija na isprekidanoj liniji. "Repovi" $t$ distribucije su "teži" nego "Repovi" standardne distribucije.

\(t\) distribucija sa 3 stupnja slobode (puna linija). Distribucija je slična normalnoj distribuciji ali je ipak različita. Zbog usporedbe je prikazana i standardna distribucija na isprekidanoj liniji. “Repovi” \(t\) distribucije su “teži” nego “Repovi” standardne distribucije.

$chi^2$ distribucija sa tri stupnja slobode. Valja primijetiti da ishodi moraju biti veći od nule i da je distribucija priličo zakrivljena. To su karakteristike chi-square distribucije.

\(chi^2\) distribucija sa tri stupnja slobode. Valja primijetiti da ishodi moraju biti veći od nule i da je distribucija priličo zakrivljena. To su karakteristike chi-square distribucije.

$F$ distribucija sa 3 i 5 stupnjeva slobode. Općenito je moguće primijetiti da $F$ distribucija sliči chi-sqare distribuciji, no među njima ipak postoje značajne razlike.

\(F\) distribucija sa 3 i 5 stupnjeva slobode. Općenito je moguće primijetiti da \(F\) distribucija sliči chi-sqare distribuciji, no među njima ipak postoje značajne razlike.

STVARANJE DISTRIBUCIJA

# Stvori 1000 ishoda normalne distribuciju sa prosjekom 0 i stdev 1
normal.a <- rnorm( n = 1000, mean = 0, sd = 1 )  
print(head(normal.a)) # Prikaži
## [1] -0.1362748  0.7806961  1.0220424  0.5746115  1.6503018 -0.2299165
# Napravi histogram podataka
hist(normal.a)

hist(  normal.a,
       breaks = 70,
       freq = FALSE,
       xlim = c(-4,4),
       border = "red",
       ylim = c(0,.45),
       axes = FALSE,
       xlab = "",
       ylab = "",
       main = "Simulirana standardna distribucija",
       font.main = 1
)
lines( x <- seq(-4,4,.1),
       dnorm(x),
       lwd = 2,
       col = "black"  )
axis(1)

# Elementi za stvaranje Chi-sq distribucije

n <- 1000 # Stvori niz od tisuću brojeva

normal.a <- rnorm( n ) # Stvori standardnu distribuciju
normal.b <- rnorm( n ) # Stvori standardnu distribuciju
normal.c <- rnorm( n ) # Stvori standardnu distribuciju
normal.d <- rnorm( n ) # Stvori standardnu distribuciju

# Stvori Chi-sq distribuciju:

# kao sumu kvadriranih normalnih distribucija
chi.sq.3 <- (normal.a)^2 + (normal.b)^2 + (normal.c)^2  

# Putem funkcije
chi.sq.20 <- rchisq( n, 20)  #chi.sq sa 20 stupnjeva slobode

# Prikaži Chi-sq distribuciju na histogramu

hist(  chi.sq.3,
       breaks = 70,
       freq = FALSE, 
       xlim = c(0,16),
       border = "red",
       axes = FALSE,
       ylim = c(0,.25),
       xlab = "",
       ylab = "", 
       main = "Simulirana Chi-Square distribucija",
       font.main = 1
)
lines( x <- seq(0,16,.1),
       dchisq(x,3),
       lwd = 2,
       col = "black"  ) 
axis(1)

# Prvi korak

skalirano.chi <- chi.sq.3 / 3 # Podijeli chi.sq sa 3

# Drugi korak

# t distribucija kao omjer normalne i drugog korijena skalirane chi.sq distribucije
t.3 <- normal.d / sqrt( skalirano.chi )

# Napravi histogram

hist(  t.3,
       breaks = 70,
       freq = FALSE,
       xlim = c(-5,5),
       border = "red",
       axes = FALSE, ylim = c(0,.4),
       xlab = "",ylab = "",
       main = "Simulirana t Distribucija",
       font.main = 1
)
lines( x <- seq(-4,4,.1),
       dt(x,3),
       lwd = 2,
       col = "black"  )
axis(1) 

# F distribucija kao omjer dviju skaliranih chi.sq distribucija
F.3.20 <- (chi.sq.3 / 3) / (chi.sq.20 / 20)

# Napravi histogram

hist(  F.3.20,
       breaks = 70,
       freq = FALSE,
       xlim = c(0,6),
       border = "red",
       axes = FALSE, ylim=c(0,.7),
       xlab = "",
       ylab = "",
       main = "Simulirana F distribucija",
       font.main = 1
)
lines( x <- seq(0,6,.01),
       df(x,3,20),
       lwd = 2,
       col = "black"  ) 
axis(1)