STATISTIČKA TEORIJA: VJEROJATNOST

Hrvatski studiji

dr.sc. Luka Šikić

04 studeni, 2019

CILJEVI PREDAVANJA

Deskriptivna vs. inferencijalna statistika
Osnovni postulati teorije vjerojatnosti
Binomna distribucija
Standardna distribucija
Druge često korištene distribucije
Tradicionalni vs. Bayesov pristup vjerojatnosti

DESKRIPTIVNA I INFERENCIJALNA STATISTIKA

Deskriptivna statistika

Numerički opis podataka
Vizualizacije
Nema mnogo teoretske pozadine

Inferencijalna statistika

Osnova je teorija vjerojatnosti
Razrađeni modeli za analizu strukture i odnosa među varijablama
Moćniji analitički alat

OSNOVNI POSTULATI TEORIJE VJEROJATNOSTI

Eksperiment bacanja novčića

Vjerojatnost da će pasti jedna strana (“pismo”)

\[ P(\mbox{pismo}) = 0.5 \]

Statistički problem

P P P P P H H H H H

Vjerojatnost modnog izbora

Mogućnosti izbora

Vrsta.odjeće	Plave.hlace	Sive.hlace	Crne.hlace	Crno.odijelo	Kostim
Naziv	\(X_1\)	\(X_2\)	\(X_3\)	\(X_4\)	\(X_5\)
Vjerojatnost	\(P(X_1) = .5\)	\(P(X_2) = .3\)	\(P(X_3) = .1\)	\(P(X_4) = 0\)	\(P(X_5) = .1\)

Grafički prikaz distribucije

Prikaz distribucije vjerojatnosti za “Vrstu odjeće”. Postoji pet mogućih ishoda vezanih uz pet mogućih modnih rijšenje. Svaki ishod ima jednaku vjerojatnost; vjerojatnost je u rasponu od 0 do 1.

Formalni zapis

\[ P(E) = P(X_1) + P(X_2) + P(X_3) + P(X_4) + P(X_5) \]

Osnovna pravila vjerojatnosti

Jezik	Zapis	Znak	Formula
Nije \(A\)	\(P(\neg A)\)	=	\(1-P(A)\)
\(A\) ili \(B\)	\(P(A \cup B)\)	=	\(P(A) + P(B) - P(A \cap B)\)
\(A\) i \(B\)	\(P(A \cap B)\)	=	\(P(A\|B) P(B)\)

BINOMNA DISTRIBUCIJA

Eksperiment bacanje novčića ili kocke

Eksperiment uključuje 20 šestostranih kocki gdje je jedna strana označena, ostale su prazne.
Kolika je vjerojatnost ishoda četiri označene strane u 20 bacanja?
Znamo da je vjerojatnost jedne označene kocke jedna šestina, odnosno .167!

\[ P(X \ | \ \theta, N) \] \[ X \sim \mbox{Binomial}(\theta, N) \]

Binomna distribucija za \(N=20\) opservacija i vjerojatnost ishoda \(theta = 1/6\). Svaki stupac prikazuje vjerojatnost jednog ishoda (i.e., jedna moguća vrijednost \(X\)). Pošto je riječ o distribuciji vjerojatnosti, svaka od pojedinačnih vijednosti mora biti broj od 0 do 1 dok zbroj svih stupaca mora biti jednak 1.

Binomna distribucija u R

# x označava očekivani broj ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
dbinom( x = 4, size = 20, prob = 1/6 )

## [1] 0.2022036

# q označava očekivanu vjerojatnost ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
pbinom( q = 4, size = 20, prob = 1/6)

## [1] 0.7687492

# p označava očekivani broj ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
qbinom( p = 0.75, size = 20, prob = 1/6)

## [1] 4

# n označava broj ponavljanja u eksperimentu
# size je veličina uzorka 
# prob je vjerojatnost željenog ishoda
rbinom( n = 100, size = 20, prob = 1/6 )

##   [1] 5 3 4 5 2 3 4 3 4 6 2 3 4 2 6 4 3 0 6 1 3 3 1 4 5 3 3 6 3 0 4 3 4 7 5
##  [36] 3 7 3 2 2 4 3 3 2 3 3 3 4 3 1 3 1 5 6 5 3 1 4 6 2 6 3 4 1 1 2 6 3 6 3
##  [71] 6 2 2 3 1 3 3 3 3 5 2 4 5 2 3 1 1 1 3 2 5 2 3 3 4 2 2 3 1 4

Grafički prikaz distribucije za eksperimente različite veličine

Distribucija vjerojatnosti bacanja novčića 20 puta \(N=20\) i 100 puta \(N=100\); vjerojatnost jednog ishoda je \(theta = 1/2\).

Distribucijske funkcije u R

Nazivi funkcija distribucije u R. Svaka distribucijska funkcija je povezana sa četiri druge funkcije (vidi prefiks).
Funkcija	Prefiks	NormalnaDistribcija	BinomnaDistribucija
Vjerojatnost	d	dnorm()	dbinom()
Kumulativna vjerojatnost	p	dnorm()	pbinom()
Generiraj slučajni uzorak	r	rnorm()	rbinom()
Kvartili distribucije	q	qnorm()	qbinom()

STANDARDNA DISTRIBUCIJA

Formalni zapis

\[ X \sim \mbox{Normal}(\mu,\sigma) \]

Grafički prikaz standardne distribucije

Standardna distribucija sa prosjekom \(mu = 0\) i standardnom devijacijom \(sigma = 1\). \(x\)-os se odnosi na vrijednost ishoda dok \(y\)-os govori kolika je vjerojatnost ishoda. \(y\)-os je nazvana “Gustoća vjerojatnosti” , a ne “Vjerojatnost”(kao kod npr. binomne distribucije). Razlika se odnosi na to da je standardna distribucija kontinuirana (za razliku od npr. binomne koja je diskretna). Visina krivulje ne govori točno koja je vjerojatnost ishoda nego koje vrijednosti ishoda su vjerojatnije od drugih!

Standardna distribucija sa drugim prosjekom

Standardna distribucija sa drugim prosjekom. Puna linija prikazuje stdandardnu distribuciju sa prosjekom \(mu=4\). Isprekidana linija prikazuje sdandardnu distribuciju sa prosjekom \(mu=7\). Standardna devijacija u oba slučaja iznosi \(sigma=1\).

Standardna distribucija sa drugom standardnom devijacjom

Standardna distribucija sa drugom standardnom devijacijom. Obje distribucije imaju isti prosjek \(mu = 5\), ali različite standardne devijacije. Puna linija prikazuje standardnu distribuciju sa sa standardnom devijacijom \(sigma=1\), a isprekidana linija sa std. distribuciju sa standardnom devijacijom \(sigma = 2\).

GUSTOĆA VJEROJATNOSTI

Područje ispod krivulje pokazuje vjerojatnost da opservacija pada u određeni raspon. Puna crta pokazuje standardnu distribuciju sa prosjekom \(mu=0\) i standardnom devijacijom \(sigma=1\). Osjenčana područja prikazuju “površinu ispod krivulje”. Na lijevoj strani vidimo da postoji 68.3% šansa da opservacija pada unutar jedne standardne devijacije od prosjeka. Na desnoj strani vidimo da postoji 95.4% šanse da će opservacija pasti unutar dvije standardne devijacije od prosjeka.

Dva dodatna primjera koncepta “površine ispod krivulje”. Postoji 15.9% šansa da je opservacija jednu standardnu devijaciju ispod prosjeka ili manje (desno) i 34.1% šansa da je opservacija veća od jedne standardne devijacije ispod prosjeka ali i dalje ispod prosjeka. Valja primijetiti da je 15.9% + 34.1% = 50%. Za standardnu distribuciju postoji 50% šansa da opservacija pada ispod prosjeka i 50% da pada iznad prosjeka.

DRUGE DISTRIBUCIJE

t distribucija

\(t\) distribucija sa 3 stupnja slobode (puna linija). Distribucija je slična normalnoj distribuciji ali je ipak različita. Zbog usporedbe je prikazana i standardna distribucija na isprekidanoj liniji. “Repovi” \(t\) distribucije su “teži” nego “Repovi” standardne distribucije.

Chi-sq distribucija

\(chi^2\) distribucija sa tri stupnja slobode. Valja primijetiti da ishodi moraju biti veći od nule i da je distribucija priličo zakrivljena. To su karakteristike chi-square distribucije.

F distribucija

\(F\) distribucija sa 3 i 5 stupnjeva slobode. Općenito je moguće primijetiti da \(F\) distribucija sliči chi-sqare distribuciji, no među njima ipak postoje značajne razlike.

STVARANJE DISTRIBUCIJA

Stvori standardnu distribuciju

# Stvori 1000 ishoda normalne distribuciju sa prosjekom 0 i stdev 1
normal.a <- rnorm( n = 1000, mean = 0, sd = 1 )  
print(head(normal.a)) # Prikaži

## [1] -0.1362748  0.7806961  1.0220424  0.5746115  1.6503018 -0.2299165

# Napravi histogram podataka
hist(normal.a)

hist(  normal.a,
       breaks = 70,
       freq = FALSE,
       xlim = c(-4,4),
       border = "red",
       ylim = c(0,.45),
       axes = FALSE,
       xlab = "",
       ylab = "",
       main = "Simulirana standardna distribucija",
       font.main = 1
)
lines( x <- seq(-4,4,.1),
       dnorm(x),
       lwd = 2,
       col = "black"  )
axis(1)

Stvori chi-squared distribuciju

# Elementi za stvaranje Chi-sq distribucije

n <- 1000 # Stvori niz od tisuću brojeva

normal.a <- rnorm( n ) # Stvori standardnu distribuciju
normal.b <- rnorm( n ) # Stvori standardnu distribuciju
normal.c <- rnorm( n ) # Stvori standardnu distribuciju
normal.d <- rnorm( n ) # Stvori standardnu distribuciju

# Stvori Chi-sq distribuciju:

# kao sumu kvadriranih normalnih distribucija
chi.sq.3 <- (normal.a)^2 + (normal.b)^2 + (normal.c)^2  

# Putem funkcije
chi.sq.20 <- rchisq( n, 20)  #chi.sq sa 20 stupnjeva slobode

# Prikaži Chi-sq distribuciju na histogramu

hist(  chi.sq.3,
       breaks = 70,
       freq = FALSE, 
       xlim = c(0,16),
       border = "red",
       axes = FALSE,
       ylim = c(0,.25),
       xlab = "",
       ylab = "", 
       main = "Simulirana Chi-Square distribucija",
       font.main = 1
)
lines( x <- seq(0,16,.1),
       dchisq(x,3),
       lwd = 2,
       col = "black"  ) 
axis(1)

Stvori t distribuciju

# Prvi korak

skalirano.chi <- chi.sq.3 / 3 # Podijeli chi.sq sa 3

# Drugi korak

# t distribucija kao omjer normalne i drugog korijena skalirane chi.sq distribucije
t.3 <- normal.d / sqrt( skalirano.chi )

# Napravi histogram

hist(  t.3,
       breaks = 70,
       freq = FALSE,
       xlim = c(-5,5),
       border = "red",
       axes = FALSE, ylim = c(0,.4),
       xlab = "",ylab = "",
       main = "Simulirana t Distribucija",
       font.main = 1
)
lines( x <- seq(-4,4,.1),
       dt(x,3),
       lwd = 2,
       col = "black"  )
axis(1)

Stvori F distribuciju

# F distribucija kao omjer dviju skaliranih chi.sq distribucija
F.3.20 <- (chi.sq.3 / 3) / (chi.sq.20 / 20)

# Napravi histogram

hist(  F.3.20,
       breaks = 70,
       freq = FALSE,
       xlim = c(0,6),
       border = "red",
       axes = FALSE, ylim=c(0,.7),
       xlab = "",
       ylab = "",
       main = "Simulirana F distribucija",
       font.main = 1
)
lines( x <- seq(0,6,.01),
       df(x,3,20),
       lwd = 2,
       col = "black"  ) 
axis(1)