dr.sc. Luka Šikić
04 studeni, 2019
\[ P(\mbox{pismo}) = 0.5 \]
P P P P P H H H H H
| Vrsta.odjeće | Plave.hlace | Sive.hlace | Crne.hlace | Crno.odijelo | Kostim |
|---|---|---|---|---|---|
| Naziv | \(X_1\) | \(X_2\) | \(X_3\) | \(X_4\) | \(X_5\) |
| Vjerojatnost | \(P(X_1) = .5\) | \(P(X_2) = .3\) | \(P(X_3) = .1\) | \(P(X_4) = 0\) | \(P(X_5) = .1\) |
Prikaz distribucije vjerojatnosti za “Vrstu odjeće”. Postoji pet mogućih ishoda vezanih uz pet mogućih modnih rijšenje. Svaki ishod ima jednaku vjerojatnost; vjerojatnost je u rasponu od 0 do 1.
\[ P(E) = P(X_1) + P(X_2) + P(X_3) + P(X_4) + P(X_5) \]
| Jezik | Zapis | Znak | Formula |
|---|---|---|---|
| Nije \(A\) | \(P(\neg A)\) | = | \(1-P(A)\) |
| \(A\) ili \(B\) | \(P(A \cup B)\) | = | \(P(A) + P(B) - P(A \cap B)\) |
| \(A\) i \(B\) | \(P(A \cap B)\) | = | \(P(A|B) P(B)\) |
\[ P(X \ | \ \theta, N) \] \[ X \sim \mbox{Binomial}(\theta, N) \]
Binomna distribucija za \(N=20\) opservacija i vjerojatnost ishoda \(theta = 1/6\). Svaki stupac prikazuje vjerojatnost jednog ishoda (i.e., jedna moguća vrijednost \(X\)). Pošto je riječ o distribuciji vjerojatnosti, svaka od pojedinačnih vijednosti mora biti broj od 0 do 1 dok zbroj svih stupaca mora biti jednak 1.
# x označava očekivani broj ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
dbinom( x = 4, size = 20, prob = 1/6 )## [1] 0.2022036
# q označava očekivanu vjerojatnost ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
pbinom( q = 4, size = 20, prob = 1/6)## [1] 0.7687492
# p označava očekivani broj ishoda
# size je broj ponavljanja u eksperimentu
# prob je vjerojatnost željenog ishoda
qbinom( p = 0.75, size = 20, prob = 1/6)## [1] 4
# n označava broj ponavljanja u eksperimentu
# size je veličina uzorka
# prob je vjerojatnost željenog ishoda
rbinom( n = 100, size = 20, prob = 1/6 )## [1] 5 3 4 5 2 3 4 3 4 6 2 3 4 2 6 4 3 0 6 1 3 3 1 4 5 3 3 6 3 0 4 3 4 7 5
## [36] 3 7 3 2 2 4 3 3 2 3 3 3 4 3 1 3 1 5 6 5 3 1 4 6 2 6 3 4 1 1 2 6 3 6 3
## [71] 6 2 2 3 1 3 3 3 3 5 2 4 5 2 3 1 1 1 3 2 5 2 3 3 4 2 2 3 1 4
Distribucija vjerojatnosti bacanja novčića 20 puta \(N=20\) i 100 puta \(N=100\); vjerojatnost jednog ishoda je \(theta = 1/2\).
Distribucija vjerojatnosti bacanja novčića 20 puta \(N=20\) i 100 puta \(N=100\); vjerojatnost jednog ishoda je \(theta = 1/2\).
| Funkcija | Prefiks | NormalnaDistribcija | BinomnaDistribucija |
|---|---|---|---|
| Vjerojatnost | d | dnorm() | dbinom() |
| Kumulativna vjerojatnost | p | dnorm() | pbinom() |
| Generiraj slučajni uzorak | r | rnorm() | rbinom() |
| Kvartili distribucije | q | qnorm() | qbinom() |
\[ X \sim \mbox{Normal}(\mu,\sigma) \]
Standardna distribucija sa prosjekom \(mu = 0\) i standardnom devijacijom \(sigma = 1\). \(x\)-os se odnosi na vrijednost ishoda dok \(y\)-os govori kolika je vjerojatnost ishoda. \(y\)-os je nazvana “Gustoća vjerojatnosti” , a ne “Vjerojatnost”(kao kod npr. binomne distribucije). Razlika se odnosi na to da je standardna distribucija kontinuirana (za razliku od npr. binomne koja je diskretna). Visina krivulje ne govori točno koja je vjerojatnost ishoda nego koje vrijednosti ishoda su vjerojatnije od drugih!
Standardna distribucija sa drugim prosjekom. Puna linija prikazuje stdandardnu distribuciju sa prosjekom \(mu=4\). Isprekidana linija prikazuje sdandardnu distribuciju sa prosjekom \(mu=7\). Standardna devijacija u oba slučaja iznosi \(sigma=1\).
Standardna distribucija sa drugom standardnom devijacijom. Obje distribucije imaju isti prosjek \(mu = 5\), ali različite standardne devijacije. Puna linija prikazuje standardnu distribuciju sa sa standardnom devijacijom \(sigma=1\), a isprekidana linija sa std. distribuciju sa standardnom devijacijom \(sigma = 2\).
Područje ispod krivulje pokazuje vjerojatnost da opservacija pada u određeni raspon. Puna crta pokazuje standardnu distribuciju sa prosjekom \(mu=0\) i standardnom devijacijom \(sigma=1\). Osjenčana područja prikazuju “površinu ispod krivulje”. Na lijevoj strani vidimo da postoji 68.3% šansa da opservacija pada unutar jedne standardne devijacije od prosjeka. Na desnoj strani vidimo da postoji 95.4% šanse da će opservacija pasti unutar dvije standardne devijacije od prosjeka.
Dva dodatna primjera koncepta “površine ispod krivulje”. Postoji 15.9% šansa da je opservacija jednu standardnu devijaciju ispod prosjeka ili manje (desno) i 34.1% šansa da je opservacija veća od jedne standardne devijacije ispod prosjeka ali i dalje ispod prosjeka. Valja primijetiti da je 15.9% + 34.1% = 50%. Za standardnu distribuciju postoji 50% šansa da opservacija pada ispod prosjeka i 50% da pada iznad prosjeka.
\(t\) distribucija sa 3 stupnja slobode (puna linija). Distribucija je slična normalnoj distribuciji ali je ipak različita. Zbog usporedbe je prikazana i standardna distribucija na isprekidanoj liniji. “Repovi” \(t\) distribucije su “teži” nego “Repovi” standardne distribucije.
\(chi^2\) distribucija sa tri stupnja slobode. Valja primijetiti da ishodi moraju biti veći od nule i da je distribucija priličo zakrivljena. To su karakteristike chi-square distribucije.
\(F\) distribucija sa 3 i 5 stupnjeva slobode. Općenito je moguće primijetiti da \(F\) distribucija sliči chi-sqare distribuciji, no među njima ipak postoje značajne razlike.
# Stvori 1000 ishoda normalne distribuciju sa prosjekom 0 i stdev 1
normal.a <- rnorm( n = 1000, mean = 0, sd = 1 )
print(head(normal.a)) # Prikaži## [1] -0.1362748 0.7806961 1.0220424 0.5746115 1.6503018 -0.2299165
hist( normal.a,
breaks = 70,
freq = FALSE,
xlim = c(-4,4),
border = "red",
ylim = c(0,.45),
axes = FALSE,
xlab = "",
ylab = "",
main = "Simulirana standardna distribucija",
font.main = 1
)
lines( x <- seq(-4,4,.1),
dnorm(x),
lwd = 2,
col = "black" )
axis(1)# Elementi za stvaranje Chi-sq distribucije
n <- 1000 # Stvori niz od tisuću brojeva
normal.a <- rnorm( n ) # Stvori standardnu distribuciju
normal.b <- rnorm( n ) # Stvori standardnu distribuciju
normal.c <- rnorm( n ) # Stvori standardnu distribuciju
normal.d <- rnorm( n ) # Stvori standardnu distribuciju
# Stvori Chi-sq distribuciju:
# kao sumu kvadriranih normalnih distribucija
chi.sq.3 <- (normal.a)^2 + (normal.b)^2 + (normal.c)^2
# Putem funkcije
chi.sq.20 <- rchisq( n, 20) #chi.sq sa 20 stupnjeva slobode
# Prikaži Chi-sq distribuciju na histogramu
hist( chi.sq.3,
breaks = 70,
freq = FALSE,
xlim = c(0,16),
border = "red",
axes = FALSE,
ylim = c(0,.25),
xlab = "",
ylab = "",
main = "Simulirana Chi-Square distribucija",
font.main = 1
)
lines( x <- seq(0,16,.1),
dchisq(x,3),
lwd = 2,
col = "black" )
axis(1)# Prvi korak
skalirano.chi <- chi.sq.3 / 3 # Podijeli chi.sq sa 3
# Drugi korak
# t distribucija kao omjer normalne i drugog korijena skalirane chi.sq distribucije
t.3 <- normal.d / sqrt( skalirano.chi )
# Napravi histogram
hist( t.3,
breaks = 70,
freq = FALSE,
xlim = c(-5,5),
border = "red",
axes = FALSE, ylim = c(0,.4),
xlab = "",ylab = "",
main = "Simulirana t Distribucija",
font.main = 1
)
lines( x <- seq(-4,4,.1),
dt(x,3),
lwd = 2,
col = "black" )
axis(1) # F distribucija kao omjer dviju skaliranih chi.sq distribucija
F.3.20 <- (chi.sq.3 / 3) / (chi.sq.20 / 20)
# Napravi histogram
hist( F.3.20,
breaks = 70,
freq = FALSE,
xlim = c(0,6),
border = "red",
axes = FALSE, ylim=c(0,.7),
xlab = "",
ylab = "",
main = "Simulirana F distribucija",
font.main = 1
)
lines( x <- seq(0,6,.01),
df(x,3,20),
lwd = 2,
col = "black" )
axis(1)