STATISTIČKA TEORIJA: PROCJENE PARAMETARA POPULACIJE IZ UZORKA

Hrvatski studiji

dr.sc. Luka Šikić

09 studeni, 2019

CILJEVI PREDAVANJA

UZORAK I POPULACIJA

IQ <- rnorm(n = 10000, mean = 100, sd = 15) # Stvori seriju IQ bodova
IQ <- round(IQ) # IQ je cijeli broj
print(head(IQ)) # Pogledaj podatke
## [1] 104  95  77 104 136 105
mean(IQ)        # Provjeri prosjek
## [1] 99.8632
sd(IQ)          # Provjeri standardnu devijaciju
## [1] 14.9481
Prvi grafikon prikazuje distribuciju IQ u populaciji. Drugi grafikon prikazuje uzorak od 100 ljudi. Treći grafikon prikazuje uzorak od 10.000 ljudi.

Prvi grafikon prikazuje distribuciju IQ u populaciji. Drugi grafikon prikazuje uzorak od 100 ljudi. Treći grafikon prikazuje uzorak od 10.000 ljudi.

Prvi grafikon prikazuje distribuciju IQ u populaciji. Drugi grafikon prikazuje uzorak od 100 ljudi. Treći grafikon prikazuje uzorak od 10.000 ljudi.

Prvi grafikon prikazuje distribuciju IQ u populaciji. Drugi grafikon prikazuje uzorak od 100 ljudi. Treći grafikon prikazuje uzorak od 10.000 ljudi.

## [1] "n= 100 prosjek= 99.2854873933973 sd= 12.9163688481722"
Prvi grafikon prikazuje distribuciju IQ u populaciji. Drugi grafikon prikazuje uzorak od 100 ljudi. Treći grafikon prikazuje uzorak od 10.000 ljudi.

Prvi grafikon prikazuje distribuciju IQ u populaciji. Drugi grafikon prikazuje uzorak od 100 ljudi. Treći grafikon prikazuje uzorak od 10.000 ljudi.

## [1] "n= 10000 prosjek= 99.9309685914776 sd= 14.9240110807042"

PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE

Simbol Znacenje Dodatno
\(\bar{X}\) Prosjek uzorka Izračunato na podatcima
\(\mu\) Prosjek populacije Uglavnom nepoznato
\(\hat{\mu}\) Procjena prosjeka populacije Jednako prosjeku uzorka

\[ s^2 = \frac{1}{N} \sum_{i=1}^N (X_i - \bar{X})^2 \]

\[ \hat\sigma^2 = \frac{1}{N-1} \sum_{i=1}^N (X_i - \bar{X})^2 \]

\[ \hat\sigma = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (X_i - \bar{X})^2} \]

Simbol Znacenje Dodatno
\(s\) Standardna devijacija uzorka Na osnovi podataka
\(\sigma\) Standardna devijacija populacije Uglavnom nepozato
\(\hat{\sigma}\) Procjena standardne devijacije populacije Slično kao standardna devijacija uzorka
\(s^2\) Varijanca uzorka Na osnovi podataka
\(\sigma^2\) Varijanca populacije Uglavnom nepozato
\(\hat{\sigma}^2\) Procjena varijance populacije Slično kao varijanca uzorka

SAMPLING DISTRIBUCIJE

Svaki uzorak se satoji od samo jedne opservacije tako da je prosijek svakog uzorka samo IQ jedne osobe. Zbog toga je sampling distribucija prosjeka jednaka distribuciji IQ bodova.

Svaki uzorak se satoji od samo jedne opservacije tako da je prosijek svakog uzorka samo IQ jedne osobe. Zbog toga je sampling distribucija prosjeka jednaka distribuciji IQ bodova.

 Kada povećamo uzorak, prosjek svakog uzorka konvergira prosjeku populacije znatno više nego u slučaju samo jedne osobe. Histogram je zbog toga malo uži nego u populaciji.

Kada povećamo uzorak, prosjek svakog uzorka konvergira prosjeku populacije znatno više nego u slučaju samo jedne osobe. Histogram je zbog toga malo uži nego u populaciji.

Kod veliline uzprka od 10 se može primijetiti da je distribucija prosjeka uzoraka centrirana blizu pravog prosjeka populacije.

Kod veliline uzprka od 10 se može primijetiti da je distribucija prosjeka uzoraka centrirana blizu pravog prosjeka populacije.

TEOREM CENTRALNE TENDENCIJE

\[ \mbox{SEM} = \frac{\sigma}{ \sqrt{N} } \]

Grafički prikaze teorema centralne tendencije. Prvi grafikon pokazuje ne-standardnu distribuciju (populacije). Ostali paneli prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije(rvi grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

Grafički prikaze teorema centralne tendencije. Prvi grafikon pokazuje ne-standardnu distribuciju (populacije). Ostali paneli prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije(rvi grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

Grafički prikaze teorema centralne tendencije. Prvi grafikon pokazuje ne-standardnu distribuciju (populacije). Ostali paneli prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije(rvi grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

Grafički prikaze teorema centralne tendencije. Prvi grafikon pokazuje ne-standardnu distribuciju (populacije). Ostali paneli prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije(rvi grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

Grafički prikaze teorema centralne tendencije. Prvi grafikon pokazuje ne-standardnu distribuciju (populacije). Ostali paneli prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije(rvi grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

Grafički prikaze teorema centralne tendencije. Prvi grafikon pokazuje ne-standardnu distribuciju (populacije). Ostali paneli prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije(rvi grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

Grafički prikaze teorema centralne tendencije. Prvi grafikon pokazuje ne-standardnu distribuciju (populacije). Ostali paneli prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije(rvi grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

Grafički prikaze teorema centralne tendencije. Prvi grafikon pokazuje ne-standardnu distribuciju (populacije). Ostali paneli prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije(rvi grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

INTERVALI POUZDANOSTI

# percentili (2.5% i 97.5%) standardne distribucije
qnorm( p = c(.025, .975) )
## [1] -1.959964  1.959964

\[ \mu - \left( 1.96 \times \mbox{SEM} \right) \ \leq \ \bar{X}\ \leq \ \mu + \left( 1.96 \times \mbox{SEM} \right) \] - Intervali pouzdanosti za prosjek populacije

\[ \bar{X} - \left( 1.96 \times \mbox{SEM} \right) \ \leq \ \mu \ \leq \ \bar{X} + \left( 1.96 \times \mbox{SEM}\right) \] - Standardni zapis

\[ \mbox{CI}_{95} = \bar{X} \pm \left( 1.96 \times \frac{\sigma}{\sqrt{N}} \right) \]

N <- 10000   # Veličina uzorka 10,000
qt( p = .975, df = N-1)   # Izračunaj 97.5th percentil t distribucije
## [1] 1.960201
N <- 10  # Veličina uzorka 10
qt( p = .975, df = N-1)   # Izračunaj 97.5th percentil t distribucije
## [1] 2.262157
# ciMean( x = afl$attendance )
#    2.5%    97.5% 
# 31597.32 32593.12 
load( file.path( "./afl24.Rdata" ))  # Učitaj podatke
library( sciplot )     # Paketi za bargraph.CI() i lineplot.CI() funkicje
library( lsr )         # ciMean() funkcija
bargraph.CI( x.factor = year,             # Grupirajuća varijabla 
              response = attendance,      # Ciljana varijabla
              data = afl,                 # Podatci
              ci.fun = ciMean,             # Naziv funkcije za izračun CI
              xlab = "Godina",              
              ylab = "Prosječna posjećenost" 
 )
Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.

Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.

lineplot.CI( x.factor = year,            # Grupirajuća varijabla  
             response = attendance,      # Ciljana varijabla
             data = afl,                 # Podatci
             ci.fun = ciMean,             # Naziv funkcije za izračun CI
             xlab = "Godina",              
             ylab = "Prosječna posjećenost" 
)
Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.

Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.