[1] 15
[1] 0.06666667
Piano di campionamento in cui ogni possibile combinazione di elementi della popolazione ha la stessa probabilità di essere scelta per il campione.
Il numero di combinazioni totale è dato dal coefficiente binomiale tra il numero di elementi da inserire nel campione e il numero di elementi della popolazione.
Ogni combinazione ha la medesima probabilità di essere scelta.
Questa probabilità è data dall’inverso del totale di combinazioni che è possibile effettuare.
La prima unità viene estratta con probabilità n/N e, dal momento che il campione è senza ripetizione, la seconda unità viene estratta con probabilità n-1/(N -1), e così via fino ad arrivare alla n-esima estrazione che viene effettuata con probabilità 1/(N - n + 1).
Visto che si parla di campione casuale semplice senza reinserimento le estrazioni saranno dipendenti.
Se consideriamo la probabilità di estrarre un’i-esima unità dalla popolazione alla prima estrazione sarà:
[1] 0.1666667
Si è realizzato un vettore contenente gli elementi di una popolazione fittizia, su cui è stata applicata la funzione per il campionamento casuale semplice.
popolazione_prova = c("Marco" , "Angelica", "Alessandra", "Eleonora", "Claudia", "Daniele", "Francesco","Cesare", "Kevin","Paolo", "Mattia", "Matteo", "Maurizio", "Angelo" , "Mariateresa", "Carmen", "Giovanni")
CCS <- function(popolazione, n) {
popolazione = as.data.frame(popolazione)
k = sample(1:nrow(popolazione),n)
campione = popolazione[k,]
campione
}
campione1 = CCS(popolazione_prova, 8)
campione1[1] "Marco" "Mariateresa" "Angelica" "Angelo" "Carmen"
[6] "Maurizio" "Cesare" "Giovanni"
Si chiama campionamento casuale semplice con ripetizione il piano di campionamento tale che ciascuno degli N^n elementi possibili ordinati con ripetizione abbia la stessa probabilità di essere estratta.
La probabilità associata a ciascuna estrazione è costante e pari a:
In questo caso lo spazio campionario risulta costituito dall’insieme dei campioni con ripetizione. Quindi ciascun campione ordinato ha probabilità 1/N^n di essere estratto.
RCS <- function(popolazione, n) {
popolazione = as.data.frame(popolazione)
k = sample(1:nrow(popolazione),n, replace = TRUE)
campione = popolazione[k,]
campione
}
campione3 = RCS(popolazione_prova, 8)
campione3[1] "Eleonora" "Eleonora" "Mariateresa" "Angelo" "Mattia"
[6] "Paolo" "Maurizio" "Cesare"
Il dataset “produzione” riporta l’indice mensile della produzione industriale tra Gennaio 1990 e Dicembre 2003. Le osservazioni sono 168.
Attraverso la funzione creata in precedenza possiamo creare il nostro campione.
Una volta generato il campione è nostro interesse calcolare gli stimatori principali. Per la media e il totale:
e per la varianza
Per semplicità siccome entrambe le funzioni utilizzano gli stessi elementi abbiamo creato una funzione che calcola direttamente tutti e 3 gli stimatori.
StimatoriCCS <- function(campione, popolazione,n){
#Media
media = sum(campione)/ n
#Varianza
mediapop = sum(popolazione)/nrow(popolazione)
mediapopquadro = sum(popolazione^2)/nrow(popolazione)
varianzapop = (mediapopquadro - mediapop^2)
varianzastim = (varianzapop/n)* (1- n/nrow(popolazione))
#Totale
totale = (nrow(popolazione)/n)*sum(campione)
c("media" = media,"totale" = totale,"varianza" = varianzastim)
}
stimatori = StimatoriCCS(campione_produzione, produzione, n)
round(stimatori,2) media totale varianza
92.07 15467.13 1.45
Per calcolare la numerosità campionaria dobbiamo conoscere o avere almeno un’idea della varianza della popolazione ed è necessario fissare il valore della varianza dello stimatore che desideriamo avere.
LarghezzaCampionaria <- function(popolazione, varianzachevuoi)
{mediapop = sum(popolazione)/nrow(popolazione)
mediapopquadro = sum(popolazione^2)/nrow(popolazione)
varianzapop = (mediapopquadro-mediapop^2)
temporaneo = nrow(popolazione)*varianzapop
temporaneo2 = nrow(popolazione)*varianzachevuoi + varianzapop
n = temporaneo/temporaneo2
n = ceiling(n)
n
}
names(stimatori) <- NULL
LarghezzaCampionaria(produzione, stimatori[3])[1] 80
Lo stimatore di Horvitz-Thompson per il totale Y è la seguente statistica:
dove π rappresenta la probabilità la probabilità di inclusione.
Lo stimatore di Horvitz-Thompson per il parametro media campionaria è:
Anche in questo caso abbiamo unito le due funzioni in modo da poter calcolare tutti gli stimatori con un solo comando.
Stimatori_HT = function(campione, popolazione, n) {
ht_totale = (sum(campione))/(n/nrow(popolazione))
ht_media = (1/nrow(popolazione))*ht_totale
c("media" = ht_media, "totale" = ht_totale)
}
round(Stimatori_HT(campione_produzione, produzione, n),2) media totale
92.07 15467.13