Jose Antonio Ortega
Universidad de Salamanca
PROPIEDADES
dispersión en torno al valor esperado.La covarianza, si las desviaciones respecto a la esperanza están asociadas
\(V(X)=E[X-E(X)]^2=E(X^2)-E^2(X)=\sigma^2_x\)
\(Cov(X,Y)=E(X-E(x))(Y-E(Y))=E(X \cdot Y)-E(X)E(Y)=\sigma_{xy}\)
PROPIEDADES
desviación típíca (Standard Deviation, SD) tiene por unidades la de la variable.correlación lineal no tiene unidades de medida.insesgados: \(E(\hat \theta)=\theta\). Sesgo: \(B(\hat \theta)=E(\hat \theta)-\theta\)varianza mínima posible \(V(\hat \theta)\) pequeña.error cuadrático medio (MSE) posible: \(ECM(\hat \theta)=V(\hat \theta)+B^2(\hat \theta)=E(\hat \theta-\theta)^2\)convergencia en probabilidad. \(\hat \theta \overset{p}{\rightarrow} a \Leftrightarrow plim(\theta)=a\)Consistencia: Que el estimador converga en probabilidad al parámetro \(plim(\hat \theta)=\theta\)Estos son los estimadores habituales de los momentos poblaciones que hemos definido:
| Parámetro | Estimador | Nombre |
|---|---|---|
| \(E(X)=\mu_x\) | \(\bar{x} =\frac{\sum x_i}{n}\) | Media muestral |
| \(V(X)=\sigma^2_x\) | \(s^2_x= \frac{\sum{(x_i - \bar{x})^2}} {n-1}\) | Varianza estimada |
| \(SD(X)=\sigma_x\) | \(s_x = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}} = \sqrt{s^2_x}\) | Desviación típica estimada |
| \(Cov(X,Y)=\sigma_{xy}\) | \(s_{xy} = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}} {n-1}\) | Covarianza estimada |
| \(Cor(X,Y)=\rho_{xy}\) | \(r_{xy} = \frac{s_{xy}}{s_x \cdot s_y}\) | Coef. de correlación lineal |
donde todos los sumatorios van desde \(i=1\) hasta \(n\).
Los estimadores también son variables aleatorias.
Para una muestra aleatoria simple (m.a.s) de tamaño \(n\), \(\bar x\), es un estimador:
Insesgado:
Con varianza \(V(\bar{x}) =\frac{\sigma^2_x}{n}\)
Con desviación típica \(d.t.(\bar{x}) =\frac{\sigma}{\sqrt{n}}\)
A la d.t. de los estimadores se le suele denominar error estándar, \(SE(\bar{x})\): idea del error cometido al utilizar la media y no la esperanza.
Si \(X\) tiene distribución normal, la media también tiene distribución normal.
La simulación permite encontrar los resultados sin necesidad de demostrarlos analíticamente.
Hay un paquete de R, mosaic, que permite hacer los cálculos estadísticos y las simulaciones de manera muy sencilla e intuitiva.
install.packages("mosaic", dependencies=TRUE)
library(mosaic)
x=rnorm(100, mean=10, sd=10) # Crea una muestra de tamaño 100 con media 10 y d.t. 10.
mean(x) # Calcula la media
## [1] 10.66858
Hemos hecho UNA simulación. Si lo que hemos dicho es cierto, este estimador es insesgado y con varianza \(10^2/n=100/100=1\), y, por tanto, \(SD=1\).
mosaicUn experimento de Montecarlo consiste en realizar MUCHAS simulaciones y estudiar la distribución del estimador a través de la distribución empírica en muchas simulaciones.
Con mosaic hacemos \(k\) simulaciones escribiendo antes del código que genera una, do(k)*:
do(3) * rnorm(100, mean=10, sd=10) %>% mean
## result
## 1 9.530322
## 2 10.615650
## 3 9.962626
Es sencillo hacerlo 1000 veces
mc = do(1000) * rnorm(100, mean=10, sd=10) %>% mean
Una función útil de mosaic es la función favstats que nos da los estadísticos principales, alguno más que summary:
favstats(result,data=mc)
## min Q1 median Q3 max mean sd n
## 7.172278 9.327244 10.01119 10.65756 13.20144 9.995553 0.9607029 1000
## missing
## 0
sd) está cerca de 1: Parece que la fórmula era correcta.¿Y la distribución? ¿Parece normal?
densityplot(~result,data=mc)
LGN: Bajo condiciones muy débiles (p.ej. existencia de \(\mu_x\) y \(\sigma^2_x\)), las medias muestrales son un estimador consistente de \(\mu_x\)
\[plim(\bar x)=\mu_x \]
Es decir: Podemos conseguir que la media se aproxime tanto como queramos a la esperanza aumentando \(n\).
Intuición: \(V(\bar{x}) =\frac{\sigma^2_x}{n}\). Al aumentar \(n\), la varianza tiende a 0. Que un estimador sea insesgado (incluso asintóticamente insesgado) y su varianza tienda a 0 es, de hecho, más fuerte que la consistencia (convergencia en media cuadrática).
sim=bind_rows(
`10`=do(1000) * runif(10, min=10, max=20) %>% mean,
`50`=do(1000) * runif(50, min=10, max=20) %>% mean,
`100`=do(1000) * runif(100, min=10, max=20) %>% mean,
`500`=do(1000) * runif(500, min=10, max=20) %>% mean,.id="n") %>% mutate(n=as.numeric(n) %>% factor)
densityPlot(result~n,data=sim)
En el ejemplo anterior, la distribución de partida era uniforme. Sin embargo la media muestral tiene una distribución parecida a la normal
¿Es casualidad? NO. Es el TCL que funciona:
TCL: Bajo unos supuestos muy débiles (esperanza finita \(\mu\) y desviación típica finita \(\sigma\)), la distribución de la media muestral \(\bar{x}\) se acerca tanto como queramos a una
\(N(\mu,\frac{\sigma}{\sqrt{n}})\) al aumentar el tamaño muestral \(n\).
La distribución límite se denomina distribución asintótica (aproxima a la verdadera)
\[\bar{x} \overset{a}{\rightarrow} N(\mu_x,\frac{\sigma_x}{\sqrt{n}})\]
y \(Z_n=\frac{\bar{x}-\mu_x}{\sigma_x/\sqrt{n}}\) se aproxima tanto como queramos a la \(N(0,1)\) (convergencia en distribución): \(Z_n=\frac{\bar{x}-\mu_x}{\sigma_x/\sqrt{n}} \overset{d}{\rightarrow} N(0,1)\)
http://homer.shinyapps.io/CentralLimit ver también vistat
¿Por qué podemos hacer simulación? Por el Tª Fundamental de la Estadística garantiza que la f. de distribución empírica converge a la verdadera F(x) en cada x.
runif(100) %>% plot.ecdf(main="n=100");abline(0,1,col=2)
\[\forall x, F_n(x) \overset{p}{\rightarrow} F(x)\]
runif(1000) %>% plot.ecdf(main="n=1000");abline(0,1,col=2)
bootstrapSi \(F_n(x)\) empírica se parece tanto como queramos a la real, entonces, remuestrear (con reemplazo) en nuestra muestra (una muestra de la población) se aproxima tanto como queramos a muestrear en la población original.
Ejemplo: \(\bar{x}\) en una muestra n=90 de una \(\chi^2_5\). SE:1/3.
pdist("chisq",df=5,q=5)
## [1] 0.5841198
x=rchisq(90,df=5)
# Remuestremos 1000 veces y guardamos las medias (bootstrap)
medias=do(1000)*(resample(x) %>% mean)
densityplot(~result,data=medias)
favstats(result,data=medias)
## min Q1 median Q3 max mean sd n
## 4.166583 4.838492 5.067501 5.287129 6.060735 5.068996 0.3310045 1000
## missing
## 0
Para \(n\) razonablemente grande
El IC se basa en que \(t = \frac{\bar{x}-\mu}{SE(\bar{x})}\) tiene una distribución \(t_{n-1}\)
\(IC: \bar{x} \pm t^*SE(\bar{x})\)
\(P(-t^* < t < t^*) = 0.95\) (Nivel de confianza)
\(\mbox{IC}=(\bar{x}-t^* \cdot SE,\mbox{ } \bar{x}+t^* \cdot SE)\)
CIsim(n=10, samples=100)
hipótesis nula, \(H_0\), que queremos contrastar, así como la forma de la hipótesis alternativa, \(H_1\).estadístico de contrastep-valor: Si es 0.23, bajo la nula hay un 23% de obtener
un valor tan extremo o más que el que se ha obtenido. No es "tan raro"Decisión: Si he elegido previamente un nivel de significación (ej: 1%, 5%, 10%) rechazo la nula si el p-valor es menor que el nivel de significación en tanto por uno (\(0.23>0.10\), no rechazo). NUNCA DECIR ACEPTO LA NULA. Sólo se puede decir que no la rechazáis, igual que no se rechazarían muchas otras posibles hipótesis nulas.Error de tipo I: Rechazar la nula cuando esta es cierta. Prefijado e igual al nivel de significación \(\alpha\)
Error de tipo II: No rechazar la nula cuando ésta es falsa. Tanto mayor cuánto (a) Más cerca esté la verdadera de la nula, (b) Menos potente sea el contraste.
bootstrapHemos visto la idea revolucionaria del bootstrap: Generar muestras por remuestreo que aproximan la distribución del estimador SIN SABER de qué población procede.
La idea del bootstrap también se puede aplicar a los IC y test de hipótesis.
IC bootstrap: Puesto que el bootstrap me permite generar una muestra de tamaño k de estimadores puedo formar intervalos de dos maneras:
mosaic por defecto (confint)Contrastes bootstrap: Obtenemos una muestra bootstrap de la distribución cuando la nula es cierta. ¿Cómo? Si se trata de que una variable no tenga influencia, permutando aleatoriamente (shuffle) la variable en las submuestras. Si no tiene efecto, no debería importar. Después:
IC: Rechazo si el estadístico no cae en el IC \(1-\alpha\) bajo la nula.p-valor: Qué probabilidad hay de obtener valores más extremos que el obtenido (p-valor bootstrap).