3b. Conceptos Estadisticos

ECONOMETRIA I. GRADO EN ECONOMIA.

Jose Antonio Ortega
Universidad de Salamanca

Conceptos de Repaso: Esperanza y Varianza de variables aleatorias reales

Esperanza

Equivalente poblacional de la media, \(E(X)=\mu_x\)

PROPIEDADES

\(E(k)=k\)
\(E(X+Y)=E(X)+E(Y)\)
\(E(k \cdot X)=k \cdot E(X)\)
SI \(X\) e \(Y\) son INDEPENDIENTES, \(E(X \cdot Y)= E(X) \cdot E(Y)\)
La esperanza puede:
- No existir
- Ser infinita
- En esos casos muchos teoremas de "buen comportamiento" fallan.

Varianza y covarianza

La varianza mide la dispersión en torno al valor esperado.
La covarianza, si las desviaciones respecto a la esperanza están asociadas
\(V(X)=E[X-E(X)]^2=E(X^2)-E^2(X)=\sigma^2_x\)
\(Cov(X,Y)=E(X-E(x))(Y-E(Y))=E(X \cdot Y)-E(X)E(Y)=\sigma_{xy}\)

PROPIEDADES

\(V(k)=0\)
\(V(k \cdot X)= k^2 \cdot V(X)\)
\(V(k + X) = V(X)\)
\(V(X+Y)=V(X)+V(Y)+2 \cdot Cov(X,Y)\). [\(V(X)+V(Y)\) sólo si \(Cov(X,Y)=0\)]
\(V(aX+bY)=a^2 \cdot V(X)+b^2 \cdot V(Y)+2 \cdot a \cdot b \cdot Cov(X,Y)\)
La V(X), de existir, es positiva. Puede no existir o ser infinita.
Cov(X,Y) puede ser positiva o negativa (o no existir o ser infinita).

Desviación típica y coeficiente de correlación

Las unidades de medida de la varianza son las de la variable \(X\) al cuadrado (Si son \(habitantes\), \(habitantes^2\))
Las de la covarianza, el producto de las de la X y la Y.
Se definen magnitudes derivadas:
\(d.t.(X)=\sqrt{V(X)}=\sigma_x\)
- La desviación típíca (Standard Deviation, SD) tiene por unidades la de la variable.
\(Cor_{xy}=\frac{Cov(X,Y)}{d.t.(X) \cdot d.t.(Y)}=\rho_{xy}\)
- La correlación lineal no tiene unidades de medida.
- De existir, está comprendida entre \([-1,1]\).
- Mide la asociación lineal entre las variables

Conceptos de Repaso: Estimadores y propiedades de estimadores

Estimadores muestrales: Propiedades

Muestra aleatoria de tamaño \(n\) de la v.a. \(X\)
Los estimadores, (\(\hat \theta\)), son funciones de los datos
Queremos que se aproximen a los valores poblacionales (\(\theta\)) en los siguientes sentidos:
- Que sean insesgados: \(E(\hat \theta)=\theta\). Sesgo: \(B(\hat \theta)=E(\hat \theta)-\theta\)
- Que tengan la varianza mínima posible \(V(\hat \theta)\) pequeña.
- Que tengan el menor error cuadrático medio (MSE) posible: \(ECM(\hat \theta)=V(\hat \theta)+B^2(\hat \theta)=E(\hat \theta-\theta)^2\)
- Propiedades asintóticas (al aumentar \(n\) arbitrariamente, \(n\rightarrow \infty\))
- Que asintóticamente se concentre tanta probabilidad como queramos en un entorno tan pequeño como deseemos en torno a un número : convergencia en probabilidad. \(\hat \theta \overset{p}{\rightarrow} a \Leftrightarrow plim(\theta)=a\)
- Consistencia: Que el estimador converga en probabilidad al parámetro \(plim(\hat \theta)=\theta\)

Estimadores muestrales habituales

Estos son los estimadores habituales de los momentos poblaciones que hemos definido:

Parámetro	Estimador	Nombre
\(E(X)=\mu_x\)	\(\bar{x} =\frac{\sum x_i}{n}\)	Media muestral
\(V(X)=\sigma^2_x\)	\(s^2_x= \frac{\sum{(x_i - \bar{x})^2}} {n-1}\)	Varianza estimada
\(SD(X)=\sigma_x\)	\(s_x = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}} = \sqrt{s^2_x}\)	Desviación típica estimada
\(Cov(X,Y)=\sigma_{xy}\)	\(s_{xy} = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}} {n-1}\)	Covarianza estimada
\(Cor(X,Y)=\rho_{xy}\)	\(r_{xy} = \frac{s_{xy}}{s_x \cdot s_y}\)	Coef. de correlación lineal

donde todos los sumatorios van desde \(i=1\) hasta \(n\).

Distribución de la media muestral,

Los estimadores también son variables aleatorias.

Para una muestra aleatoria simple (m.a.s) de tamaño \(n\), \(\bar x\), es un estimador:

Insesgado:
- \(E(\bar{x}) =E(\frac{\sum x_i}{n})=\frac{\sum E(x_i)}{n}=\frac{n \cdot \mu_x}{n}=\mu_x\)
Con varianza \(V(\bar{x}) =\frac{\sigma^2_x}{n}\)
- \(V(\bar{x}) = V(\frac{\sum x_i}{n}) = \{\text{indep de } x_i\} = \frac{\sum V(x_i)}{n^2} = \frac{n \cdot \sigma^2_x}{n^2}=\frac{\sigma^2_x}{n}\)
Con desviación típica \(d.t.(\bar{x}) =\frac{\sigma}{\sqrt{n}}\)
A la d.t. de los estimadores se le suele denominar error estándar, \(SE(\bar{x})\): idea del error cometido al utilizar la media y no la esperanza.
Si \(X\) tiene distribución normal, la media también tiene distribución normal.

Ejemplo empírico: Simulación

La simulación permite encontrar los resultados sin necesidad de demostrarlos analíticamente.
Hay un paquete de R, mosaic, que permite hacer los cálculos estadísticos y las simulaciones de manera muy sencilla e intuitiva.

install.packages("mosaic", dependencies=TRUE)

library(mosaic)
x=rnorm(100, mean=10, sd=10) # Crea una muestra de tamaño 100 con media 10 y d.t. 10.
mean(x) # Calcula la media

## [1] 10.66858

Hemos hecho UNA simulación. Si lo que hemos dicho es cierto, este estimador es insesgado y con varianza \(10^2/n=100/100=1\), y, por tanto, \(SD=1\).

Experimento de Montecarlo con `mosaic`

Un experimento de Montecarlo consiste en realizar MUCHAS simulaciones y estudiar la distribución del estimador a través de la distribución empírica en muchas simulaciones.

Con mosaic hacemos \(k\) simulaciones escribiendo antes del código que genera una, do(k)*:

do(3) * rnorm(100, mean=10, sd=10) %>% mean

##      result
## 1  9.530322
## 2 10.615650
## 3  9.962626

Es sencillo hacerlo 1000 veces

mc = do(1000) * rnorm(100, mean=10, sd=10) %>% mean

Distribución en el experimento

Una función útil de mosaic es la función favstats que nos da los estadísticos principales, alguno más que summary:

favstats(result,data=mc)

##       min       Q1   median       Q3      max     mean        sd    n
##  7.172278 9.327244 10.01119 10.65756 13.20144 9.995553 0.9607029 1000
##  missing
##        0

La media no está lejos de 10, parece insesgado.
La desviación típica (sd) está cerca de 1: Parece que la fórmula era correcta.

¿Y la distribución? ¿Parece normal?

densityplot(~result,data=mc)

plot of chunk unnamed-chunk-7

Ley de los grandes números (LGN)

LGN: Bajo condiciones muy débiles (p.ej. existencia de \(\mu_x\) y \(\sigma^2_x\)), las medias muestrales son un estimador consistente de \(\mu_x\)

\[plim(\bar x)=\mu_x \]

Es decir: Podemos conseguir que la media se aproxime tanto como queramos a la esperanza aumentando \(n\).

Intuición: \(V(\bar{x}) =\frac{\sigma^2_x}{n}\). Al aumentar \(n\), la varianza tiende a 0. Que un estimador sea insesgado (incluso asintóticamente insesgado) y su varianza tienda a 0 es, de hecho, más fuerte que la consistencia (convergencia en media cuadrática).

sim=bind_rows(
`10`=do(1000) * runif(10, min=10, max=20) %>% mean,
`50`=do(1000) * runif(50, min=10, max=20) %>% mean,
`100`=do(1000) * runif(100, min=10, max=20) %>% mean,
`500`=do(1000) * runif(500, min=10, max=20) %>% mean,.id="n") %>% mutate(n=as.numeric(n) %>% factor)
densityPlot(result~n,data=sim)

plot of chunk unnamed-chunk-8

Teorema Central del Límite: Convergencia a la normal

En el ejemplo anterior, la distribución de partida era uniforme. Sin embargo la media muestral tiene una distribución parecida a la normal

¿Es casualidad? NO. Es el TCL que funciona:

TCL: Bajo unos supuestos muy débiles (esperanza finita \(\mu\) y desviación típica finita \(\sigma\)), la distribución de la media muestral \(\bar{x}\) se acerca tanto como queramos a una \(N(\mu,\frac{\sigma}{\sqrt{n}})\) al aumentar el tamaño muestral \(n\).

La distribución límite se denomina distribución asintótica (aproxima a la verdadera) \[\bar{x} \overset{a}{\rightarrow} N(\mu_x,\frac{\sigma_x}{\sqrt{n}})\]

y \(Z_n=\frac{\bar{x}-\mu_x}{\sigma_x/\sqrt{n}}\) se aproxima tanto como queramos a la \(N(0,1)\) (convergencia en distribución): \(Z_n=\frac{\bar{x}-\mu_x}{\sigma_x/\sqrt{n}} \overset{d}{\rightarrow} N(0,1)\)

Aplicación de Shiny sobre Teorema Central del Límite

http://homer.shinyapps.io/CentralLimit ver también vistat

Teorema Fundamental de la Estadística

¿Por qué podemos hacer simulación? Por el Tª Fundamental de la Estadística garantiza que la f. de distribución empírica converge a la verdadera F(x) en cada x.

runif(100)  %>% plot.ecdf(main="n=100");abline(0,1,col=2)

plot of chunk unnamed-chunk-9

Teorema Fundamental de la Estadística:

\[\forall x, F_n(x) \overset{p}{\rightarrow} F(x)\]

runif(1000)  %>% plot.ecdf(main="n=1000");abline(0,1,col=2)

plot of chunk unnamed-chunk-10

Aplicación: El método `bootstrap`

Si \(F_n(x)\) empírica se parece tanto como queramos a la real, entonces, remuestrear (con reemplazo) en nuestra muestra (una muestra de la población) se aproxima tanto como queramos a muestrear en la población original.

Ejemplo: \(\bar{x}\) en una muestra n=90 de una \(\chi^2_5\). SE:1/3.

pdist("chisq",df=5,q=5)

plot of chunk unnamed-chunk-11

## [1] 0.5841198

x=rchisq(90,df=5)
# Remuestremos 1000 veces y guardamos las medias (bootstrap)
medias=do(1000)*(resample(x) %>% mean)
densityplot(~result,data=medias)

plot of chunk unnamed-chunk-12

favstats(result,data=medias)

##       min       Q1   median       Q3      max     mean        sd    n
##  4.166583 4.838492 5.067501 5.287129 6.060735 5.068996 0.3310045 1000
##  missing
##        0

Inferencia estadística: Intervalos de confianza y contrastes de hipótesis

Intervalos de confianza

Para \(n\) razonablemente grande

En \(\bar{x} \pm 1 \times SE(\bar{x})\) está \(\mu\) el 68% de las veces
En \(\bar{x} \pm 2 \times SE(\bar{x})\), el 95% de las veces
En \(\bar{x} \pm 3 \times SE(\bar{x})\), el 99.7% de las veces

El IC se basa en que \(t = \frac{\bar{x}-\mu}{SE(\bar{x})}\) tiene una distribución \(t_{n-1}\)

\(IC: \bar{x} \pm t^*SE(\bar{x})\)

\(P(-t^* < t < t^*) = 0.95\) (Nivel de confianza)

\(\mbox{IC}=(\bar{x}-t^* \cdot SE,\mbox{ } \bar{x}+t^* \cdot SE)\)

CIsim(n=10, samples=100)

Contrastes de hipótesis

Escogemos una hipótesis nula, \(H_0\), que queremos contrastar, así como la forma de la hipótesis alternativa, \(H_1\).
Calculamos el estadístico de contraste
Los estadísticos basados en la normal son válidos si se cumple una de estas condiciones:
- La distribución es aproximadamente normal (si es normal, los resultados son exactos)
- Aunque no sea normal, el número de observaciones es grande (>30-50) y se puede "invocar" el TCL
Cálculo e interpretación del p-valor: Si es 0.23, bajo la nula hay un 23% de obtener un valor tan extremo o más que el que se ha obtenido. No es "tan raro"
Decisión: Si he elegido previamente un nivel de significación (ej: 1%, 5%, 10%) rechazo la nula si el p-valor es menor que el nivel de significación en tanto por uno (\(0.23>0.10\), no rechazo). NUNCA DECIR ACEPTO LA NULA. Sólo se puede decir que no la rechazáis, igual que no se rechazarían muchas otras posibles hipótesis nulas.

Error de tipo I: Rechazar la nula cuando esta es cierta. Prefijado e igual al nivel de significación \(\alpha\)
Error de tipo II: No rechazar la nula cuando ésta es falsa. Tanto mayor cuánto (a) Más cerca esté la verdadera de la nula, (b) Menos potente sea el contraste.

http://homer.shinyapps.io/Type12Errors/

Intervalos y contrastes `bootstrap`

Hemos visto la idea revolucionaria del bootstrap: Generar muestras por remuestreo que aproximan la distribución del estimador SIN SABER de qué población procede.
La idea del bootstrap también se puede aplicar a los IC y test de hipótesis.
IC bootstrap: Puesto que el bootstrap me permite generar una muestra de tamaño k de estimadores puedo formar intervalos de dos maneras:
- Con la idea de \(\bar{x} \pm t^*SE(\bar{x})\), lo que hace mosaic por defecto (confint)
- A partir de los percentiles \(\alpha/2\) y \(1-\alpha/2\) de la distribución obtenida en las remuestras.
Contrastes bootstrap: Obtenemos una muestra bootstrap de la distribución cuando la nula es cierta. ¿Cómo? Si se trata de que una variable no tenga influencia, permutando aleatoriamente (shuffle) la variable en las submuestras. Si no tiene efecto, no debería importar. Después:
- IC: Rechazo si el estadístico no cae en el IC \(1-\alpha\) bajo la nula.
- p-valor: Qué probabilidad hay de obtener valores más extremos que el obtenido (p-valor bootstrap).