Agosto 14, 2015

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)

Respuesta sugerida (1/3)

  • Generamos nuevas columnas con la información sobre la población objetivo.
  • Sólo mujeres jefes de hogar
  • Edad entre 25 y 40
  • Estratos 1, 2 y 3

Respuesta sugerida (2/3)

  Inseguro Seguro
No 0.4986 0.5014
Si 0.5467 0.4533

55% de las mujeres en la población objetivo se sienten inseguras

Respuesta sugerida (3/3)

tbl <- table(jefes.mujeres$poblacionObjetivo,jefes.mujeres$P1359)
test <- prop.test(tbl)
tbl
    
     Inseguro Seguro
  No    10827  10888
  Si     4018   3331
test$p.value; test$conf.int
[1] 1.053683e-12
[1] -0.06141860 -0.03487262
attr(,"conf.level")
[1] 0.95

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)

Diseñando Experimentos

Hasta ahora hemos venido haciendo inferencia con experimentos obsevacionales de muestreo y no con experimentos diseñados de muestreo.

Estudios Observacionales

  • Poco control
  • Simplemente se observa lo que se tiene

Experimentos Diseñados

  • El analista intenta controlar los niveles de una o más variables, con el fin de determinar el efecto sobre la variable de interés
  • Permiten inferir causa y efecto

Elementos de un diseño experimental

  • Variable de respuesta (también conocida como variable dependiente)
  • Factores: variables cuyo efecto sobre la respuesta es el interés fundamental del diseñador (también llamadas variables independientes)
  • Niveles de los factores: valores del factor usado en el experimento
  • Tratamientos: Combinaciones factor-nivel usadas en el experimento
  • Unidad experimental: objeto sobre el cual se observan las respuestas

Experimento completamente aleatorio: un sólo factor

El diseño más simple consiste en la selección completamente aleatoria de las unidades experimentales que representan cada tratamiento.

El objetivo de este tipo de experimentos is comparar las medias de cada tratamiento:

\[H_o:\mu_1=\mu_2=...=\mu_k\] \[H_a: \text{Al menos dos de las k medias difieren}\]

En esta hipótesis, comparamos las medias de las muestras aleatorias independientes (cada tratamiento).

Ejemplo 1

  • Tenemos 10 puntajes en una prueba, 5 correspondientes a hombres y 5 correspondientes a mujeres
  • Queremos analizar si existen o no diferencias en los puntajes promedio para los dos grupos
genero Puntaje.Prom
Femenino 583.4
Masculino 565.6

Diferencia dominada por variabilidad de muestreo

Calculemos algunas métricas de interés (1/2)

Suma de Cuadrados de los Tratamientos (SST), o variación entre las medias de cada tratamiento

Calculada como la diferencia entre cada media de cada tratamiento y la media global (todos las unidades experimentales), elevada al cuadrado, multiplicado por el número de medidas en la muestra y sumados para cada tratamiento.

\[SST = 5(565.6-574.5)^2 + 5(583.4-574.5)^2 = 792.1\]

Calculemos algunas métricas de interés (2/2)

Suma de Cuadrados para el Error (SSE), o variabilidad muestral dentro de los tratamientos

Calculada al sumar la distancia cuadrada entre cada respuesta medida y su correspondiente media de tratamiento y luego sumando las diferencias al cuadrado para todas las medidas en la muestra completa. SSE se puede simplificar como:

\[SSE=(n_1 - 1){s_1}^2+(n_2 - 1){s_2}^2+...+(n_k - 1){s_k}^2\]

\[SSE = (5-1)(406.8) + (5-1)(552.8) = 3838.4\]

Calculemos el estadístico F

\[MST=\frac{SST}{k-1}=SST/(2-1)=792.1\] \[MSE=\frac{SSE}{n-k}=SSE/(10-2)=479.8\] \[F=\frac{MST}{MSE}=1.65\]

Se observa un estadístico F muy bajo, por lo que no es posible rechazar la \(H_0\). El F crítico para este caso es 4.96 (ver tabla F)

Ejemplo 2

  • Tenemos otros 10 puntajes en una prueba, 5 correspondientes a hombres y 5 correspondientes a mujeres
  • Queremos analizar si existen o no diferencias en los puntajes promedio para los dos grupos
genero Puntaje.Prom
Femenino 587.2
Masculino 556.4

Diferencia elevada relativa a la variabilidad de muestreo

Calculemos algunas métricas de interés (1/2)

Suma de Cuadrados de los Tratamientos (SST), o variación entre las medias de cada tratamiento

Calculada como la diferencia entre cada media de cada tratamiento y la media global (todos las unidades experimentales), elevada al cuadrado, multiplicado por el número de medidas en la muestra y sumados para cada tratamiento.

\[SST = 5(556.4-571.8)^2 + 5(587.2-571.8)^2 = 2371.6\]

Calculemos algunas métricas de interés (2/2)

Suma de Cuadrados para el Error (SSE), o variabilidad muestral dentro de los tratamientos

Calculada al sumar la distancia cuadrada entre cada respuesta medida y su correspondiente media de tratamiento y luego sumando las diferencias al cuadrado para todas las medidas en la muestra completa. SSE se puede simplificar como:

\[SSE=(n_1 - 1){s_1}^2+(n_2 - 1){s_2}^2+...+(n_k - 1){s_k}^2\]

\[SSE = (5-1)(60) + (5-1)(93.2) = 616\]

Calculemos el estadístico F

\[MST=\frac{SST}{k-1}=SST/(2-1)=2371.6\] \[MSE=\frac{SSE}{n-k}=SSE/(10-2)=77\] \[F=\frac{MST}{MSE}=30.8\]

Se observa un estadístico F superior al valor crítico de 4.96, por lo que es posible rechazar la \(H_0\). Las medias son diferentes.

Análisis de Varianza en R

  • Empleamos las funciones lm() y anova()
modelo <- lm(scores~genero,df)
anova(modelo)
Analysis of Variance Table

Response: scores
          Df Sum Sq Mean Sq F value    Pr(>F)    
genero     1 2371.6  2371.6    30.8 0.0005411 ***
Residuals  8  616.0    77.0                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Otros diseños empleados

Diseño de bloques aleatorios:

  • Agrupa las unidades experimentales en subconjuntos homogéneos (bloques) para luego aplicar (aleatoriamente) los tratamientos a cada subconjunto
  • En el ejemplo de los estudiantes y sus puntajes, una posible agrupación (parejas de estudiantes) puede provenir de su colegio de origen y promedio acumulado.

Experimento Factorial Completo:

  • En este diseño cada combinación factor-nivel es empleada, en otras palabras, el número de tratamientos en el experimento es igual al total de combinaciones factor-nivel

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)

Variables categóricas

  • Tabla de una vía permite mirar las probabilidades de una categoría
  • Tabla de dos vías permite analizar dos factores
  • Pruebas Chi Cuadrado para pruebas de independencia entre variables

Chi Cuadrado para independencia

  • Dos variables aleatorias son independientes si la distribución de probabilidad de una variable no se afecta por la presencia de la otra
  • Para probar independencia (en variables categóricas) se emplea la prueba Chi Cuadrado
  • Miremos un ejemplo (filas: fumador, columnas: ejercicio)
  Freq None Some
Heavy 7 1 3
Never 87 18 84
Occas 12 3 4
Regul 9 1 7

Chi Cuadrado en R

\(H_0: \text{Las dos clasificaciones son independientes}\) \(H_a: \text{Las dos clasificaciones son dependientes}\)

chisq.test(tbl)
    Pearson's Chi-squared test

data:  tbl
X-squared = 5.4885, df = 6, p-value = 0.4828

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)

Taller en clase

Desarrollar taller sobre diseño de experimentos (Tiempo: 45 minutos)

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)

Introducción al modelo lineal

Perspectiva histórica

Sir Francis Galton

Inventó los conceptos de correlación y regresión. Fundó Biometrika, y era primo de Charles Darwin.

Primero en aplicar métodos estadísticos en el estudio de las diferencias humanas y la herencia de inteligencia.

Introdujo el uso de cuestionarios y encuestas para la recolección de datos sobre comunidades humanas.

  • Nacido: Inglaterra, 16 de Feb. 1822
  • Fallecido: Inglaterra, 17 de Ene. 1911 (88)
  • Residencia: Inglaterra
  • Campos: Antropología, Sociología
  • Conocido por: Regresión a la media

Datos empleados por Galton

Mínimos Cuadrados

  • ¿Cuál es la mejor manera de predecir la altura de los niños, sin usar nada más que la información sobre alturas de los niños?
  • El valor que se encuentra justo en la mitad de la distribución
  • Definamos \(Y_i\) como la altura del niño \(i\) para \(i=1,...,n\). La mitad es el valor \(\mu\) que minimiza:
  • \[\sum_{i=1}^{n} (Y_i - \mu)^{2}\]
  • El centro físico de masa del histograma. En otras palablas, \(\mu=\bar{Y}\)

\(\mu\) y MSE

Aún no hemos empleado la altura de los padres

Miremos un scatter plot

Regresión a través del origen

Ahora queremos explicar la altura del niño empleando la altura del padre, con una línea.

  • Obligamos esa línea a pasar por el origen (por simplicidad, este no es el caso normalmente)
  • Esa línea es sólo la pendiente, \(\beta\)
  • Podemos encontrar la pendiente \(\beta\) que minimiza las distancias al cuadrado entre los datos observados y lo datos ajustados a la línea
  • \[\sum_{i=1}^{n} (Y_i - X_{i}\beta)^{2}\]

Miremos cómo se ve esta pendiente en los datos

(tomado de Brian Caffo: Introducción a la Regresión Lineal, JHU, 2015)

Aplicación en R

En R, podemos encontrar muy facilmente la solución empleando la función lm().

lm(I(child-mean(child))~I(parent-mean(parent))-1, data=galton)
## 
## Call:
## lm(formula = I(child - mean(child)) ~ I(parent - mean(parent)) - 
##     1, data = galton)
## 
## Coefficients:
## I(parent - mean(parent))  
##                   0.6463

Recordemos

  • Datos centrados
  • Datos escalados
  • Datos normalizados

Correlación entre dos variables

La correlación se define como:

\[Cor(X,Y)=\frac{Cov(X,Y)}{S_xS_y}\]

Propiedades:

  • \(Cor(X,Y)=Cor(Y,X)\)
  • \(-1 \leq Cor(X,Y) \leq 1\)
  • \(Cor(X,Y)=1\) o \(Cor(X,Y)=-1\) sólo cuando \(X\) y \(Y\) se ubican perfectamente en una recta con pendiente + o -
  • \(Cor(X,Y)=0\) implica ausencia de cualquier relación lineal

Mínimos Cuadrados Lineales

Consideremos nuevamente los datos de Galton. Queremos emplear la altura de los padres para explicar la altura de los hijos. Queremos encontrar la mejor recta.

\[H_c = \beta_0 + H_p \beta_1\]

Usando mínimos cuadrados:

\[\sum_{i=1}^{n} (Y_i - (\beta_0 + X_{i}\beta_1))^{2}\]

Esta minimización se resuelve cuando:

\[\hat{\beta_1} = Cor(X,Y) \frac{Sd(Y)}{Sd(X)}\]

y:

\[\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X}\]

Aplicación en R

Cálculo manual de los coeficientes

# Empleando las fórmulas que minimizan la distancia al cuadrado:
y <- galton$child; x <- galton$parent
beta1 <- cor(y,x) * sd(y)/sd(x)
beta0 <- mean(y) - beta1*mean(x)
rbind(c(beta0,beta1), coef(lm(y~x)))
     (Intercept)         x
[1,]    23.94153 0.6462906
[2,]    23.94153 0.6462906

La regresión a través del origen …

… genera pendientes equivalentes siempre y cuando centremos los datos primero

yc <- y-mean(y); xc <- x-mean(x)
beta1 <- sum(yc*xc)/sum(xc^2)
rbind(beta1, coef(lm(y~x))[2])
              x
beta1 0.6462906
      0.6462906
lm(yc~xc -1)
Call:
lm(formula = yc ~ xc - 1)

Coefficients:
    xc  
0.6463  

Si empleamos variables normalizadas …

… la pendiente \(\beta_1\) será equivalente al coeficiente de correlación

yn <- (y-mean(y))/sd(y)
xn <- (x-mean(x))/sd(x)
c(cor(y,x), cor(yn,xn), coef(lm(yn~xn))[2])
##                            xn 
## 0.4587624 0.4587624 0.4587624

Gráficamente, la recta de regresión:

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)

Poder Estadístico

  • Poder Estadístico: Probabilidad de rechazar la \(H_O\) cuando ésta es falsa (poder estadístico es algo bueno, así que siempre queremos que sea alto)
  • Error Tipo II (\(\beta\)): No rechazar \(H_O\) cuando es falsa
  • Por lo tanto, \(Power=(1-\beta)\)

Poder Estadístico: Gráficamente

Poder Estadístico: Gráficamente

Poder Estadístico: Gráficamente

  • Ver demo R (demo_power.R en Google Drive)

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)

Agenda

  • Respuesta sugerida al caso sobre inferencia
  • Diseño de Experimentos
  • Análisis de Variables Categóricas
  • Taller en Clase
  • Modelo Lineal
  • Poder estadístico en pruebas de hipótesis: Demo
  • Break
  • Sesión de trabajo en proyecto final (hasta el final de la sesión)