26/10/2021

Análisis exploratorio

Cuando vamos a realizar análisis de datos debemos tomarnos el tiempo para conocer nuestros datos:

  • Como está conformada la base de datos

  • Se leyó correctamente la base de datos

  • Existen errores de captura

  • Cuáles son los tamaños de muestra

  • Qué distribución tienen mis datos

  • Mis datos son representativos

  • Mis datos me sirven para contestar mi pregunta de investigación

Para esto es necesario realizar un análisis exploratorio en el que debemos considerar los siguientes pasos.

  1. Formular una pregunta de investigación.

  2. Leer la base de datos.

  3. Revisar los paquetes que vamos a necesitar.

  4. Revisar la estructura de los datos.

  5. Ver el inicio y el final de nuestra base de datos.

  6. Validar con una fuente externa.

  7. Probar una solución fácil.

  8. Retar nuestra solución.

  9. Hacernos preguntas de seguimiento.

Estadística paramétrica y no paramétrica

Las pruebas estadísticas se dividen en estos dos grandes grupos, la diferencia entre uno y otro grupo es que las pruebas paramétricas se basan en el cumplimiento de supuestos con respecto a la distribución de los datos mientras que las pruebas no paramétricas no.

Ji cuadrada

Es una medida de la discrepancia existente entre las frecuencias observadas y las esperadas. La \(\chi^2\) es el obmnibus de las pruebas porque permite utilizar variables de cualquier nivel de medición.

\[\chi^2={(f_o-f_e)^2 \over f_e}\] La \(\chi^2\) puede utilizarse como prueba de homogeneidad, prueba de independencia o prueba de bondad de ajuste.

Prueba de homogeneidad

Si lanzamos una moneda teóricamente tenemos 50% de probabilidades de que caiga sol y 50% de que caiga águila. Después de 300 intentos obtenemos 135 soles y 165 águilas. ¿Es una buena moneda para echar volados?

Núm. de lanzamientos Sol Águila
300 135
(150)
165
(150)

Utilizando la \(\chi^2\) tenemos que:

\[\chi^2={(135-150)^2 \over 150}+{(165-150)^2 \over 150}=3\]

C <- matrix(c(135, 165), nrow = 1)
(135 - 150)^2/150 + (165 - 150)^2/150  #A mano de acuerdo a la fórmula
[1] 3
C
     [,1] [,2]
[1,]  135  165

# Mismo resultado pero con valor p incluido
chisq.test(C, p = c(0.5, 0.5))
    Chi-squared test for given probabilities

data:  C
X-squared = 3, df = 1, p-value = 0.08326
# Los residuales mayores a 1.96 indican significancia estadística
chisq.test(C)$stdres
[1] -1.732051  1.732051

Mientras más cercano a cero el valor de \(\chi^2\) mayor es la coincidencia entre las frecuencias observadas y las esperadas, mientras más grande el valore de \(\chi^2\) mayor discrepancia entre las frecuencias.

Prueba de independencia

La \(\chi^2\) se utiliza para estimar si dos variables categóricas son independientes o están relacionadas.

Un tratamiento para dejar de fumar se implementó en 110 fumadores compulsivos. Un número igual de pacientes en lista de espera participaron como grupo control.

Grupo Cambio de conducta Sin cambio de conducta Total filas
Tratamiento 92 18 110
Control 68 42 110
Total columnas 160 60 220

La prueba de independencia inicia con una hipótesis nula (\(H_0\)) que propone que el cambio de conducta y el tratamiento utilizado son independientes, es decir que no hay diferencias entre los resultados del grupo con tratamiento y el grupo control en cuanto al cambio de conducta.

row1 <- c(92, 18)
row2 <- c(68, 42)
td <- rbind(row1, row2)
chisq.test(td)
    Pearson's Chi-squared test with Yates' continuity correction

data:  td
X-squared = 12.123, df = 1, p-value = 0.0004981

Dado que el valor p es menor a nuestro valor de significacncia (\(\alpha=0.05\)) rechazamos la hipótesis nula y concluimos que existen diferencias entre los resultados en el grupo de tratamiento y el grupo control en cuanto al cambio de conducta de los fumadores.

Prueba de bondad de ajuste

Se utiliza la prueba \(\chi^2\) para determinar la calidad del ajuste mediante distribuciones teóricas (como la distribución normal o la binomial) de distribuciones empíricas. Para poblaciones grandes se utiliza la corrección de Yates:

\[\chi^2={(f_o-f_e)^2-0.5 \over f_e}\]

Pensemos en la distribución de probabilidad de un dado que se lanza 150 veces, ¿es un dado balanceado? o ¿está cargado?

freq = c(22, 21, 22, 27, 22, 36)
probs = rep(1/6, 6)
chisq.test(freq, p = probs)
    Chi-squared test for given probabilities

data:  freq
X-squared = 6.72, df = 5, p-value = 0.2423

Prueba t de Student

Es una prueba paramétrica que se utiliza para contrastar hipótesis sobre medias en poblaciones con distribución normal (Jackson, 2013). También proporciona resultados aproximados para los contrastes de medias en muestras suficientemente grandes cuando estas poblaciones no se distribuyen normalmente (aunque en este último caso es preferible realizar una prueba no paramétrica).

Prueba t de Student para una muestra

Cuando no conocemos la desviación estándar de una población se puede estimar mediante una muestra aleatoria utilizando la prueba t.

\[t={\bar{x}-\mu \over {s \over \sqrt{n}}}\] Donde \({s \over \sqrt{n}}\) es una estimación del error muestral.

La prueba t para una muestra es indicada cuando no conocemos s la distribución de la muestra es mayor o igual a 30 y se distribuye de forma normal. Por lo tanto necesitamos sustituir el valor de s en la fórmula para lo cual tenemos:

\[s=\sqrt{{SC \over n-1}}\]

Donde la suma de cuadrados (SC) es igual a:

\[SC=\Sigma x^2-{(\Sigma x)^2 \over n}\]

Por ejemplo, se presentó un brote de salmonella que se atribuye al consumo de helado de una marca en particular. Científicos tomaron nueve muestras aleatorias de helado para medir el nivel de salmonella cuyo estándar permitido es de 0.3 NMP/g

x <- c(0.593, 0.142, 0.329, 0.691, 0.231, 0.793, 0.519, 0.392, 0.418)

t.test(x, alternative = "greater", mu = 0.3)
    One Sample t-test

data:  x
t = 2.2051, df = 8, p-value = 0.02927
alternative hypothesis: true mean is greater than 0.3
95 percent confidence interval:
 0.3245133       Inf
sample estimates:
mean of x 
0.4564444 

Prueba t de Student para dos poblaciones correlacionadas

Cuando tenemos un diseño de investigación en el que un sujeto está en el grupo control y en el grupo experimental, por ejemplo un diseño de pares relacionados, los grupos comparten características que los clasifican como grupos correlacionados.

La prueba t trabaja entonces con las diferencias entre las dos muestras o poblaciones:

\[t={\bar{D}-\mu_D \over {s_D \over \sqrt{n}}}\]

Donde:

\(\bar{D}=\) Media de las diferencias en la muestra

\(\mu_D=\) Media de las diferencias de la población

\(s_D=\) Desviación estándar de las diferencias en la muestra

\(n =\) Número de diferencias

Como ejemplo planteemos un estudio que tiene como objetivo determinar si los automóviles tienen un mejor desempeño usando gasolina premium que cuando usan gasolina regular. Diez autos se llenaron con gasolina premium o regular aleatoriamente y se registró el kilometraje que recorrieron con ese tanque. Posteriormente se llenó el tanque con la opción contraria de gasolina y se registró el kilometraje.

reg <- c(16, 20, 21, 22, 23, 22, 27, 25, 27, 28)
prem <- c(19, 22, 24, 24, 25, 25, 26, 26, 28, 32)
t.test(prem, reg, alternative = "greater", paired = TRUE)
    Paired t-test

data:  prem and reg
t = 4.4721, df = 9, p-value = 0.0007749
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 1.180207      Inf
sample estimates:
mean of the differences 
                      2 

Prueba t de Student para grupos independientes

La ecuación para grupos independientes utiliza una estimación ponderada de la varianza que es igual a un promedio ponderado de las varianzas muestrales. Para conocer su valor se utilizan los grados de libertad como peso de ponderación.

\[t = {(\bar{x}_1-\bar{x}_2)-\mu_{x_1-x_2} \over s_{x_1-x_2}}={(\bar{x}_1-\bar{x}_2)-\mu_{x_1-x_2} \over \sqrt{s^2_w({1 \over n_1}+{1 \over n_2})}}\]

Donde \(s_w={gl_1s^2_1+gl_2s^2_2 \over \sqrt{s^2_w({1 \over n_1}+{1 \over n_2})}}=={SC_1+SC_2 \over n_1+n_2-2}\)

Si sustituimos la varianza ponderada en la ecuación de la prueba tenemos:

\[t={(\bar{x}_1-\bar{x}_2)-\mu_{x_1-x_2} \over \sqrt{s^2_w({1 \over n_1}+{1 \over n_2})}}={(\bar{x}_1-\bar{x}_2)-\mu_{x_1-x_2} \over \sqrt{({SC_1+SC_2 \over n_1+n_2-2})({1 \over n_1}+{1 \over n_2})}}\]

Consideremos la ingesta de un medicamento contra el dolor de cabeza, a seis sujetos se les administró el medicamento y a otros seis se les administró un placebo. ¿Existen diferencias en el tiempo de respuesta para ambos grupos?

tx <- c(91, 87, 99, 77, 88, 91)
control <- c(101, 110, 103, 93, 99, 104)
# asumiendo varianzas iguales
t.test(tx, control, alternative = "less", var.equal = TRUE)
    Two Sample t-test

data:  tx and control
t = -3.4456, df = 10, p-value = 0.003136
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -6.082744
sample estimates:
mean of x mean of y 
 88.83333 101.66667 

# diferente varianza para cada grupo
t.test(tx, control, alternative = "less")
    Welch Two Sample t-test

data:  tx and control
t = -3.4456, df = 9.4797, p-value = 0.003391
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -6.044949
sample estimates:
mean of x mean of y 
 88.83333 101.66667