Modelos Estadísticos. Grado Biotecnología
Abstract
En este tema introducimos los procedimientos de inferencia para el estudio y comparación de dos poblaciones.En este tema completamos el estudio inferencial visto en el tema anterior. Más concretamente se muestra el análisis inferencial para la comparación de dos proporciones o dos medias. En la situación de la comparación de dos medias veremos también la influencia que tiene el estudio de las varianzas de ambas poblaciones. No se presentan todas las formulaciones y distribuciones asociadas con estos análisis sino que se presenta directamente la forma de resolverlos. se pueden consultar los desarrollos estadísticos en cualquier libro de estadística básica.
Sean dos poblaciones sobre las que se desea estudiar una misma característica de interés de tipo discreto (1 = éxito; 0 = fracaso), que identificamos por \(X_{P1}\) y \(X_{P2}\) respectivamente. El parámetro de interés en cada población es la proporción de éxito, \(\theta_1\) y \(\theta_2\) respectivamente, pero el interés inferencial principal es la comparación de \(\theta_1\) y \(\theta_2\), es decir, comprobar si la proporción de éxito en la población 1 es comparable con la proporción de éxito en la población 2. Para realizar dicha comparación se utiliza el parámetro que viene dado por la diferencia de proporciones de éxito: \[\theta_1 - \theta_2\]
Si las proporciones son iguales la diferencia debería estar próximo a cero, mientras que si son distintas la diferencia sería estadísticamente diferente a cero.
Sean dos poblaciones normales sobre las que se desea estudiar una misma característica de interés de tipo continuo que identificamos por \(X_{P1}\) y \(X_{P2}\) respectivamente. Cada población viene caracterizada por su media y varianza, es decir, \[X_{P1} \sim N(\mu_1,\sigma^2_1) \text{ ; } X_{P2} \sim N(\mu_2,\sigma^2_2)\] En este caso el proceso inferencial se centras en todos los parámetros, medias y varianzas, pero habitualmente el objetivo inferencial principal se centra en comprobar si las medias de ambas poblaciones pueden considerarse iguales o diferentes. Por tanto, el parámetro de interés es la diferencia de medias poblacionales: \[\mu_1 - \mu_2\] Como ocurre con las proporciones, se considera que las medias son iguales cuando la diferencia de las medias es estadísticamente cero. Sin embargo, para poder realizar dicho estudio es necesario conocer en primer lugar si las varianzas de ambas poblaciones pueden considerarse iguales o distintas. En función del resultado de dicha comparación se deberá utilizar un proceso inferencial diferente para la comparación de medias. Dado que las varianzas siempre son positivas el parámetro de interés para la comparación de varianzas viene dado por su cociente: \[\frac{\sigma^2_1}{\sigma^2_1}\]
Dada una muestra aleatoria en cada una de las poblaciones de interés de tamaños \(n_1\) y \(n_2\), utilizamos los estimadores habituales de la proporción poblacional dados por las proporciones muestrales \(\hat{\theta}_1\) y \(\hat{\theta}_2\). Como ya hemos dicho el parámetro objetivo en esta situación es la diferencia de proporciones poblacionales.
Ejemplo: La angina de pecho es una afección cardíaca en la que el paciente sufre ataque períodicos de dolor. En un estudio para analizar la efectividad de una nueva droga para prevenir dichos ataques se han seleccionado dos grupos de sujetos. Al primero de ellos se les dará la nueva droga mientras que al otro se les dará el tratamiento estándar. Los resultados obtenidos después de un periodo de 28 semanas viene dados en la tabla siguiente:
| Estado / Tratamiento | Droga nueva | Droga antigua |
|---|---|---|
| Sin angina | 44 | 19 |
| Con angina | 116 | 128 |
| Total | 160 | 147 |
Se está interesado en conocer con una confianza del 90% (significación de 0.1) si la porporción de pacientes mejorados con la nueva droga es diferente con respecto a la droga antigua.
library(tidyverse)
# carga de datos
muestra <- c(160,147)
mejoras <- c(44,19)
# Tabla
res <- data.frame(mejoras, muestra)
colnames(res) <- c("mejoras","muestra")
resEl estimador puntual de la diferencia de proporciones poblacionales se consigue partir de los estimadores puntuales de cada una de las proporciones de éxito muestrales.
Para los datos de nuestro ejemplo, si la población 1 identifica a los usjetos que toman la nueva droga y la pobalción 2 a los que toman la droga antigua, tendríamos: \(\widehat{\theta_1 - \theta_2} = \widehat{\theta_1} - \widehat{\theta_2} = \frac{44}{160} - \frac{19}{147} = 0.1457\)
Se observa una diferencia en la mejora de los sujetos del 14.57% de los que toman la droga nueva frente a los que toman la droga estándar.
Para obtener el intervalo de confianza para la diferencia de proporciones utilizamos la función prop.test(). Esta función también nos permite realizar el correspondiente contarte pero por le momento solo pediremos los resultados referidos al intervalo de confianza.
analisis <- prop.test(mejoras,muestra,conf.level = 0.90)
# Intervalo de confianza
analisis$conf.int## [1] 0.0654468 0.2260498
## attr(,"conf.level")
## [1] 0.9
Para los datos de nuestro ejemplo el intervalo de confianza al 90% indica que la diferencia de proporciones de mejora entre los que usan la droga nueva frente a os que usan la droga estándar se sitúa entre el 6.5% y el 22.6%
EL contraste habitual en esta situación viene dado por:
\[\left\{\begin{array}{ll} H_0: & \theta_1 = \theta_2\\ H_a: & \theta_1 \neq \theta_2 \end{array}\right.\] donde estamos interesados en verificar si las proporciones de éxito poblacionales pueden considerarse iguales o distintas.
Para los datos de nuestro ejemplo tenemos:
analisis <- prop.test(mejoras,muestra,conf.level = 0.90)
# Resultados completos
analisis##
## 2-sample test for equality of proportions with continuity
## correction
##
## data: mejoras out of muestra
## X-squared = 9.1046, df = 1, p-value = 0.00255
## alternative hypothesis: two.sided
## 90 percent confidence interval:
## 0.0654468 0.2260498
## sample estimates:
## prop 1 prop 2
## 0.2750000 0.1292517
Dado que el pvalor obtenido (0.00255) es inferior al nivel de siginificación prefijado (0.1) hay eviedencias estadísticas para rechazar la hipótesis nula, es decir, hay evidendaicas para concluir que las proporciones de mejora con mabsa drogas son distintas. Además el intervalo de confianza ya nos indicaba qye dicha mejoría era a favor de la droga nueva con los valores obtenidos en el aprtado anterior
Podríamos plantearnos contrastes unilaterales pero siempre antes de ver los resultados muestrales. Si estamos tratando de probar un nuevo tratamiento lo más lógico hubiera sido plantear el contraste: \[\left\{\begin{array}{ll} H_0: & \theta_1 = \theta_2\\ H_a: & \theta_1 > \theta_2 \end{array}\right.\]
En nuestro ejemplo:
analisis <- prop.test(mejoras,muestra,alternative = "greater", conf.level = 0.90)
# Resultados completos
analisis##
## 2-sample test for equality of proportions with continuity
## correction
##
## data: mejoras out of muestra
## X-squared = 9.1046, df = 1, p-value = 0.001275
## alternative hypothesis: greater
## 90 percent confidence interval:
## 0.08174166 1.00000000
## sample estimates:
## prop 1 prop 2
## 0.2750000 0.1292517
La conclusión es que rechazamos que las proporciones de mejora sean iguales frente a que la proporción de de mejora en la población 1 sea mayor al de la población 2.
Los problemas de inferencia asociados con la comparación de dos medias poblacionales para variables Normales presentan diferentes situaciones:
A continuación se detalla como realizar el análisis de cada uno de ellos, pero antes de pasar con ellos debemos estudiar el problema de como comparar las variabilidades en dos poblaciones independientes. Presentamos en primer lugar los diferentes ejemplos de trabajo.
Ejemplo 1. Para realizar un estudio de la concentración de una hormona en una solución vamos a utilizar dos métodos. Disponemos de 10 dosis preparadas en el laboratorio y medimos la concentración de cada una con los dos métodos. Se obtienen los siguientes resultados:
| Dosis | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|
| Método A | 10.7 | 11.2 | 15.3 | 14.9 | 13.9 | 15 | 15.6 | 15.7 | 14.3 | 10.8 |
| Método B | 11.1 | 11.4 | 15 | 15.1 | 14.3 | 15.4 | 15.4 | 16 | 14.3 | 11.2 |
Se desea realizar el estudio inferencial con una confianza del 95%
Ejemplo 2. Una compañía contrata 10 tubos con filamentos del tipo A y 12 tubos con filamentos del tipo B. Las duraciones medias observadas se muestran en la siguiente tabla:
| Tipo/Duración | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| A | 1614 | 1094 | 1293 | 1643 | 1466 | 1270 | 1340 | 1380 | 1081 | 1497 | ||
| B | 1383 | 1138 | 920 | 1143 | 1017 | 961 | 1627 | 821 | 1711 | 865 | 1662 | 1698 |
Se desea realizar el estudio inferencial con una confianza del 90%
Ejemplo 3. En una unidad del sueño se está probando con un nuevo somnífero. Para comprobar su eficacia se toman 10 individuos al azar. Un día no se les suministra el somnífero y se les anota el número de horas de sueño, al día siguiente se les suministra y se vuelve a comprobar las horas de sueño. Los resultados entes y después del tratamiento han sido los siguientes:
| Instante/Sujeto | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|
| Antes | 7.3 | 8.2 | 6.3 | 5.2 | 6.9 | 5.8 | 5.3 | 7.1 | 6.9 | 8.1 |
| Después | 8.2 | 7.9 | 6.4 | 5.1 | 7.1 | 6.3 | 5.9 | 8.2 | 7.1 | 7.7 |
Se desea realizar el estudio inferencial con una confianza del 90%
Supongamos que tenemos dos poblaciones Normales y que deseamos comprobar si la variabilidad en ambas poblaciones pueden considerarse estadísticamente iguales o distintas. Como ya vimos en la introducción este problema se reduce a la comparación de ambas varianzas a través del cociente de ambas. Para resolver este problema utilizamos la función var.test(). El contraste utilizado es:
\[\left\{\begin{array}{ll} H_0: & \frac{\sigma^2_1}{\sigma^2_2} = 1\\ H_a: & \frac{\sigma^2_1}{\sigma^2_2} \neq 1 \end{array}\right.\]
Para los datos del ejemplo 1
# Cargamos los datos
MetodoA <- c(10.7, 11.2, 15.3, 14.9, 13.9, 15, 15.6, 15.7, 14.3, 10.8)
MetodoB <- c(11.1, 11.4, 15, 15.1, 14.3, 15.4, 15.4, 16, 14.3, 11.2)
var.test(MetodoA, MetodoB, conf.level = 0.95)##
## F test to compare two variances
##
## data: MetodoA and MetodoB
## F = 1.1229, num df = 9, denom df = 9, p-value = 0.8657
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2789187 4.5208902
## sample estimates:
## ratio of variances
## 1.122925
Dado que el pvalor resultante es superior a la significatividad prefijada, tenemos evidencias estadísticas para no rechazar la hipótesis nula, y por tanto concluir que ambas varianzas no pueden considerarse distintas.
Para los datos del ejemplo 2
# Cargamos los datos
TipoA <- c(1614,1094,1293,1643,1466,1270,1340,1380,1081,1497)
TipoB <- c(1383,1138,920,1143,1017,961,1627,821,1711,865,1662,1698)
var.test(TipoA, TipoB, conf.level = 0.9)##
## F test to compare two variances
##
## data: TipoA and TipoB
## F = 0.3052, num df = 9, denom df = 11, p-value = 0.08543
## alternative hypothesis: true ratio of variances is not equal to 1
## 90 percent confidence interval:
## 0.1053789 0.9468807
## sample estimates:
## ratio of variances
## 0.3052007
Puesto que el pvalor es inferior a la significatividad prefijada podemos concluir que hya evidencias estad´sitivas apra concluir que las varaibilidades en ambas poblaciones pueden considerarse distintas.
En todos los análisis inferenciales asociados con la comparación de dos medias utilizamos la función t.test(), aunque con difrentes opciones en función de que las varianzas sean iguales o no, o de que las muestras sean independientes o no.*
El contraste de hipótesis para esta situación viene dado por:
\[\left\{\begin{array}{ll} H_0: & \mu_1 = \mu_2\\ H_a: & \mu_1 \neq \mu_2 \end{array}\right.\]
Utilizamos los datos del ejemplo 1, ya que como hemos visto anteriormente las varianzas de ambas pobalciones puden considerarse iguales
# Cargamos los datos
MetodoA <- c(10.7, 11.2, 15.3, 14.9, 13.9, 15, 15.6, 15.7, 14.3, 10.8)
MetodoB <- c(11.1, 11.4, 15, 15.1, 14.3, 15.4, 15.4, 16, 14.3, 11.2)
t.test(MetodoA, MetodoB, alternative = "two.sided", var.equal = TRUE, conf.level = 0.95)##
## Two Sample t-test
##
## data: MetodoA and MetodoB
## t = -0.20323, df = 18, p-value = 0.8412
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.040763 1.680763
## sample estimates:
## mean of x mean of y
## 13.74 13.92
Dado que el pavalor es superior a la significatividad prefijada, hay evidencias estadísticas para concluir que las medias de concentración con ambos métodos pueden considerarse iguales
El constaste de hipótesis en esta situación es el mismo que en el punto anterior.
Utilizamos los datos del ejemplo 2, ya que como hemos visto anteriormente las varianzas de ambas pobalciones puden considerarse distintas
# Cargamos los datos
TipoA <- c(1614,1094,1293,1643,1466,1270,1340,1380,1081,1497)
TipoB <- c(1383,1138,920,1143,1017,961,1627,821,1711,865,1662,1698)
t.test(TipoA, TipoB, alternative = "two.sided", var.equal = TRUE, conf.level = 0.9)##
## Two Sample t-test
##
## data: TipoA and TipoB
## t = 0.98508, df = 20, p-value = 0.3364
## alternative hypothesis: true difference in means is not equal to 0
## 90 percent confidence interval:
## -91.82747 336.42747
## sample estimates:
## mean of x mean of y
## 1367.8 1245.5
Dado que el pvalor es superior a la significatividad prefijada, hay evidencias estadísticas para concluir que las medias de duración de los filamentos en ambos tipos pueden considerarse iguales
Es muy habitual que en ciertas situaciones experimentales nos encontramos que queremos estudiar la evolución (medidas antes -después) de un grupo de sujetos después de ser sometidos a cierta prueba experimental. En esta caso no tenemos dos poblaciones independientes sino sólo una que medimos en dos ocasiones. Por tanto, los procedimientos anteriores tienen que ser modificados para tener en cuenta esta situación. El constaste de hipótesis para esta situación viene dado por:
\[\left\{\begin{array}{ll} H_0: & \mu_{antes} = \mu_{despues}\\ H_a: & \mu_{antes} \neq \mu_{despues} \end{array}\right.\]
De nuevo podemos utilizar la función t.test() con el parámetro paired.
Utilizamos los datos del ejemplo 3, donde tenemos una única muestra se sujetos
# Cargamos los datos
antes <- c(7.3,8.2,6.3,5.2,6.9,5.8,5.3,7.1,6.9,8.1)
despues <- c(8.2,7.9,6.4,5.1,7.1,6.3,5.9,8.2,7.1,7.7)
t.test(antes, despues, alternative = "two.sided", paired = TRUE, var.equal = TRUE, conf.level = 0.9)##
## Paired t-test
##
## data: antes and despues
## t = -1.7925, df = 9, p-value = 0.1066
## alternative hypothesis: true difference in means is not equal to 0
## 90 percent confidence interval:
## -0.566341394 0.006341394
## sample estimates:
## mean of the differences
## -0.28
Dado que el pvalor es superior a la significatividad prefijada, hay evidencias estadísticas para concluir que las horas medias de sueño antes y después de tomar el somnifero no pueden considerarse estadísticamente distintas
Todos los procedimientos de inferencia sobre dos medias se basan en la suposición de que las variables sobre las que estamos trabajando se puede considerar que se distribuyen normalmente. Sin embargo, cuando tenemos tamaños muestrales pequeños o simplemente por el tipo de variable que estamos midiendo, dicha suposición no resulta creible y es necesario comporbarla antes de poder aplicar estos procedimientos. SI la distribución no resulta Normal podemos utilizar los procedimientos denominados no parámetricos para la comparación de dos medias. A continuación presentamso el test de normalidad y los contrastes no paramétricos.
Este requisito implica que la variable objetivo tiene que distribuirse según una normal para cualquiera de las pobalciones donde se pueda medir. El test utilizado para resolver este problema es el de Shapiro-Wilks. En R utilizamos la función shapiro.test() para concluir estadísticamente sobre este contraste. Siempre utilizamos significatividad de 0.05 en estas situaciones.
Para los datos del ejemplo 1 comprobamos si los datos muestrales en cada población pueden considerarse que se distribuyen según una normal.
# Cargamos los datos
MetodoA <- c(10.7, 11.2, 15.3, 14.9, 13.9, 15, 15.6, 15.7, 14.3, 10.8)
MetodoB <- c(11.1, 11.4, 15, 15.1, 14.3, 15.4, 15.4, 16, 14.3, 11.2)
shapiro.test(MetodoA)##
## Shapiro-Wilk normality test
##
## data: MetodoA
## W = 0.8058, p-value = 0.01705
shapiro.test(MetodoB)##
## Shapiro-Wilk normality test
##
## data: MetodoB
## W = 0.80577, p-value = 0.01704
En ambos casos las conclusión es que rechazamos que los datos se distribuyan según una normal, ya que el pvalor es inferior a la significatividad prefijada
Para los datos del ejemplo 2:
# Cargamos los datos
TipoA <- c(1614,1094,1293,1643,1466,1270,1340,1380,1081,1497)
TipoB <- c(1383,1138,920,1143,1017,961,1627,821,1711,865,1662,1698)
shapiro.test(TipoA)##
## Shapiro-Wilk normality test
##
## data: TipoA
## W = 0.95009, p-value = 0.6696
shapiro.test(TipoB)##
## Shapiro-Wilk normality test
##
## data: TipoB
## W = 0.86377, p-value = 0.05451
En ambos casos no podemos rechzar que los datos sean normales, ya que el pvalor es superior a la significatividad.
El test no paramétrico no se centra en la comparación de medias sino en la comparación de las medianas. Esto es así porque uno de los incumplimientos más habituales de la normalidad es porque los datos no son simétricos, es decir, la media coincide con la mediana. Para resolver este contraste utilizamos el test de Wilcoxon y su función en R wilcox.test().
Dado que los datos del ejmplo 1 no pueden considerarse normales, utilizamos el test no paramétrico apra concluir si las medianas de ambas poblaciones pueden considerarse iguales o distintas. Fijamos la significatividad en 0.05.
# Cargamos los datos
MetodoA <- c(10.7, 11.2, 15.3, 14.9, 13.9, 15, 15.6, 15.7, 14.3, 10.8)
MetodoB <- c(11.1, 11.4, 15, 15.1, 14.3, 15.4, 15.4, 16, 14.3, 11.2)
wilcox.test(MetodoA,MetodoB)##
## Wilcoxon rank sum test with continuity correction
##
## data: MetodoA and MetodoB
## W = 44, p-value = 0.6768
## alternative hypothesis: true location shift is not equal to 0
Dado que el pvalor es superior a la significatividad, tenemos evidencias para concluir que no podemos considerar que las medianas de ambas poblaciones sean distintas.
También existe una versión del test de wilcoxon para la comparación en poblaciones dependientes. Este es muy habitual ya que en este tipo de situaciones lo nomral es tener pocos sujetos, y por tanto la hipótesis de normalidad es muy difícil de verificar.
Para los datos del ejmplo 3 tenemos:
# Cargamos los datos
antes <- c(7.3,8.2,6.3,5.2,6.9,5.8,5.3,7.1,6.9,8.1)
despues <- c(8.2,7.9,6.4,5.1,7.1,6.3,5.9,8.2,7.1,7.7)
wilcox.test(antes, despues,paired = TRUE)##
## Wilcoxon signed rank test with continuity correction
##
## data: antes and despues
## V = 12.5, p-value = 0.1389
## alternative hypothesis: true location shift is not equal to 0
Dado que el pvalor es superior a la significatividad, podemos conluir que la mediana antes y después no pueden considerarse distintas.
Para completar los materiales aquí presentados se puede consultar Ugarte et al. (2008)
Ugarte, MD., Militino, AF., Arnholt, A. (2008). Probability and Statistics with R. CRC. Press
Copyright © 2018 Javier Morales. Universidad Miguel Hernández de Elche.