Prueba de hipotesis para el promedio
Leonardo Enciso - Bioestadística PUJ
Conceptos generales
- Objetivo de la estadística: hacer inferencia sobre el parámetro poblacional
- A partir de información muestral estimar el parámetro poblacional
- Métodos
- Estimación de parámetros: puntual y por intervalos
- Pruebas de hipótesis
- Tomar una decisión cuando se compara la muestra observada con la teoría
- ¿Cuando debe rechazarse o no rechazarse la hipótesis?
- ¿Cómo se plantea la prueba de hipótesis?
Elementos de una prueba estadística
- Hipótesis nula
- Hipótesis alternativa
- Estadístico de prueba
- Región de rechazo
- Nivel de significancia
Elementos de una prueba estadística
- Hipótesis nula: siempre se plantea en relación o poblaciones o modelos y no un desenlace particular. Se plantea en términos de los parámetros poblaciones (\(\mu, \sigma\))
- Prueba estadística: procedimiento formal para evaluar la fuerza de la evidencia en contra de una afirmación respecto al parámetro poblacional
Hipótesis nula e hipótesis alternativa
- Hipótesis nula: es una afirmación respecto al parámetro poblacional que en general establece que “no hay efecto” o "no hay diferencia!
- \(H_o\)
- \(H_o = \mu = \mu_o\)
- \(\mu_o\) es el valor que se considera de no efecto o no diferencia
- Hipótesis alternativa; es la afirmación de lo que se sospecha o espera que sea verdadero respecto al parámetro en lugar de lo que afirma la hipótesis nula
- \(H_a\)
- Puede tener varias direcciones: mayor, menor o diferente
Ejemplo 1: Planteamiento de hipótesis
- La densitometría ósea se utiliza para valorar la densidad mineral ósea y establecer el riesgo de osteoporósis.
- Para garantizar la precisión, el equipo incluye un “fantasma” que tiene una densidad conocida con \(\mu = 1.4gr/cm^2\)
- El equipo es instalado en su centro y se realizan 10 pruebas de escaneo del fantasma luego de haber realizado la configuración y se calcula el promedio de las observaciones
- Se desea realizar una prueba de hipótesis para evaluar si la configuración es correcta
Ejemplo 1: Planteamiento de hipótesis
- Hipótesis nula: como se plantea en relación al parámetro poblacional, sería
- \(H_o: \mu = 1.4\)
- \(H_a: \mu \neq 1.4\)
Estadístico de prueba
- Una vez planteada la hipótesis nula y la hipotésis alternativa se debe seleccionar un estadístico de prueba
- De forma simple: se realiza la comparación entre los datos muestrales con los valores de una distribución conocida
- Se define un región de rechazo. Si el valor del estadístico de prueba está ubicado en este región, se considera que hay evidencia suficiente para rechazar la hipótesis nula
- P – Valor: es la probabilidad, asumiendo que la hipótesis nula es verdadera, de que el estadístico de prueba tome un valor tan extremo o más extremo del que se está observando
- La clave para calcular el valor P es la distribución muestral del estadístico de prueba
- La significancia estadística puede entenderse como que tanta evidencia se requiere contra la hipótesis nula para rechazarla
Significancia estadística
- Valor \(\alpha\)
- \(\alpha= (0.01 -0.05)\)
- Es definido por la persona que está planteando la prueba de hipótesis y esta decisión esta basada en que tanto error esta dispuesto a aceptar
- Error tipo I: se comete un error tipo I si la hipotésis nula es rechazada cuando es verdadera
- Si se escoge un valor \(\alpha=0.05\) estamos requiriendo que los datos den evidencia fuerte en contra la \(H_o\), de forma que está pueda suceder no mas de 5% de las veces (1/20) cuando la \(H_o\) es verdadera.
Selección del estadístico de prueba
| \(X\sim N(\mu, \sigma), \sigma^*\) conocido |
\(Z = \frac{\bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\) |
\(Z^*<Z_\alpha\) |
| \(X\sim N(\mu, \sigma), \sigma^*\) desconocido |
\(T = \frac{\bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\) |
\(T\leq t_{\alpha,n-1}\) |
Caso 1: Varianza conocida
Ejemplo 1: Niveles de colesterol
- Se estudio a toda la población de mujeres universitarias del pais de las maravillas
- El promedio del colesterol en las estudiantes mujeres era de 168 mg/dl con una desviación estándar de 27
- En su universdad estudio 71 estudiantes y el nivel de colesterol fue de 173.7 mg/dl
- ¿Es esto evidencia de que el promedio de los niveles de colesterol en las estudiantes de su universidad es diferente de lo reportado previamente, con un nivel de significancia del 5%?
Ejemplo 1: Niveles de colesterol
- Planteamiento de las hipótesis
- \(H_o: \mu = 168\)
- \(H_a: \mu \neq 168\)
- Estadístico de prueba
- \(Z = \frac{173.7-168}{\frac{27}{\sqrt{71}}}\)
- \(Z = 1.78\)
- Significancia
- P-Valor
- \(p=2p(Z\geq |z|) = 2p(Z\geq 1.78) = 2(1-0.9625)=0.075\)
#Conclusión - No hay evidencia suficiente para rechazar la hipótesis nula - No hay evidencia que el valor promedio de colesterol de la población femenina de la universidad difiere de la población femenina universitaria general
Ejemplo 2: Radioactividad ósea
- Un grupo de investigadores encontró evidencia de que una población nativa de Australia se encontraba cercana a una fuente de radiación ionizante. Los resultados del análisis de los restos óseos de toda la tribu ha demostrado que la radiación promedio emitida sigue una distribución normal con \(\mu=0\) y \(\sigma=1\)
- Una nueva excavación encontró los restos de siete individuos encontrando que la radiación emitida es de
- ¿ Hay evidencia de que la radiación emitida por los huesos de estos nativos es inferior al promedio de la población?
Ejemplo 2: Radioactividad ósea
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.20135 -0.22560 0.10811 0.09042 0.51602 1.14530
- Información del problema
- \(\mu=0\)
- \(\sigma=1\)
- \(H_o: \mu=0\)
- \(H_a: \mu<0\)
- Estadístico de prueba: estadístico Z
- Nivel de significancia: \(\alpha=0.05\)
Ejemplo 2: Radioactividad ósea
## Loading required package: lattice
##
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
##
## Orange
##
## One-sample z-Test
##
## data: radiacion
## z = 0.23922, p-value = 0.5945
## alternative hypothesis: true mean is less than 0
## 95 percent confidence interval:
## NA 0.7121115
## sample estimates:
## mean of x
## 0.09041525
- No se puede rechazar la hipótesis nula de que \(\mu=0\)
Caso 2: Varianza desconocida
- En la gran mayoría de los casos la varianza poblacional es desconocida
- Si se tiene una muestra aleatoria simple de tamaño \(n\), de una población normalmente distribuida con media \(\mu\) y desviación \(\sigma\), la media muestral \(\bar{x}\) se encuentra normalmente distribuida con media \(\mu\) y desviación \(\frac{\sigma}{\sqrt{n}}\)
- Si \(\sigma\) es desconocido, lo estimamos a partir de la desviación estándar muestral \(s\)
- En este caso, la media muestral es \(\bar{x}\) y su desviación es \(\frac{s}{\sqrt{n}}\)
- El estadístico \(\frac{s}{\sqrt{n}}\) es el error estándar de la media
- Cuando se utiliza un estadístico de prueba que toma como denominador el error estándar de la media, el estadístico ya no tiene distribución normal y su distribución es una distribución \(t\) con \(n-1\) grados de libertad
Distribución T
- Estadístico de prueba para n-1 grados de libertad
- \(T = \frac{\bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\)

Posible casos
- Una sola muestra
- Muestras emparejadas
- Muestras independientes
Primer caso: Una sola muestra
- Experimentos previos han establecido que el cambio semanal en el PIB de todos los paises del mundo tiene media \(\mu=0.95\) puntos
- Se realizó la medicion semanal del PIB de su pais con los datos que se presentan en la tabla
- ¿Existencia evidencia de que el promedio de cambio semanal del PIB en su pais es diferente a la media mundial?
Primer caso: Una sola muestra
## Loading required package: MASS
## Loading required package: survival
## Loading required package: npsurv
## Loading required package: lsei

## summary statistics
## ------
## min: -15.25 max: 12.22
## median: -1.41
## mean: -1.099744
## estimated sd: 5.990888
## estimated skewness: 0.1589711
## estimated kurtosis: 3.226609
Primer caso: Una sola muestra
##
## One Sample t-test
##
## data: pib
## t = -2.1367, df = 38, p-value = 0.03912
## alternative hypothesis: true mean is not equal to 0.95
## 95 percent confidence interval:
## -3.0417650 0.8422778
## sample estimates:
## mean of x
## -1.099744
Segundo caso: Muestras emparejadas
- La mayoría de los estudios no tienen una sola muestra
- Una situación frecuente es registrar observaciones del mismo sujeto en diferentes condiciones
- Otra situación posible es realizar un emparejamiento de los sujetos uno a uno
- En estos casos la prueba de hipótesis sobre la media se realiza sobre la diferencia entre los sujetos en diferentes condiciones o entre la diferencia entre los sujetos emparejados
Ejemplo: Dieta de la naranja
- Una nutricionista diseño una nueva dieta basada en el consumo de jugo de naranja.
- Un grupo de personas seleccionado de forma aleatoria fue incluido en el estudio y se registró su peso antes de iniciar la dieta y luego de tres meses de la intervención.
- Los datos se presentan en la tabla
- ¿Es diferente el promedio del peso de los pacientes antes y despúes de la realización de la dieta?
Ejemplo: Dieta de la naranja
- Se calcula la diferencia entre los valores del peso antes y después de la intervención
- Se plantea la hipótesis nula. En este caso, la hipótesis es que la diferencia entre los promedios es igual a 0
- \(H_o: \mu=0\)
- \(H_a: \mu \neq 0\)
- Se calcula la diferencia entre el peso antes y despues y su promedio
- Se aplica el estadístico de prueba T
- \(T=\frac{\bar{x}-0}{\frac{s}{\sqrt{n}}}\)
Ejemplo: Dieta de la naranja
pesoantes<-c(65 ,58, 51, 51, 73, 75, 57, 56, 73, 80, 74, 77, 62, 51, 76, 54, 80, 46, 63, 50)
pesodepues<-c(58 ,69 ,75, 77, 78, 68, 53, 53, 76, 70, 76, 61, 51, 57, 45, 67, 61, 55, 46, 72)
difpeso<-pesodepues-pesoantes
mean(difpeso)
## [1] -0.2
## [1] 15.20249
Ejemplo: Dieta de la naranja
##
## One Sample t-test
##
## data: difpeso
## t = -0.058834, df = 19, p-value = 0.9537
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -7.314986 6.914986
## sample estimates:
## mean of x
## -0.2
Tercer caso: Comparación del promedio de dos muestras
- Existen muchas situaciones en las que se desea comparar dos grupos
- Cada grupo es considerado una muestra de una población distinta
- Las respuesta o valores de un grupo, son independientes de los valores del otro grupo
- Algunos ejemplos
- Ensayos aleatorizados: un grupo a tratamiento A y otro a tratamiento B
- Hombres y mujeres
- A diferencia de los experimentos emparejados, no hay emparejamiento de las unidades en las dos muestras y pueden ser de tamaños diferentes
Tercer caso: Comparación del promedio de dos muestras
- Si tenemos dos muestras aleatorias simples, cada una procedente de una población y sus distribuciones son simétricas y aproximadamente normales, una comparación de la media en las dos poblaciones es un objetivo válido de inferencia
- Una forma de iniciar el análisis es evaluar las distribuciones gráficamente para definir la existencia de valores atípicos o asimetría
- Como la mayoría de los casos el valor verdadero de las varianzas poblaciones es desconocido no es posible utilizar una prueba Z y se utiliza un estadístico T
- Existen dos casos posibles: las varianzas muestrales son diferentes o son iguales
Caso 3.1 Comparación cuando las varianzas muestrales son diferentes
- Al reemplazar las dos varianzas poblacionales por las dos varianzas muestrales, este estadístico no tiene una distribución T
- Se puede aproximar utilizando una distribución t(k) con aproximación para los grados de libertad k
- El valor K puede calcularse de dos formas
- Utilizando un valor calculado de los datos que no es en general un número entero
- Utilizando el valor menor entre (n1-2)(n2-1)
- Este estadístico aplica a los casos en que las varianzasde las dos poblaciones son diferentes
Estadístico de prueba para dos muestras con varianzas diferentes
\(T= \frac{(\bar{x_1}-\bar{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n1}+\frac{s_2^2}{n_2}}}\)
Ejemplo: Peso marsupiales
- Para un crecimiento y ganancia de peso exitosas, las ratas canguro requieren del consumo de una variedad de grano de café que crece solamente en la región geográfica de donde son originarias.
- Un investigador quiere probar que la administración de una variante de café diferente (café colombiano) genera una mayor ganancia de peso en las ratas al ser originado en un suelo con mejores nutrientes
- Para tal fín diseña un experimento en el cual un grupo de ratas canguro recibe alimentación con el café estándar y el otro con café colombiano de tipo exportación
- Los datos de los pesos registrados en el grupo de intervención y el grupo control se presentan en la tabla a continuación
- ¿El aumento de peso promedio observado en el grupo de tratamiento es mayor que el observado en el grupo control?
Ejemplo: Peso marsupiales
rata_cafe<-c(24 ,43 ,58, 71, 43, 49, 61, 44, 67, 49, 53, 56, 59, 52, 62, 54, 57, 33, 46, 43, 57)
rata_control<-c(42 ,43 ,55 ,26 ,62 ,37 ,33 ,41 ,19 ,54 ,20, 85, 46, 10, 17, 60, 53, 42, 37, 42, 55, 28, 48)
summary(rata_cafe)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 24.00 44.00 53.00 51.48 58.00 71.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.00 30.50 42.00 41.52 53.50 85.00
## [1] 11.00736
## [1] 17.14873
Ejemplo: Peso marsupiales

Ejemplo: Peso marsupiales
- \(H_o: \mu_1-\mu_2 = 0\) [la diferencia de u1 - u2 = 0 ]
- \(H_a: \mu_1 > \mu_2\)
- Estadistico de prueba: Prueba T para dos muestras con varianzas diferentes
- ¿Son diferentes las varianzas ?
##
## F test to compare two variances
##
## data: rata_cafe and rata_control
## F = 0.412, num df = 20, denom df = 22, p-value = 0.05067
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.1724602 1.0026844
## sample estimates:
## ratio of variances
## 0.4120045
Ejemplo: Peso marsupial
##
## Welch Two Sample t-test
##
## data: rata_cafe and rata_control
## t = 2.3109, df = 37.855, p-value = 0.01319
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 2.691293 Inf
## sample estimates:
## mean of x mean of y
## 51.47619 41.52174
Ejemplo: Calcio e hipertensión arterial
- El calcio se ha descrito como un tratamiento que reduce la presión arterial
- Se realizó un estudio aleatorizado donde los pacientes recibieron calcio o placebo
- Se midieron los valores de presión arterial al inicio y al final del tratamiento y se calculó la diferencia - Se quiere evaluar si el promedio de cambio de la presión arterial es diferente entre los grupos
Ejemplo: calcio e hipertension arterial
- \(H_o: \mu_1 = \mu_2\)
- \(H_a: \mu_1 \neq \mu_2\)
- Estadístico T para muestras independientes
- Verificar si las varianzas son o no son iguales
Ejemplo: calcio e hipertensión arterial
calcio<-c(7, -4, 18, 17, -3, -5, 1, 10, 11, -2. -3)
control<-c(-1, 12, -1, -3, 3, -5, 5, 2, -11, -1)
mean(calcio)
## [1] 4.7
## [1] 9.055999
## [1] 0
## [1] 6.146363
Ejemplo; calcio e hipertension arterial
##
## F test to compare two variances
##
## data: calcio and control
## F = 2.1709, num df = 9, denom df = 9, p-value = 0.2637
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.5392165 8.7399597
## sample estimates:
## ratio of variances
## 2.170882
Ejemplo: calcio e hipertension arterial
##
## Two Sample t-test
##
## data: calcio and control
## t = 1.358, df = 18, p-value = 0.1913
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.571403 11.971403
## sample estimates:
## mean of x mean of y
## 4.7 0.0