Conceptos generales

Objetivo de la estadística: hacer inferencia sobre el parámetro poblacional
A partir de información muestral estimar el parámetro poblacional
Métodos

Estimación de parámetros: puntual y por intervalos
Pruebas de hipótesis

Tomar una decisión cuando se compara la muestra observada con la teoría
¿Cuando debe rechazarse o no rechazarse la hipótesis?
¿Cómo se plantea la prueba de hipótesis?

Elementos de una prueba estadística

Hipótesis nula
Hipótesis alternativa
Estadístico de prueba
Región de rechazo

Nivel de significancia

Elementos de una prueba estadística

Hipótesis nula: siempre se plantea en relación o poblaciones o modelos y no un desenlace particular. Se plantea en términos de los parámetros poblaciones (\(\mu, \sigma\))
Prueba estadística: procedimiento formal para evaluar la fuerza de la evidencia en contra de una afirmación respecto al parámetro poblacional

Hipótesis nula e hipótesis alternativa

Hipótesis nula: es una afirmación respecto al parámetro poblacional que en general establece que “no hay efecto” o "no hay diferencia!
\(H_o\)
\(H_o = \mu = \mu_o\)
\(\mu_o\) es el valor que se considera de no efecto o no diferencia
Hipótesis alternativa; es la afirmación de lo que se sospecha o espera que sea verdadero respecto al parámetro en lugar de lo que afirma la hipótesis nula
\(H_a\)
Puede tener varias direcciones: mayor, menor o diferente

Ejemplo 1: Planteamiento de hipótesis

La densitometría ósea se utiliza para valorar la densidad mineral ósea y establecer el riesgo de osteoporósis.
Para garantizar la precisión, el equipo incluye un “fantasma” que tiene una densidad conocida con \(\mu = 1.4gr/cm^2\)
El equipo es instalado en su centro y se realizan 10 pruebas de escaneo del fantasma luego de haber realizado la configuración y se calcula el promedio de las observaciones
Se desea realizar una prueba de hipótesis para evaluar si la configuración es correcta

Ejemplo 1: Planteamiento de hipótesis

Hipótesis nula: como se plantea en relación al parámetro poblacional, sería

\(H_o: \mu = 1.4\)
\(H_a: \mu \neq 1.4\)

Estadístico de prueba

Una vez planteada la hipótesis nula y la hipotésis alternativa se debe seleccionar un estadístico de prueba
De forma simple: se realiza la comparación entre los datos muestrales con los valores de una distribución conocida
Se define un región de rechazo. Si el valor del estadístico de prueba está ubicado en este región, se considera que hay evidencia suficiente para rechazar la hipótesis nula
P – Valor: es la probabilidad, asumiendo que la hipótesis nula es verdadera, de que el estadístico de prueba tome un valor tan extremo o más extremo del que se está observando
La clave para calcular el valor P es la distribución muestral del estadístico de prueba
La significancia estadística puede entenderse como que tanta evidencia se requiere contra la hipótesis nula para rechazarla

Significancia estadística

Valor \(\alpha\)
\(\alpha= (0.01 -0.05)\)
Es definido por la persona que está planteando la prueba de hipótesis y esta decisión esta basada en que tanto error esta dispuesto a aceptar
Error tipo I: se comete un error tipo I si la hipotésis nula es rechazada cuando es verdadera
Si se escoge un valor \(\alpha=0.05\) estamos requiriendo que los datos den evidencia fuerte en contra la \(H_o\), de forma que está pueda suceder no mas de 5% de las veces (1/20) cuando la \(H_o\) es verdadera.

Selección del estadístico de prueba

Caso	Estadístico	Región de aceptación
\(X\sim N(\mu, \sigma), \sigma^*\) conocido	\(Z = \frac{\bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\)	\(Z^*<Z_\alpha\)
\(X\sim N(\mu, \sigma), \sigma^*\) desconocido	\(T = \frac{\bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\)	\(T\leq t_{\alpha,n-1}\)

Caso 1: Varianza conocida

distribucionz

Ejemplo 1: Niveles de colesterol

Se estudio a toda la población de mujeres universitarias del pais de las maravillas
El promedio del colesterol en las estudiantes mujeres era de 168 mg/dl con una desviación estándar de 27
En su universdad estudio 71 estudiantes y el nivel de colesterol fue de 173.7 mg/dl
¿Es esto evidencia de que el promedio de los niveles de colesterol en las estudiantes de su universidad es diferente de lo reportado previamente, con un nivel de significancia del 5%?

Ejemplo 1: Niveles de colesterol

Planteamiento de las hipótesis

\(H_o: \mu = 168\)
\(H_a: \mu \neq 168\)

Estadístico de prueba

\(Z = \frac{173.7-168}{\frac{27}{\sqrt{71}}}\)
\(Z = 1.78\)

Significancia

\(\alpha=0.05\)

P-Valor

\(p=2p(Z\geq |z|) = 2p(Z\geq 1.78) = 2(1-0.9625)=0.075\)

#Conclusión - No hay evidencia suficiente para rechazar la hipótesis nula - No hay evidencia que el valor promedio de colesterol de la población femenina de la universidad difiere de la población femenina universitaria general

Ejemplo 2: Radioactividad ósea

Un grupo de investigadores encontró evidencia de que una población nativa de Australia se encontraba cercana a una fuente de radiación ionizante. Los resultados del análisis de los restos óseos de toda la tribu ha demostrado que la radiación promedio emitida sigue una distribución normal con \(\mu=0\) y \(\sigma=1\)
Una nueva excavación encontró los restos de siete individuos encontrando que la radiación emitida es de
¿ Hay evidencia de que la radiación emitida por los huesos de estos nativos es inferior al promedio de la población?

Ejemplo 2: Radioactividad ósea

radiacion<-rnorm(7) ## Datos simulados con distribucion normal 
summary(radiacion)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -1.20135 -0.22560  0.10811  0.09042  0.51602  1.14530

Información del problema

\(\mu=0\)
\(\sigma=1\)
\(H_o: \mu=0\)
\(H_a: \mu<0\)
Estadístico de prueba: estadístico Z
Nivel de significancia: \(\alpha=0.05\)

Ejemplo 2: Radioactividad ósea

library(BSDA)

## Loading required package: lattice

## 
## Attaching package: 'BSDA'

## The following object is masked from 'package:datasets':
## 
##     Orange

z.test(radiacion, alternative = "less", mu = 0, sigma.x = 1)

## 
##  One-sample z-Test
## 
## data:  radiacion
## z = 0.23922, p-value = 0.5945
## alternative hypothesis: true mean is less than 0
## 95 percent confidence interval:
##         NA 0.7121115
## sample estimates:
##  mean of x 
## 0.09041525

No se puede rechazar la hipótesis nula de que \(\mu=0\)

Caso 2: Varianza desconocida

En la gran mayoría de los casos la varianza poblacional es desconocida
Si se tiene una muestra aleatoria simple de tamaño \(n\), de una población normalmente distribuida con media \(\mu\) y desviación \(\sigma\), la media muestral \(\bar{x}\) se encuentra normalmente distribuida con media \(\mu\) y desviación \(\frac{\sigma}{\sqrt{n}}\)
Si \(\sigma\) es desconocido, lo estimamos a partir de la desviación estándar muestral \(s\)
En este caso, la media muestral es \(\bar{x}\) y su desviación es \(\frac{s}{\sqrt{n}}\)
El estadístico \(\frac{s}{\sqrt{n}}\) es el error estándar de la media
Cuando se utiliza un estadístico de prueba que toma como denominador el error estándar de la media, el estadístico ya no tiene distribución normal y su distribución es una distribución \(t\) con \(n-1\) grados de libertad

Distribución T

Estadístico de prueba para n-1 grados de libertad
\(T = \frac{\bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\)

Posible casos

Una sola muestra
Muestras emparejadas
Muestras independientes

Primer caso: Una sola muestra

Experimentos previos han establecido que el cambio semanal en el PIB de todos los paises del mundo tiene media \(\mu=0.95\) puntos
Se realizó la medicion semanal del PIB de su pais con los datos que se presentan en la tabla
¿Existencia evidencia de que el promedio de cambio semanal del PIB en su pais es diferente a la media mundial?

Primer caso: Una sola muestra

## Loading required package: MASS

## Loading required package: survival

## Loading required package: npsurv

## Loading required package: lsei

## summary statistics
## ------
## min:  -15.25   max:  12.22 
## median:  -1.41 
## mean:  -1.099744 
## estimated sd:  5.990888 
## estimated skewness:  0.1589711 
## estimated kurtosis:  3.226609

Primer caso: Una sola muestra

t.test(pib, alternative=c("two.sided"), mu = 0.95, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  pib
## t = -2.1367, df = 38, p-value = 0.03912
## alternative hypothesis: true mean is not equal to 0.95
## 95 percent confidence interval:
##  -3.0417650  0.8422778
## sample estimates:
## mean of x 
## -1.099744

Segundo caso: Muestras emparejadas

La mayoría de los estudios no tienen una sola muestra
Una situación frecuente es registrar observaciones del mismo sujeto en diferentes condiciones
Otra situación posible es realizar un emparejamiento de los sujetos uno a uno
En estos casos la prueba de hipótesis sobre la media se realiza sobre la diferencia entre los sujetos en diferentes condiciones o entre la diferencia entre los sujetos emparejados

Ejemplo: Dieta de la naranja

Una nutricionista diseño una nueva dieta basada en el consumo de jugo de naranja.
Un grupo de personas seleccionado de forma aleatoria fue incluido en el estudio y se registró su peso antes de iniciar la dieta y luego de tres meses de la intervención.
Los datos se presentan en la tabla
¿Es diferente el promedio del peso de los pacientes antes y despúes de la realización de la dieta?

Ejemplo: Dieta de la naranja

Procedimiento

Se calcula la diferencia entre los valores del peso antes y después de la intervención
Se plantea la hipótesis nula. En este caso, la hipótesis es que la diferencia entre los promedios es igual a 0
\(H_o: \mu=0\)
\(H_a: \mu \neq 0\)
Se calcula la diferencia entre el peso antes y despues y su promedio
Se aplica el estadístico de prueba T
\(T=\frac{\bar{x}-0}{\frac{s}{\sqrt{n}}}\)

Ejemplo: Dieta de la naranja

pesoantes<-c(65 ,58, 51, 51, 73, 75, 57, 56, 73, 80, 74, 77, 62, 51, 76, 54, 80, 46, 63, 50)
pesodepues<-c(58 ,69 ,75, 77, 78, 68, 53, 53, 76, 70, 76, 61, 51, 57, 45, 67, 61, 55, 46, 72)
difpeso<-pesodepues-pesoantes
mean(difpeso)

## [1] -0.2

sd(difpeso)

## [1] 15.20249

Ejemplo: Dieta de la naranja

## 
##  One Sample t-test
## 
## data:  difpeso
## t = -0.058834, df = 19, p-value = 0.9537
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -7.314986  6.914986
## sample estimates:
## mean of x 
##      -0.2

Tercer caso: Comparación del promedio de dos muestras

Existen muchas situaciones en las que se desea comparar dos grupos
Cada grupo es considerado una muestra de una población distinta
Las respuesta o valores de un grupo, son independientes de los valores del otro grupo
Algunos ejemplos

Ensayos aleatorizados: un grupo a tratamiento A y otro a tratamiento B
Hombres y mujeres

A diferencia de los experimentos emparejados, no hay emparejamiento de las unidades en las dos muestras y pueden ser de tamaños diferentes

Tercer caso: Comparación del promedio de dos muestras

Si tenemos dos muestras aleatorias simples, cada una procedente de una población y sus distribuciones son simétricas y aproximadamente normales, una comparación de la media en las dos poblaciones es un objetivo válido de inferencia
Una forma de iniciar el análisis es evaluar las distribuciones gráficamente para definir la existencia de valores atípicos o asimetría
Como la mayoría de los casos el valor verdadero de las varianzas poblaciones es desconocido no es posible utilizar una prueba Z y se utiliza un estadístico T
Existen dos casos posibles: las varianzas muestrales son diferentes o son iguales

Caso 3.1 Comparación cuando las varianzas muestrales son diferentes

Al reemplazar las dos varianzas poblacionales por las dos varianzas muestrales, este estadístico no tiene una distribución T
Se puede aproximar utilizando una distribución t(k) con aproximación para los grados de libertad k
El valor K puede calcularse de dos formas

Utilizando un valor calculado de los datos que no es en general un número entero
Utilizando el valor menor entre (n1-2)(n2-1)

Este estadístico aplica a los casos en que las varianzasde las dos poblaciones son diferentes

Estadístico de prueba para dos muestras con varianzas diferentes

\(T= \frac{(\bar{x_1}-\bar{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n1}+\frac{s_2^2}{n_2}}}\)

Ejemplo: Peso marsupiales

Para un crecimiento y ganancia de peso exitosas, las ratas canguro requieren del consumo de una variedad de grano de café que crece solamente en la región geográfica de donde son originarias.
Un investigador quiere probar que la administración de una variante de café diferente (café colombiano) genera una mayor ganancia de peso en las ratas al ser originado en un suelo con mejores nutrientes
Para tal fín diseña un experimento en el cual un grupo de ratas canguro recibe alimentación con el café estándar y el otro con café colombiano de tipo exportación
Los datos de los pesos registrados en el grupo de intervención y el grupo control se presentan en la tabla a continuación
¿El aumento de peso promedio observado en el grupo de tratamiento es mayor que el observado en el grupo control?

Ejemplo: Peso marsupiales

rata_cafe<-c(24 ,43 ,58, 71, 43, 49, 61, 44, 67, 49, 53, 56, 59, 52, 62, 54, 57, 33, 46, 43, 57)
rata_control<-c(42 ,43 ,55 ,26 ,62 ,37 ,33 ,41 ,19 ,54 ,20, 85, 46, 10, 17, 60, 53, 42, 37, 42, 55, 28, 48)
summary(rata_cafe)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   24.00   44.00   53.00   51.48   58.00   71.00

summary(rata_control)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.00   30.50   42.00   41.52   53.50   85.00

sd(rata_cafe)

## [1] 11.00736

sd(rata_control)

## [1] 17.14873

Ejemplo: Peso marsupiales

\(H_o: \mu_1-\mu_2 = 0\) [la diferencia de u1 - u2 = 0 ]
\(H_a: \mu_1 > \mu_2\)
Estadistico de prueba: Prueba T para dos muestras con varianzas diferentes
¿Son diferentes las varianzas ?

## 
##  F test to compare two variances
## 
## data:  rata_cafe and rata_control
## F = 0.412, num df = 20, denom df = 22, p-value = 0.05067
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1724602 1.0026844
## sample estimates:
## ratio of variances 
##          0.4120045

Ejemplo: Peso marsupial

## 
##  Welch Two Sample t-test
## 
## data:  rata_cafe and rata_control
## t = 2.3109, df = 37.855, p-value = 0.01319
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  2.691293      Inf
## sample estimates:
## mean of x mean of y 
##  51.47619  41.52174

Caso 3.2: Comparación de la media de dos poblaciones con varianzas iguales

Si las dos distribuciones tienen iguales varianzas es posible calcular un estimador combinado de las dos varianzas
Al utilizar la desviación estándar obtenida a partir de este valor, la distribución es T
\(T= \frac{\bar{x_1}-\bar{x_2}}{Sp\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\)
\(S^2_p=\frac{(n1-1)S^2_1+(n2-1)S^2_2}{n1+n2-2}\)
\(gl = n1+n2-2\)

Ejemplo: Calcio e hipertensión arterial

El calcio se ha descrito como un tratamiento que reduce la presión arterial
Se realizó un estudio aleatorizado donde los pacientes recibieron calcio o placebo
Se midieron los valores de presión arterial al inicio y al final del tratamiento y se calculó la diferencia - Se quiere evaluar si el promedio de cambio de la presión arterial es diferente entre los grupos

Ejemplo: calcio e hipertension arterial

\(H_o: \mu_1 = \mu_2\)
\(H_a: \mu_1 \neq \mu_2\)
Estadístico T para muestras independientes
Verificar si las varianzas son o no son iguales

Ejemplo: calcio e hipertensión arterial

calcio<-c(7, -4, 18, 17, -3, -5, 1, 10, 11, -2. -3)
control<-c(-1, 12, -1, -3, 3, -5, 5, 2, -11, -1)
mean(calcio)

## [1] 4.7

sd(calcio)

## [1] 9.055999

mean(control)

## [1] 0

sd(control)

## [1] 6.146363

Ejemplo; calcio e hipertension arterial

var.test(calcio, control)

## 
##  F test to compare two variances
## 
## data:  calcio and control
## F = 2.1709, num df = 9, denom df = 9, p-value = 0.2637
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.5392165 8.7399597
## sample estimates:
## ratio of variances 
##           2.170882

Ejemplo: calcio e hipertension arterial

## 
##  Two Sample t-test
## 
## data:  calcio and control
## t = 1.358, df = 18, p-value = 0.1913
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -2.571403 11.971403
## sample estimates:
## mean of x mean of y 
##       4.7       0.0

Prueba de hipotesis para el promedio

Leonardo Enciso - Bioestadística PUJ

Conceptos generales

Elementos de una prueba estadística

Elementos de una prueba estadística

Hipótesis nula e hipótesis alternativa

Ejemplo 1: Planteamiento de hipótesis

Ejemplo 1: Planteamiento de hipótesis

Estadístico de prueba

Significancia estadística

Selección del estadístico de prueba

Caso 1: Varianza conocida

Ejemplo 1: Niveles de colesterol

Ejemplo 1: Niveles de colesterol

Ejemplo 2: Radioactividad ósea

Ejemplo 2: Radioactividad ósea

Ejemplo 2: Radioactividad ósea

Caso 2: Varianza desconocida

Distribución T

Posible casos

Primer caso: Una sola muestra

Primer caso: Una sola muestra

Primer caso: Una sola muestra

Segundo caso: Muestras emparejadas

Ejemplo: Dieta de la naranja

Ejemplo: Dieta de la naranja

Ejemplo: Dieta de la naranja

Ejemplo: Dieta de la naranja

Tercer caso: Comparación del promedio de dos muestras

Tercer caso: Comparación del promedio de dos muestras

Caso 3.1 Comparación cuando las varianzas muestrales son diferentes

Estadístico de prueba para dos muestras con varianzas diferentes

Ejemplo: Peso marsupiales

Ejemplo: Peso marsupiales

Ejemplo: Peso marsupiales

Ejemplo: Peso marsupiales

Ejemplo: Peso marsupial

Caso 3.2: Comparación de la media de dos poblaciones con varianzas iguales

Ejemplo: Calcio e hipertensión arterial

Ejemplo: calcio e hipertension arterial

Ejemplo: calcio e hipertensión arterial

Ejemplo; calcio e hipertension arterial

Ejemplo: calcio e hipertension arterial