Contenidos:


Calculo del Error Tipo I

Y = numero de curados.

Una empresa que se dedica a vender medicamentos, desea lanzar al mercado un nuevo producto el cual se quiere que sea efectivo para erradicar una nueva enfermedad. Suponemos que funcionará en un 50% de los casos (Ho) y nuestra hipótesis alternativa H1 será que medicamento funciona en más del 50% de los casos. Mediante experimentación se le administro a 30 enfermos, y 30 de ellos se curaron. (Sea Y el número de curados)

Bajo la hipótesis nula, que el medicamento sea efectivo un 50% de los casos la muestra con 30 curados es posible pero altamente improbable. Es mucho más probable que observemos Y = 30 si la hipótesis alternativa fuera cierta. Entonces, rechazaríamos la hipótesis nula (p =0.5) a favor de la hipótesis alternativa (p >0.5). Si observamos Y = 29 (o cualquier valor grande de Y), un razonamiento análogo nos lleva a la misma conclusión. Supongamos que a priori definimos que el Umbral es de 24, es decir que 24 curados o más, nos permite concluir que nuestra cura es efectiva, ¿cuál será la probabilidad de equivocarnos? (que concluyamos que la muestra no fue extraída bajo la hipótesis nula) P(rechazar Ho cuando Ho es verdadera)=α=P(error tipo I)

plot(dbinom(1:30,30,0.5), type="l", main=paste0("probabilidad de error tipo I alpha (derecha) ", a1<-round(1-pbinom(24,30,0.5),5)))
abline(v=qbinom(pbinom(24,30,0.5),30,0.5))

Con esta región de rechazo, asumimos un riesgo pequeño de equivocarnos, es decir suponer que nuestro medicamento no funciona en un 50% de los casos cuando en realidad si lo hace. Es decir, la probabilidad de obtener esta muestra “extrema” dado que la hipótesis nula es cierta y rechazarla.

Calculo del Error Tipo II

¿La prueba es tan buena como para evitar concluir que el medicamento solo funcionará en un 50% de las veces cuando en realidad es mejor, digamos un 80%? ¿Cuál es la probabilidad de que la muestra erróneamente lleve a concluir que Ho es verdadera y en realidad es verdadera Ha? Ho: Suponemos que funcionará en un 50% de los casos H1: El medicamento funciona en más del 50% de los casos.

p_a=0.8
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ", b1<-round(pbinom(24,30,p_a),5)))
abline(v=qbinom(pbinom(24,30,p_a),30,p_a))

El valor de β depende del verdadero valor del parámetro p. Cuanto mayor sea la diferencia entre p observado y el valor hipotético (nulo) de p = 0.5, es menos probable que no rechacemos la hipótesis nula.


Inferencias Basadas en una muestra

Caso I: Población normal con \(\sigma\) desconocida

El promedio de piezas de lego por caja en una empresa, es de 100 piezas por caja con una desviación estándar de 3. Una muestra de 50 cajas, tomadas de forma independiente, tuvieron un promedio de 98. Pruebe la hipótesis de que el número de piezas por caja es de 100 contra la alternativa de que es menor de 100. Use un nivel de significancia de 0.05.

  1. Hipótesis: Ho:μo=100 H1: μo ≠ 100

  2. Nivel de significancia: α=0.05

  3. Estadístico de prueba:

\[ Z=\frac{x ̅-\mu}{\sigma/\sqrt n} \]

  1. Valor Critico de Z

    Para dicho calculo usamos la función qnorm

qnorm(0.05,0,1)
## [1] -1.644854

Calculo de Z: \[ Z= \frac{98-100}{3\over\sqrt 50} =-4.71 \]

  1. Decisión:

    Para α=0.05, la región de rechazo se compone del valor z <-1.644854. Como el valor muestral calculado con el estadístico de prueba z, es igual a –4.71, este valor cae en la región de rechazo, por lo que se rechaza la hipótesis nula de igualdad de la media a un valor determinado.


Caso II: Muestra grande con \(\sigma\) desconocida

Una empresa explotadora de caliza para cemento, extrae un promedio diario de 880 toneladas de un producto material los últimos años. Se quiere saber si este promedio ha cambiado en los meses recientes, por lo que se seleccionan al azar 50 días de la base de datos y se calcula el promedio y desviación estándar de los n=50 producciones con x̄= 871 t y S=21t, respectivamente. Pruebe la hipótesis apropiada con α=0.05.

  1. Hipótesis: Ho:μo=880 H1: μo ≠ 880

  2. Nivel de significancia: α=0.05

  3. Estadístico de prueba: \[ Z=\frac{x ̅-\mu}{\sigma/\sqrt n}\sim N(0,1) \] Como se desconoce la varianza poblacional, la desviación estándar poblacional se estima con la desviación estándar muestral con buena aproximación ya que n>30.

  4. Valor crítico de Z

    Si α=0.05, entonces α/2 va a ser 0.025. Tengo que calcular los valores de Z para que α=0.05 Para dicho cálculo usamos la función qnorm

   qnorm(0.025,0,1)
## [1] -1.959964

\[ Z_{0.025}=-1.96\space y \space Z_{0.0975}=1.96 \]

Se rechaza la hipótesis nula si \[ Z_{0.025}<Z<Z_{0.0975} \] Calculo de Z:

Al usar S para aproximar \(\sigma\) , se obtiene: \[ \frac{871-880}{21\over \sqrt 50 }= -3.03 \]

  1. Decisión:

    Para α=0.05, la región de rechazo se compone de los valores de z>1.96 y z<-1.96. Como el valor muestral calculado con el estadístico de prueba z, es igual a –3.03, este valor cae en la región de rechazo, por lo que se rechaza la hipótesis nula de igualdad de la media a un valor determinado.

  2. Conclusión:

    La muestra aporta evidencia suficiente, para un nivel de significancia de 0,05, para decir que el promedio de producción para un producto químico es distinto a 880 toneladas. Se puede decir, con un nivel de significancia de 0,05, que la producción del producto químico ha cambiado.

Caso III: Población normal con \(\sigma\) desconocida y muestra pequeña

Una empacadora de dulces en bolsa presenta el contenido por peso, cuyo promedio debe ser mayor que 0,5 lb. Para evaluar la confiabilidad del proceso se toma una muestra seis bolsas cuyos pesos son 0,46; 0,61; 0,52; 0,48; 0,57 y 0,54 lb. ¿Las seis mediciones proporcionan suficiente evidencia de que el peso promedio de las bolsas que se obtienen con este proceso sobrepasa las 0,5 lb? Use un nivel de significancia α=0.05

  1. Hipótesis: Ho:μ=0.5 H1: μ > 0.5

  2. Nivel de significancia: α=0.05

  3. Estadístico de prueba: \[ T=\frac{x ̅-\mu}{\sigma/\sqrt n}\sim t(n-1) \] Dónde: n-1 = 6-5 = 5 grados de libertad

  4. Valor crítico de T

    Se calcula el valor de T usando qt

   qt(0.05,5,lower.tail = FALSE) 
## [1] 2.015048

El valor critico de T es 2.015

Calculo de la media y la desviación estándar de los 6 pesos de las bolsas:

   a<-c(0.46,0.61,0.52,0.48,0.57,0.54)
   mean(a)
## [1] 0.53
   sd(a)
## [1] 0.05585696

La media y la desviación estándar son 0.53 y 0.0559 respectivamente El valor calculado del estadístico de prueba es entonces: \[ T=\frac{0.53-0.5}{0.0559\over \sqrt 6 }= 1.32 \]

  1. Decisión:

    Bajo un nivel de significancia del 5% no se rechaza la hipótesis nula por ser t=1.32<t~2.015


Procedimiento de prueba para proporción poblacional

Función a utilizar: binom.test

Argumentos:

Ejemplo:

Una empresa de servicios de internet estima que el 40% de sus clientes posee el servicio de facturación por cargo automático. En una muestra aleatoria de 100 clientes se encontró que 37% poseen el servicio. A un nivel de significancia del 1% ¿Existe evidencia para refutar la afirmación de la empresa?

¿Qué se puede concluir a cerca de los contenidos promedio

de ambas líneas de producción? Use 𝛼 = 0.05

binom.test(x=37, n=100, p=0.4, conf.level=0.99, alternative="two.sided")
## 
##  Exact binomial test
## 
## data:  37 and 100
## number of successes = 37, number of trials = 100, p-value = 0.6101
## alternative hypothesis: true probability of success is not equal to 0.4
## 99 percent confidence interval:
##  0.2494871 0.5032412
## sample estimates:
## probability of success 
##                   0.37

Procedimiento de prueba para la Varianza

Función a utilizar: var.test

Argumentos:

Ejemplo:

El administrador de un infocentro cree que la desviación estándar del número de personas que hacen uso de las computadoras en un día es superior a 8. Una muestra aleatoria de 15 días resultó en: 25,42,12,30,16,

38,5,9,8,15,

10,14,18,12,27

x<- c(25,42,12,30,16,38,5,9,8,15,10,14,18,12,27)
y<-c(0,0,0)
var.test(x, y, alternative = "two.sided", null.value = 8, conf.level =0.99)

Calculo del Valor-P:

Calculo de un único valor P a partir de una distribución normal:

En el siguiente ejemplo usaremos un valor a de 5, una desviación estándar de 2 y el tamaño de la muestra será de 20. Posteriormente encontramos el valor p para una media muestral de 7:

a <- 5
s <- 2
n <- 20
xbar <- 7
z <- (xbar-a)/(s/sqrt(n))
z
## [1] 4.472136
2*pnorm(-abs(z))
## [1] 7.744216e-06

Ahora vemos el mismo problema solo especificando la media y la desviación estándar usando la función pnorm. Nótese que para este caso no podemos forzar tan fácilmente el uso de la cola izquierda. Cómo la media de la muestra es mayor que la media supuesta, tenemos que tomar dos veces uno menos la probabilidad:

a <- 5
s <- 2
n <- 20
xbar <- 7
2*(1-pnorm(xbar,mean=a,sd=s/sqrt(20)))
## [1] 7.744216e-06

Calculo de un único valor P a partir de una distribución T

Calcular el valor a partir de una distribución es similar que lo visto anteriormente, con la única diferencia que en este caso se debe especificar el numero de grados de libertad:

a <- 5
s <- 2
n <- 20
xbar <- 7
t <- (xbar-a)/(s/sqrt(n))
t
## [1] 4.472136
2*pt(-abs(t),df=n-1)
## [1] 0.0002611934

La forma fácil

Otra forma de calcular el valor P es usando la función t.test , ésta función toma un conjunto de datos como argumento, y efectúa como operación predeterminada una prueba de hipótesis de dos lados:

x = c(9.0,9.5,9.6,10.2,11.6)
t.test(x,mu=10)
## 
##  One Sample t-test
## 
## data:  x
## t = -0.044677, df = 4, p-value = 0.9665
## alternative hypothesis: true mean is not equal to 10
## 95 percent confidence interval:
##   8.737095 11.222905
## sample estimates:
## mean of x 
##      9.98

Si se desea únicamente un lado se debe especificar en el argumento alternative:

x = c(9.0,9.5,9.6,10.2,11.6)
t.test(x,mu=10,alternative="less")
## 
##  One Sample t-test
## 
## data:  x
## t = -0.044677, df = 4, p-value = 0.4833
## alternative hypothesis: true mean is less than 10
## 95 percent confidence interval:
##      -Inf 10.93434
## sample estimates:
## mean of x 
##      9.98

Inferencias Basadas en dos muestras

Prueba de hipótesis para el cociente de varianzas \(\sigma_1^2/\sigma_2^2\)

Para realizar este tipo de prueba se puede usar la función var.test

Ejemplo:

Se realiza un estudio para comparar dos tratamientos que se aplicarán a frijoles crudos con el objetivo de reducir el tiempo de cocción. El tratamiento T1 es a base de bicarbonato de sodio, el T2 es a base de cloruro de sodio o sal común. La variable respuesta es el tiempo de cocción en minutos. Los datos se muestran abajo. ¿Son las varianzas de los tiempos iguales o diferentes? Usar α=0.05

T1: 76, 85, 74, 78, 82, 75, 82.

T2: 57, 67, 55, 64, 61, 63, 63.

Solucion:

En este problema interesa probar si las varianzas poblacionales son iguales o no, por esta razón el cociente de \(\sigma_{t1}^2/\sigma_{t2}^2\) se iguala al valor de 1 que será el valor de referencia de la prueba. \[ H_0:\sigma_{t1}^2/\sigma_{t2}^2=1 \]

\[ H_0:\sigma_{t1}^2/\sigma_{t2}^2\neq1 \]

Asumiendo las poblaciones normales procedemos a ingresar los datos y realizar la prueba utilizando la función var.test:

T1 <- c(76, 85, 74,78, 82, 75, 82) 
T2 <- c(57, 67, 55, 64, 61, 63, 63)
var.test(T1, T2, null.value=1, alternative="two.sided", conf.level=0.95)
## 
##  F test to compare two variances
## 
## data:  T1 and T2
## F = 1.011, num df = 6, denom df = 6, p-value = 0.9897
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1737219 5.8838861
## sample estimates:
## ratio of variances 
##           1.011019

Como el valor-P es 0.9897 (reportado como 1 en la salida anterior), muy superior al nivel α de significancia 5%, se puede concluir que las varianzas son similares.


Poblaciones Normales con Varianzas Desconocidas pero Iguales

Para realizar este tipo de prueba se puede usar la función t.test que tiene la siguiente estructura.

t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

Los argumentos a definir dentro de t.test para hacer la prueba son:

  • x: vector numérico con la información de la muestra 1,

  • y: vector numérico con la información de la muestra 2,

  • alternative: tipo de hipótesis alterna. Los valores disponibles son "two.sided" cuando la alterna es ≠ , "less" para el caso < y "greater" para >

  • mu: valor de referencia de la prueba.

  • var.equal=TRUE: indica que las varianzas son desconocidas pero iguales.

  • conf.level: nivel de confianza para reportar el intervalo de confianza asociado (opcional).

Ejemplo: Retomando el ejemplo de los fríjoles, ¿existen diferencias entre los tiempos de cocción de los fríjoles con T1 y T2? Usar un nivel de significancia del 5%. Primero se construirá un boxplot comparativo para los tiempos de cocción diferenciando por el tratamiento que recibieron.

datos <- data.frame(tiempo=c(T1, T2), trat=rep(1:2, each=7))
boxplot(tiempo ~ trat, data=datos, las=1, xlab='Tratamiento', ylab='Tiempo (min)')

De la figura se observa que las cajas de los boxplot no se traslapan, esto es un indicio de que las medias poblacionales, μ1 y μ2, son diferentes, se observa también que el boxplot para el tratamiento T1 está por encima del T2.

En este problema interesa estudiar el siguiente conjunto de hipótesis: \[ H_0:\mu_1-\mu_2=0 \]

\[ H_0:\mu_1-\mu_2\neq0 \]

Procedemos a realizar la prueba mediante el siguiente código:

t.test(x=T1, y=T2, alternative="two.sided", mu=0, paired=FALSE, var.equal=TRUE, conf.level=0.97)
## 
##  Two Sample t-test
## 
## data:  T1 and T2
## t = 7.8209, df = 12, p-value = 4.737e-06
## alternative hypothesis: true difference in means is not equal to 0
## 97 percent confidence interval:
##  11.94503 22.91212
## sample estimates:
## mean of x mean of y 
##  78.85714  61.42857

De la prueba se obtiene un valor-P muy pequeño, por lo tanto, podemos concluir que si hay diferencias significativas entre los tiempos promedios de cocción con T1 y T2, resultado que ya se sospechaba al observar la figura que generamos anteriormente.

Conclusión: Si el objetivo fuera elegir el tratamiento que minimice los tiempos de cocción se recomendaría el tratamiento T2, remojo de fríjoles en agua con sal.


Poblaciones Normales con Varianzas Desconocidas y Diferentes

Función a utilizar: t.test ()

Argumentos

  • x: vector numérico con la información de la muestra 1,

  • y: vector numérico con la información de la muestra 2,

  • alternative: tipo de hipótesis alterna.

  • mu: valor de referencia de la prueba.

  • var.equal=TRUE: indica que las varianzas son desconocidas pero iguales.

  • conf.level: nivel de confianza para reportar el intervalo de confianza asociado (opcional).

Ejemplo

Se analizan los contenidos de cajas de cereal llenados por dos líneas de producción diferentes con el objetivo de determinar si existe diferencia entre ellos. Los resultados son los siguientes:

OBSERVACIÓN LINEA 1 LINEA 2
1 5.83 3.38
2 5.66 2.81
3 4.75 7.00
4 3.00 1.50
5 3.37 5.88
6 3.63 5.25
7 4.00 4.08
8 4.63 7.63
9 4.25 4.50
10 4.13 4.88

¿Qué se puede concluir a cerca de los contenidos promedio de ambas líneas de producción? Use 𝛼 = 0.05

Solución:

Como ambas muestras son pequeñas, necesitamos determinar si las varianzas son iguales o diferentes. En la siguiente figura se muestran los diagramas de caja para ambas muestras:

linea_1 <- c(5.83,5.66,4.75,3.00,3.37,3.63,4.00,4.63,4.25,4.13)
linea_2 <- c(3.38,2.81,7.00,1.50,5.88,5.25,4.08,7.63,4.50,4.88)
datos <- data.frame(contenido=c(linea_1, linea_2),
                    lineas=rep(c('Linea 1', 'Linea 2'), each=10))
boxplot(contenido ~ lineas, data=datos, las=1)

De los diagramas podemos concluir que no se puede asumir igualdad de varianzas. Utilizamos la función t.test() para poblaciones normales con varianza desconocida:

t.test(x= linea_1, y=linea_2, alternative = c("two.sided"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)
## 
##  Welch Two Sample t-test
## 
## data:  linea_1 and linea_2
## t = -0.55457, df = 13.105, p-value = 0.5885
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.790635  1.058635
## sample estimates:
## mean of x mean of y 
##     4.325     4.691

Prueba de hipótesis para la diferencia de proporciones \(p_1 - p_2\)

Para realizar pruebas de hipótesis para la proporción se usa la función prop.test y es necesario definir los siguientes argumentos:

Ejemplo:

Se quiere determinar si un cambio en el método de fabricación de una piezas ha sido efectivo o no. Para esta comparación se tomaron 2 muestras, una antes y otra después del cambio en el proceso y los resultados obtenidos son los siguientes.

Num piezas Antes Después
Defectuosas 75 80
Analizadas 1500 2000

Realizar una prueba de hipótesis con un nivel de significancia del 10%.

En este problema interesa estudiar el siguiente conjunto de hipótesis. \[ H_0:p_{antes}-p_{despues}=0 \]

\[ H_0:p_{antes}-p_{despues}>0 \]

Para realizar la prueba se usa la función prop.test como se muestra a continuación:

prop.test(x=c(75, 80), n=c(1500, 2000),
          alternative='greater', conf.level=0.90)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(75, 80) out of c(1500, 2000)
## X-squared = 1.7958, df = 1, p-value = 0.09011
## alternative hypothesis: greater
## 90 percent confidence interval:
##  0.0002765293 1.0000000000
## sample estimates:
## prop 1 prop 2 
##   0.05   0.04

Del reporte anterior se observa que el Valor-P es 9%, por lo tanto no hay evidencias suficientes para pensar que el porcentaje de defectuosos después del cambio ha disminuido.


Prueba T para observaciones pareadas

Función a utilizar: t.test()

Estructura:

t.test(x=antes, y=despu, alternative="greater", mu=0, 
       paired=TRUE, conf.level=0.95)

Ejemplo:

Se desea comparar el consumo de gasolina (en millas por galón) para dos automóviles, A y B. para hacerlo se prueba cada automóvil con cinco marcas de gasolina. Cada automóvil usó un tanque de cada marca. Los resultados se muestran en la tabla:

Marca Auto A Auto B
1 28.3 29.2
2 27.4 28.4
3 29.1 28.2
4 28.7 28.0
5 29.4 29.6

¿Existe alguna evidencia que sugiera alguna diferencia entre los consumos reales para ambos tipos de autos? Use un nivel de significancia del 5%.

Solución:

Aplicamos la función t.test() para observaciones pareadas:

auto_A <- c(28.3,27.4,29.1,28.7,29.4)
auto_B <- c(29.2,28.4,28.2,28.0,29.6)
t.test(x=auto_A, y=auto_B, alternative="two.sided", mu=0, paired=TRUE, conf.level=0.95)
## 
##  Paired t-test
## 
## data:  auto_A and auto_B
## t = -0.254, df = 4, p-value = 0.812
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.1930875  0.9930875
## sample estimates:
## mean of the differences 
##                    -0.1

Procedimientos de Prueba para la Varianza de dos Poblaciones

Función a utilizar: var.test

Estructura:

var.test(x, y, conf.level=0.95)

Ejemplo:

La siguiente tabla proporciona datos sobre la precipitación total registrada en 11 estaciones meteorológicas de dos provincias españolas. Suponiendo independencia y normalidad. Calcular un intervalo de confianza a un nivel de confianza del 80% para el cociente de varianzas en ambas poblaciones. ¿Puede asumirse que ambas varianzas son iguales?

PROV_A 100 89 84 120 130 105 60 70 90 108 130
PROV_B 120 115 96 115 140 120 75 90 108 130 135

Solución:

En primer lugar determinamos el intervalo de confianza para el cociente de varianzas, para ello utilizamos la función var.test. Lo primero que tenemos que hacer para aplicar la función var.test es separar en dos variables los datos relativos a las precipitaciones realizadas en cada provincia.

Prov_A <- c(100,89,84,120,130,105,60,70,90,108,130)
Prov_B <- c(120,115,96,115,140,120,75,90,108,130,135)
Prov_A
##  [1] 100  89  84 120 130 105  60  70  90 108 130
Prov_B
##  [1] 120 115  96 115 140 120  75  90 108 130 135
var.test(Prov_A, Prov_B, conf.level = 0.80)
## 
##  F test to compare two variances
## 
## data:  Prov_A and Prov_B
## F = 1.3474, num df = 10, denom df = 10, p-value = 0.6462
## alternative hypothesis: true ratio of variances is not equal to 1
## 80 percent confidence interval:
##  0.5801448 3.1295847
## sample estimates:
## ratio of variances 
##           1.347447

Analizando la información relativa al intervalo de confianza que se incluye en la salida de var.test, podemos afirmar que el intervalo de confianza a un nivel de confianza del 80% para el cociente de las varianzas de las dos distribuciones es (0.5801448, 3.1295847). Este intervalo de confianza contiene al valor 1, por lo que se puede suponer que las varianzas de las dos distribuciones son idénticas.