Modelos Estadísticos. Grado Biotecnología

Ejercicios

Ejercicio 1. Una cadena de supermercados vende pan recién horneado. Los cálculos realizados conforme a la teoría de inventarios indican que para balancear los costos del pan no vendido (por estar duro) y la satisfacción de los clientes, la cadena debería agotar sus existencias de pan el 20% de los días. Se elige una muestra aleatoria de 50 tiendas y se comprobó que 14 de ellas quedaron desabastecidas. Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variable: Si una tienda está desabastecida
# Parámetro: Probabildiad de que una tienda este desabastecida
# valor de interés: 50% 
# Datos:
n <- 50
desabastecidas <- 14
# el contraste de interés es proporción de éxito > 0.2
prop.test(desabastecidas, n, p = 0.2, alternative = "greater", conf.level = 0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  desabastecidas out of n, null probability 0.2
## X-squared = 1.5312, df = 1, p-value = 0.108
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.180529 1.000000
## sample estimates:
##    p 
## 0.28

Ejercicio 2. El anterior director (por muchos años) de servicios municipales de la ciudad obtuvo del gobierno federal la subvención solicitada el 50% de las veces que pidió ayuda. Se nombró un nuevo director de servicios municipales de la ciudad quién presento 18 solicitudes de ayuda al gobierno federal durante su primer año. Si 7 de las 18 solicitudes fueron subvencionadas, el concejo municipal quieres saber si hay un cambio en la tasa de resultados positivos bajo la nueva dirección. Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variable: Si la solicitud es aprobada
# Parámetro: Probabildiad de que una solicitud sea aprobada
# valor de interés: 20% 
# Datos:
n <- 18
aprobadas <- 7
# el contraste de interés es proporción de éxito = 0.5
prop.test(aprobadas, n, p = 0.5, alternative = "two.sided", conf.level = 0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  aprobadas out of n, null probability 0.5
## X-squared = 0.5, df = 1, p-value = 0.4795
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.1826255 0.6385990
## sample estimates:
##         p 
## 0.3888889

Ejercicio 3. El gerente de investigación y desarrollo de una compañía de alimentos comprobó que sólo el 40% de los nuevos productos potenciales que se han sometido a prueba con los clientes son comercializados. Para determinar qué productos han de someterse a prueba por los clientes, el gerente toma 20 nuevos productos potenciales de los cuales 8 fueron comercializados. Realiza un análisis inferencial con una confianza del 90% para esta situación.

# Variable: Si el producto es comercializado
# Parámetro: Probabildiad de comercialización
# valor de interés: 40% 
# Datos:
n <- 20
comercializados <- 8
# el contraste de interés es proporción de éxito > 0.4
prop.test(comercializados, n, p = 0.4, alternative = "greater", conf.level = 0.90)

## 
##  1-sample proportions test without continuity correction
## 
## data:  comercializados out of n, null probability 0.4
## X-squared = 0, df = 1, p-value = 0.5
## alternative hypothesis: true p is greater than 0.4
## 90 percent confidence interval:
##  0.2724204 1.0000000
## sample estimates:
##   p 
## 0.4

Ejercicio 4. Un distribuidor minorista de computadoras está tratando de decidir entre dos métodos para dar servicio a los equipos de los clientes. El primer método enfatiza el mantenimiento preventivo; el segundo una respuesta rápida a los problemas. Se atienden dos muestras de clientes, cada una con uno de esos métodos. Después de seis meses, se encuentra que 171 de los 200 clientes atendidos con el primer método están muy satisfechos con el servicio, comparados con los 153 de los 200 clientes atendidos con el segundo método. Realiza un análisis inferencial con una confianza del 90% para esta situación.

# Variables: Satisfacción con el producto con cada método
# Parámetros: Probabildiad de satisfacción con cada método
# Parámetro de interés: Diferencia en las probabilidades de satisfacción
# valor de interés: diferencia = 0 
# Datos:
muestra <- c(200,200)
exitos <- c(171,153)
# el contraste de interés es diferencia de proporciones igual a cero: Proporciones de éxito iguales con los dos métodos
prop.test(exitos,muestra, alternative = "two.sided",conf.level = 0.90)

## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  exitos out of muestra
## X-squared = 4.6946, df = 1, p-value = 0.03026
## alternative hypothesis: two.sided
## 90 percent confidence interval:
##  0.02089817 0.15910183
## sample estimates:
## prop 1 prop 2 
##  0.855  0.765

Ejercicio 5. Se realizan pruebas de fiabilidad muy severas con dos muestras de 30 motores eléctricos para impresoras. De los motores del proveedor 1, pasaron la prueba 22; de los motores del proveedor 2, sólo 16 se aprobaron. Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variables: Si el motor pasa la prueba de fiabilidad para cada proveedor
# Parámetros: Probabildiad de pasar la prueba con cada motor
# Parámetro de interés: Diferencia en las probabilidades de pasar la prueba
# valor de interés: diferencia = 0 
# Datos:
muestra <- c(30,30)
exitos <- c(22,16)
# el contraste de interés es diferencia de proporciones igual a cero: Proporciones de éxito iguales con los dos métodos
prop.test(exitos,muestra, alternative = "two.sided",conf.level = 0.95)

## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  exitos out of muestra
## X-squared = 1.7943, df = 1, p-value = 0.1804
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.07189255  0.47189255
## sample estimates:
##    prop 1    prop 2 
## 0.7333333 0.5333333

Ejercicio 6. El gerente de una organización para la conservación de la salud ha fijado como objetivo que aquellos pacientes que no acudan por alguna emergencia esperen menos de 30 minutos en ser atendidos. En un control por sondeo se recogen los tiempos de espera de 22 pacientes obteniendo los resultados siguientes:

tiempos <- c(28.0,47.9, 38.8, 45.7, 47.3, 34.3, 41.1, 26.9, 26.4, 21.8, 39.3, 31.5, 37.5, 25.4, 24.1, 30.8, 22.3, 44.5, 43.1, 45.8, 42.0, 57.2)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

tiempos <- c(28.0,47.9, 38.8, 45.7, 47.3, 34.3, 41.1, 26.9, 26.4, 21.8, 39.3, 31.5, 37.5, 25.4, 24.1, 30.8, 22.3, 44.5, 43.1, 45.8, 42.0, 57.2)
# Variable: Tiempo de espera
# Parámetro: Tiempo medio de espera
# El contraste de interés es que la media del tiempo de espera es menor que 30 
t.test(tiempos, mu = 30, alternative = "less", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  tiempos
## t = 3.0631, df = 21, p-value = 0.997
## alternative hypothesis: true mean is less than 30
## 95 percent confidence interval:
##      -Inf 40.05914
## sample estimates:
## mean of x 
##  36.44091

Ejercicio 7. Un distribuidor de papel reciclado coloca contenedores vacíos en varios lugares, éstos se llenan gradualmente con los periódicos viejos y materiales similares que traen varios individuos. Los contenedores se recogen (y se reemplazan por otros vacíos) siguiendo distintos itinerarios. En uno de tales trayectos se hace la recolección cada dos semanas. Este plan es aconsejable si la cantidad media de papel reciclado en cada período de dos semanas es mayor que 1600 píes cúbicos. Distintos registros correspondientes a 18 períodos de dos semanas muestran los siguientes volúmenes (en píes cúbicos) para un lugar particular:

volumen <- c(1660,1820,1590,1440,1730,1680,1750,1720,1900,1570,1700,1900,1800,1770,2010,1580,1620,1690)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

volumen <- c(1660,1820,1590,1440,1730,1680,1750,1720,1900,1570,1700,1900,1800,1770,2010,1580,1620,1690)
# Variable: Cantidad de papel recogido
# Parámetro: Cantidad medio de papel recogido
# El contraste de interés es que la media del papel recogido es mayor a 1600
t.test(volumen, mu = 1600, alternative = "greater", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  volumen
## t = 3.6442, df = 17, p-value = 0.001003
## alternative hypothesis: true mean is greater than 1600
## 95 percent confidence interval:
##  1661.845      Inf
## sample estimates:
## mean of x 
##  1718.333

Ejercicio 8. Un organismo de control estatal está investigando una afirmación publicitaria de que cierto dispositivo reduce el consumo de gasolina en los automóviles. Se han comprado e instalado siete dispositivos en autos que pertenecen a la institución. Se espera que la distancia recorrida por cada 10 litros sea de 100 km. Para comparar los rendimientos en condiciones estándar, se miden los kilómetros que cada automóvil recorre con 10 litros de gasolina en las dos situaciones. Los datos recogidos son:

distancia <- c(103.1,  93.0, 105.7,  91.3, 104.1, 109.4, 101.9)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

distancia <- c(103.1,  93.0, 105.7,  91.3, 104.1, 109.4, 101.9)
# Variable: Distancia recorrida
# Parámetro: Media de la distancia recorrida
# El contraste Media de la distancia recorrida > 100
t.test(distancia, mu = 100, alternative = "greater", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  distancia
## t = 0.48319, df = 6, p-value = 0.323
## alternative hypothesis: true mean is greater than 100
## 95 percent confidence interval:
##  96.33097      Inf
## sample estimates:
## mean of x 
##  101.2143

Ejercicio 9. Un fabricante de ropa compra tela en rollos y la corta. En el proceso, cierta cantidad de tela se desperdicia. Con los métodos estándar, el desperdicio es del 9.26%. Un productor de máquinas controladas por computadora le permitió probar una de sus máquinas con una muestra de 26 cortes distintos. Los datos se presentan a continuación:

desperdicio <- c(8.7,  7.3,  9.5,  7.9,  9.1, 11.1, 10.0,  8.6,  8.4,  8.8,  9.3, 11.1,  8.0,  8.7,  8.4,  9.6,  8.4,  7.8,  8.5,  7.7,  8.1, 11.1,  9.2, 10.2,  8.8,  8.5)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

desperdicio <- c(8.7,  7.3,  9.5,  7.9,  9.1, 11.1, 10.0,  8.6,  8.4,  8.8,  9.3, 11.1,  8.0,  8.7,  8.4,  9.6,  8.4,  7.8,  8.5,  7.7,  8.1, 11.1,  9.2, 10.2,  8.8,  8.5)
# Variable: Cantidad de tela desperdiciada
# Parámetro: Media de la cantidad de tela desperdiciada
# Al media del desperdicio < 9.26
t.test(desperdicio, mu = 9.26, alternative = "less", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  desperdicio
## t = -1.491, df = 25, p-value = 0.07423
## alternative hypothesis: true mean is less than 9.26
## 95 percent confidence interval:
##      -Inf 9.304581
## sample estimates:
## mean of x 
##  8.953846

Ejercicio 10. Un industrial que produce cereal inflado ensaya dos procedimientos de mantenimiento preventivo con dos de las pistolas utilizadas en el procesamiento. Se registra el número de horas de operación entre los periodos de paro total:

pistola1 <- c(40.6, 121.5, 54.5, 78.7, 153.8, 22.4, -0.5, -53.9, 162.1, 93.1, 
59.1, 135.1, 2.2, 74.5, 79.1, 128.7, 71.9, 98.8, -50.3, 80.2, 
100.9, 97.8, 86.3, 127.4, 21.8, 119.9, 127.7, 18.7, 66.6, 84.2, 
44.2, 43.8, 92.1, 78.1, 81, 161.7, 57.5, 46, 61.6, 127.2, 77.8, 
97.4, 56.6, 87.3, 94.9, 98.5, 69.7, 80.4, 55.9, 64.2, 28.5, 28.6, 
8, 66.6, 62.6, 70.7, 54.5, 69.8, 133.4, 11.6, 73.6, 137.2, -47.6, 
45.2, 106.9, 50.6, 137.3, 32, 53.3, 98.9, 19.5, 82.1, 14, 92.2, 
91.5, 8.3, 8.3, 19.4, 70.5, 126.2, 89.1, 86.7, 85.3, 134.8, 47.2, 
4.5, 28.3, 22.8, 150.6, 95.7, 91.2, 62.9, 58.4, 13.8, 15.1, 59.5, 
40.3, 96.9, 134.2, 88.2, -8.1, 62.1, 63.7, 2.1, 91.6, 27, 78.3, 
-0.7, 43.9, 63.8, 121, 50.2, 79.9, 81.5, 105.7, 12.8, 59.5, 84.8, 
9.5, 92.3, 40.9, 35.9, 5, 72.4, 49.8, 47)
pistola2 <- c(6.2, 143, 1.2, -28.3, 40, 63.1, 65.2, 15.1, 137.6, 64.9, 101, 
24.1, 53.3, 84.4, 107.9, -8.4, 72.1, 82.2, 43.3, 112.2, 92.7, 
26.3, 33, 56.3, 23.7, 31.1, 79.6, 18.1, 46.8, 24.1, 50.7, 48.2, 
39, 96.3, 58.4, 36, 40.2, 114, 63.1, 75.8, 71.6, 72.6, 72.3, 
80.8, 158.5, 12.4, 81.2, 42.8, -6.8, 44, 34.6, 106.5, 74.8, 100, 
23.9, 51.8, 86.7, -6.9, 13.2, 50.6, 90, 42, 79.5, 95.7, 71, 78.3, 
80.8, 69.7, 1.6, 71.4, 115.5, 109.7, 36.6, 75.8, 64.7, 31.9, 
43.4, 110.9, 137.2, 112, 42.6, 105, 51.8, 60.9, -11.9, 79.9, 
83.4, 82.8, 14.5, 70.6, 103.6, 14, 50.9, 70, 91.6, 42.9, 43.6, 
92.2, 97.6, 83, 109.1, -3.6, 51.2, 85.1, 59.5, 51.1, 35.9, 72.7, 
41, 69.5, 1.4, 77.9, -47.2, 35.6, 98.1, 40.8, 105.9, -16, 44.4, 
19.9, 67.7, 50.1, 41.3, 70.6, 122.1, 135.4, 113.3, 3.1, 48.4, 
101.2, -14.3, 42.7, 19.1, 82.9, 109.5, 46.7, -10.7, 60.1, 132.1, 
21.3, 35.1, 88.4, 64.4, -15.3, 75.4, 30.1, 95.5, 46.8, 3.4, 32.1, 
-30.8, 43.5, 38.2, 59.2, 32.3)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variables: Número de horas de operación con cada pistola
# Parámetros: Media del número de horas de operación con cada pistola
# Parámetro de interés: Diferencia entre las medias del tiempo de operación
# valor de interés: diferencia = 0 

# Comparamos en primer lugar las varianzas
var.test(pistola1, pistola2, conf.level = 0.95)

## 
##  F test to compare two variances
## 
## data:  pistola1 and pistola2
## F = 1.243, num df = 125, denom df = 154, p-value = 0.1988
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.8917281 1.7429568
## sample estimates:
## ratio of variances 
##           1.243015

# Comparación de medias con varianza iguales
t.test(pistola1, pistola2, alternative = "two.sided", var.equal = TRUE, conf.level = 0.95)

## 
##  Two Sample t-test
## 
## data:  pistola1 and pistola2
## t = 1.6522, df = 279, p-value = 0.09961
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.561618 17.877696
## sample estimates:
## mean of x mean of y 
##  65.95159  57.79355

Ejercicio 11. Un mayorista especializado en productos farmacéuticos incurre en gastos considerablemente elevados para “documentar” cada pedido. En un esfuerzo por reducir el tiempo requerido, se ha programado una minicomputadora para enumerar los artículos de manera eficiente. Se prueban dos programas basados en diferentes principios de eficiencia. Se corre un centenar de pedidos con cada uno de ellos y se registra el tiempo total de trabajo por orden. Los datos obtenidos son:

programa1 <- c(0.1, 2.3, 1.9, 0.6, 1.3, 1.6, 0.7, 2.3, 0.5, 4.1, 2.7, 1.2, 
2.2, 1.4, 3.4, 2.6, 1, 0.8, -0.4, 0, 0.6, 0.1, 2.1, 0.9, 2, 0.9, 
1.2, 2.2, 1.8, 0.5, 2.6, 2.2, 0.5, 2.1, 2.1, 1.4, 1.5, 3.5, 1.1, 
2.5, 0.9, 1.3, 1.4, 1.5, 1.1, -0.2, 2.3, 1.6, 2.5, 1.4, 1.4, 
2.3, 1.6, 1.2, 2.3, 0.8, 2.3, 2.8, 2.4, 2.2, 1.4, 2.2, -0.6, 
3.1, 0.6, 2.2, -0.9, 1.1, 0.9, 2.4, 0.3, 1.5, 1.6, -0.2, 0.1, 
1.3, 1, 0.1, 3.4, 1.1, 2.7, 2.3, 2.9, 2.8, 2.8, 0.3, 0.9, 2.4, 
1.7, 2.1, 1.9, 0.7, 0.8, 1.3, 1.1, 3.2, 0.8, 1.9, 1.9, 2.8)
programa2 <- c(0.8, 2.1, 1.1, 3, 1.1, 0.9, 1.9, 0.2, 2, 0.4, 2.3, -0.2, 0.6, 
1.1, 0.2, 1.3, 0.6, 1.7, -0.2, 2.4, 1.7, 1, 1.7, 1.5, 0.6, -0.6, 
0.6, 2.3, -0.5, 0, 0.5, 0.8, 2.5, 0.7, 0.6, 0.6, 2.5, 1, 0.2, 
0.8, 0.4, 1.4, -0.1, 1.2, 1.4, 1.4, 0.2, -0.2, 1.9, -0.3, -0.3, 
3.2, -0.1, -1.6, 2.2, 2, 1.1, 0.1, 1.4, -0.4, 0.1, 0.5, -0.3, 
1.9, 0.3, 1.5, -0.8, 1.3, -2.3, -0.2, 1.1, 0.4, 0.4, 2.3, 1.6, 
0.5, 2, 0.7, 1, 0.6, 0, 1.9, 2.7, 0.2, 1.2, 0.8, -1.4, 1.3, 1, 
1.7, 1.2, 0.6, 1.2, 1.6, 1, 1.7, 0, 1.3, 1.1, 0.6)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variables: Tiempo requerido para la documentación con cada programa
# Parámetros: Media del número de horas de operación con cada pistola
# Parámetro de interés: Diferencia entre las medias del tiempo de documentación
# valor de interés: diferencia = 0 

# Comparamos en primer lugar las varianzas
var.test(programa1, programa2, conf.level = 0.95)

## 
##  F test to compare two variances
## 
## data:  programa1 and programa2
## F = 1.0162, num df = 99, denom df = 99, p-value = 0.9363
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.6837722 1.5103782
## sample estimates:
## ratio of variances 
##           1.016245

# Comparación de medias con varianza iguales
t.test(programa1, programa2, alternative = "two.sided", var.equal = TRUE, conf.level = 0.95)

## 
##  Two Sample t-test
## 
## data:  programa1 and programa2
## t = 4.7574, df = 198, p-value = 3.774e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.3870028 0.9349972
## sample estimates:
## mean of x mean of y 
##     1.551     0.890

Ejercicio 12. Una compañía tiene una política generosa, pero bastante complicada, relativa a los bonos de fin de año para el personal gerencial de bajo rango. El factor clave de la política es el juicio subjetivo de contribución a las metas de la empresa. El director de personal toma una muestra de 24 mujeres y 36 hombres que desempeñan cargos gerenciales para ver si hay diferencias en los bonos, expresadas como porcentaje de salario anual. Los datos son los siguientes:

hombres <- c(10.4,8.9,11.7,12.0,8.7,9.4,9.8,9.0,9.2,9.7,9.1,8.8,7.9,9.9,10.0,10.1,9.0,11.4,8.7,9.6,9.2,9.7,8.9,9.2,9.4,9.7,8.9,9.3,10.4,11.9,9.0,12.0,9.6,9.2,9.9,9.0)
mujeres <- c(9.2,7.7,11.9,6.2,9.0,8.4,6.9,7.6,7.4,8.0,9.9,6.7,8.4,9.3,9.1,8.7,9.2,9.1,8.4,9.6,7.7,9.0,9.0,8.4)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variables: Bonos conseguidos por sexo
# Parámetros: Media de bonos conseguidos por cada sexo
# Parámetro de interés: Diferencia entre las medias de bonos conseguidos
# valor de interés: diferencia = 0 

# Comparamos en primer lugar las varianzas
var.test(hombres, mujeres, conf.level = 0.95)

## 
##  F test to compare two variances
## 
## data:  hombres and mujeres
## F = 0.71286, num df = 35, denom df = 23, p-value = 0.3584
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.3235116 1.4791528
## sample estimates:
## ratio of variances 
##          0.7128592

# Comparación de medias con varianza iguales
t.test(hombres, mujeres, alternative = "two.sided", var.equal = TRUE, conf.level = 0.95)

## 
##  Two Sample t-test
## 
## data:  hombres and mujeres
## t = 4.0367, df = 58, p-value = 0.0001609
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.5797451 1.7202549
## sample estimates:
## mean of x mean of y 
##  9.683333  8.533333

Ejercicio 13. Un fabricante que elabora botes de aluminio reciclado está preocupado por los niveles de impurezas (principalmente otros metales) en lotes que tienen distintos orígenes. Los análisis del laboratorio de una muestra de lotes arrojan los siguientes datos (kilogramos de impurezas por cada 100 kilogramos del producto):

origen1 <- c(3.8,3.5,4.1,2.5,3.6,4.3,2.1,2.9,3.2,3.7,2.8,2.7)
origen2 <- c(1.8,2.2,1.3,5.1,4.0,4.7,3.3,4.3,4.2,2.5,5.4,4.6)

Realiza un análisis inferencial con una confianza del 90% para esta situación.

# Variables: Niveles de impureza según cada origen
# Parámetros: Media de impurexas según cada origen
# Parámetro de interés: Diferencia entre las medias de impurezas
# valor de interés: diferencia = 0 

# Comparamos en primer lugar las varianzas
var.test(origen1, origen2, conf.level = 0.95)

## 
##  F test to compare two variances
## 
## data:  origen1 and origen2
## F = 0.24524, num df = 11, denom df = 11, p-value = 0.0281
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.07059999 0.85190082
## sample estimates:
## ratio of variances 
##          0.2452431

# Comparación de medias con varianza distintas
t.test(origen1, origen2, alternative = "two.sided", var.equal = FALSE, conf.level = 0.95)

## 
##  Welch Two Sample t-test
## 
## data:  origen1 and origen2
## t = -0.79595, df = 16.089, p-value = 0.4376
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.2817565  0.5817565
## sample estimates:
## mean of x mean of y 
##  3.266667  3.616667

Ejercicio 14. Los ejecutivos de una compañía están preocupados por el tiempo que un medicamento particular conserva su potencia. Una muestra aleatoria de 10 frascos del producto se extrae de la producción cotidiana y se analiza su potencia. Se toma una segunda muestra, se almacena por un año y después se analiza. Las lecturas obtenidas son:

inicio <- c(10.2,10.5,10.3,9.8,10.6,10.7,10.2,10.0,10.8,10.6)
final <- c(9.8,9.6,10.1,10.2,10.1,9.7,9.5,9.6,9.8,9.8)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variables: Potencia del producto al incio y un año después
# Parámetros: Media de la potencia del producto
# Parámetro de interés: Decremento de la potencia entre el final y el inicio

# Ha habido un decrecimiento en la potencia: media de la diferencia (final-inicio) distinta de 0
t.test(inicio, final, alternative = "two.sided", paired = TRUE, var.equal = TRUE, conf.level = 0.95)

## 
##  Paired t-test
## 
## data:  inicio and final
## t = 4.0196, df = 9, p-value = 0.00302
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.2404709 0.8595291
## sample estimates:
## mean of the differences 
##                    0.55

Ejercicio 15. Un fabricante de compresores de aire y bombas para neumáticos quiere probar dos modos de exhibir sus mercancías en los puntos de venta. Sus productos se venden a través de tiendas independientes, que varían enormemente en sus volúmenes de venta. Un total de 15 tiendas están de acuerdo en participar por un mes en la exposición. Las tiendas utilizarán ambos periodos de exposición (modo A y B) por un periodo de un mes. Tras cada mes se registran las ventas realizadas. En la tabla siguiente aparecen las ventas realizadas por cada modo:

modoA <- c(46,39,40,37,32,26,21,23,20,17,13,15,11,8)
modoB <- c(37,42,37,38,27,19,20,17,20,12,12,9,7,2)

Realiza un análisis inferencial con una confianza del 90% para esta situación.

# Variables: Volumen de venta en una misma tienda con dos periodos de exposición
# Parámetros: Media de las ventas realziadas por cada tiempo según periodo de exposición
# Parámetro de interés: Diferencia en las ventas para una misma tienda con los dos periodos de exposición

# Ventas iguales: media de la diferencia (modaA-modoB) distinta de 0
t.test(modoA, modoB, alternative = "two.sided", paired = TRUE, var.equal = TRUE, conf.level = 0.9)

## 
##  Paired t-test
## 
## data:  modoA and modoB
## t = 3.8111, df = 13, p-value = 0.002161
## alternative hypothesis: true difference in means is not equal to 0
## 90 percent confidence interval:
##  1.873625 5.126375
## sample estimates:
## mean of the differences 
##                     3.5

Ejercicio 16. Un fabricante tiene la alternativa de utilizar el servicio postal público o un transportista privado para enviar sus productos. Para facilitar la elección, el fabricante selecciona 10 destinos y envía parte de sus embarques por cada medio. Los tiempos de entrega (en días) son:

postal <- c(3,4,5,4,8,9,7,10,9,9)
privado <- c(2,2,3,5,4,6,9,6,7,6)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variables: Tiempos de entrega en el mismo destino según método utilizado
# Parámetros: Media del tiempo de entrega en el mismo destino según método utilizado
# Parámetro de interés: Diferencia en en el tiempode eentrega en un mismo destino

# Tiempos iguales: media de la diferencia (postal- privado) distinta de 0
t.test(postal, privado, alternative = "two.sided", paired = TRUE, var.equal = TRUE, conf.level = 0.95)

## 
##  Paired t-test
## 
## data:  postal and privado
## t = 2.862, df = 9, p-value = 0.01872
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.3772568 3.2227432
## sample estimates:
## mean of the differences 
##                     1.8

Ejercicio 18. Una compañía de ventas por correo prueba dos versiones distintas de un catálogo de ofertas especiales. Se selecciona una muestra de códigos postales de la lista de correos de la compañía, y para cada código postal se envía cada versión del catálogo a una mitad de las personas que viven en dicha zona postal. Para cada código, se registran las respuestas por millar de catálogos enviados. Los datos son los siguientes:

catalogoA <- c(10.8,13.4,8.9,10.6,17.0,14.1,11.2,13.4,9.9,10.7)
catalogoB <- c(11.3,15.0,9.9,10.0,17.7,12.6,11.8,13.7,10.4,9.9)

Realiza un análisis inferencial con una confianza del 95% para esta situación.

# Variables: ????
# Parámetros: ???
# Parámetro de interés: ???

# ????
t.test(catalogoA, catalogoB, alternative = "two.sided", paired = TRUE, var.equal = TRUE, conf.level = 0.95)

## 
##  Paired t-test
## 
## data:  catalogoA and catalogoB
## t = -0.78526, df = 9, p-value = 0.4525
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.89258  0.43258
## sample estimates:
## mean of the differences 
##                   -0.23

Ejercicio 19. Verifica la normalidad para los datos de los ejercicios 10,11, 12 y 13. Si detectas falta de normalidad realiza el análisis inferencial basado en el correspondientes test no paramétrico.

# Ejercicio 10
# Cargamos los datos
pistola1 <- c(40.6, 121.5, 54.5, 78.7, 153.8, 22.4, -0.5, -53.9, 162.1, 93.1, 
59.1, 135.1, 2.2, 74.5, 79.1, 128.7, 71.9, 98.8, -50.3, 80.2, 
100.9, 97.8, 86.3, 127.4, 21.8, 119.9, 127.7, 18.7, 66.6, 84.2, 
44.2, 43.8, 92.1, 78.1, 81, 161.7, 57.5, 46, 61.6, 127.2, 77.8, 
97.4, 56.6, 87.3, 94.9, 98.5, 69.7, 80.4, 55.9, 64.2, 28.5, 28.6, 
8, 66.6, 62.6, 70.7, 54.5, 69.8, 133.4, 11.6, 73.6, 137.2, -47.6, 
45.2, 106.9, 50.6, 137.3, 32, 53.3, 98.9, 19.5, 82.1, 14, 92.2, 
91.5, 8.3, 8.3, 19.4, 70.5, 126.2, 89.1, 86.7, 85.3, 134.8, 47.2, 
4.5, 28.3, 22.8, 150.6, 95.7, 91.2, 62.9, 58.4, 13.8, 15.1, 59.5, 
40.3, 96.9, 134.2, 88.2, -8.1, 62.1, 63.7, 2.1, 91.6, 27, 78.3, 
-0.7, 43.9, 63.8, 121, 50.2, 79.9, 81.5, 105.7, 12.8, 59.5, 84.8, 
9.5, 92.3, 40.9, 35.9, 5, 72.4, 49.8, 47)
pistola2 <- c(6.2, 143, 1.2, -28.3, 40, 63.1, 65.2, 15.1, 137.6, 64.9, 101, 
24.1, 53.3, 84.4, 107.9, -8.4, 72.1, 82.2, 43.3, 112.2, 92.7, 
26.3, 33, 56.3, 23.7, 31.1, 79.6, 18.1, 46.8, 24.1, 50.7, 48.2, 
39, 96.3, 58.4, 36, 40.2, 114, 63.1, 75.8, 71.6, 72.6, 72.3, 
80.8, 158.5, 12.4, 81.2, 42.8, -6.8, 44, 34.6, 106.5, 74.8, 100, 
23.9, 51.8, 86.7, -6.9, 13.2, 50.6, 90, 42, 79.5, 95.7, 71, 78.3, 
80.8, 69.7, 1.6, 71.4, 115.5, 109.7, 36.6, 75.8, 64.7, 31.9, 
43.4, 110.9, 137.2, 112, 42.6, 105, 51.8, 60.9, -11.9, 79.9, 
83.4, 82.8, 14.5, 70.6, 103.6, 14, 50.9, 70, 91.6, 42.9, 43.6, 
92.2, 97.6, 83, 109.1, -3.6, 51.2, 85.1, 59.5, 51.1, 35.9, 72.7, 
41, 69.5, 1.4, 77.9, -47.2, 35.6, 98.1, 40.8, 105.9, -16, 44.4, 
19.9, 67.7, 50.1, 41.3, 70.6, 122.1, 135.4, 113.3, 3.1, 48.4, 
101.2, -14.3, 42.7, 19.1, 82.9, 109.5, 46.7, -10.7, 60.1, 132.1, 
21.3, 35.1, 88.4, 64.4, -15.3, 75.4, 30.1, 95.5, 46.8, 3.4, 32.1, 
-30.8, 43.5, 38.2, 59.2, 32.3)
shapiro.test(pistola1)

## 
##  Shapiro-Wilk normality test
## 
## data:  pistola1
## W = 0.98591, p-value = 0.2188

shapiro.test(pistola2)

## 
##  Shapiro-Wilk normality test
## 
## data:  pistola2
## W = 0.99512, p-value = 0.889

# Ejercicio 11
# Cargamos los datos
programa1 <- c(0.1, 2.3, 1.9, 0.6, 1.3, 1.6, 0.7, 2.3, 0.5, 4.1, 2.7, 1.2, 
2.2, 1.4, 3.4, 2.6, 1, 0.8, -0.4, 0, 0.6, 0.1, 2.1, 0.9, 2, 0.9, 
1.2, 2.2, 1.8, 0.5, 2.6, 2.2, 0.5, 2.1, 2.1, 1.4, 1.5, 3.5, 1.1, 
2.5, 0.9, 1.3, 1.4, 1.5, 1.1, -0.2, 2.3, 1.6, 2.5, 1.4, 1.4, 
2.3, 1.6, 1.2, 2.3, 0.8, 2.3, 2.8, 2.4, 2.2, 1.4, 2.2, -0.6, 
3.1, 0.6, 2.2, -0.9, 1.1, 0.9, 2.4, 0.3, 1.5, 1.6, -0.2, 0.1, 
1.3, 1, 0.1, 3.4, 1.1, 2.7, 2.3, 2.9, 2.8, 2.8, 0.3, 0.9, 2.4, 
1.7, 2.1, 1.9, 0.7, 0.8, 1.3, 1.1, 3.2, 0.8, 1.9, 1.9, 2.8)
programa2 <- c(0.8, 2.1, 1.1, 3, 1.1, 0.9, 1.9, 0.2, 2, 0.4, 2.3, -0.2, 0.6, 
1.1, 0.2, 1.3, 0.6, 1.7, -0.2, 2.4, 1.7, 1, 1.7, 1.5, 0.6, -0.6, 
0.6, 2.3, -0.5, 0, 0.5, 0.8, 2.5, 0.7, 0.6, 0.6, 2.5, 1, 0.2, 
0.8, 0.4, 1.4, -0.1, 1.2, 1.4, 1.4, 0.2, -0.2, 1.9, -0.3, -0.3, 
3.2, -0.1, -1.6, 2.2, 2, 1.1, 0.1, 1.4, -0.4, 0.1, 0.5, -0.3, 
1.9, 0.3, 1.5, -0.8, 1.3, -2.3, -0.2, 1.1, 0.4, 0.4, 2.3, 1.6, 
0.5, 2, 0.7, 1, 0.6, 0, 1.9, 2.7, 0.2, 1.2, 0.8, -1.4, 1.3, 1, 
1.7, 1.2, 0.6, 1.2, 1.6, 1, 1.7, 0, 1.3, 1.1, 0.6)
shapiro.test(programa1)

## 
##  Shapiro-Wilk normality test
## 
## data:  programa1
## W = 0.9928, p-value = 0.8756

shapiro.test(programa2)

## 
##  Shapiro-Wilk normality test
## 
## data:  programa2
## W = 0.9885, p-value = 0.5458

# Ejercicio 12
# Cargamos los datos
hombres <- c(10.4,8.9,11.7,12.0,8.7,9.4,9.8,9.0,9.2,9.7,9.1,8.8,7.9,9.9,10.0,10.1,9.0,11.4,8.7,9.6,9.2,9.7,8.9,9.2,9.4,9.7,8.9,9.3,10.4,11.9,9.0,12.0,9.6,9.2,9.9,9.0)
mujeres <- c(9.2,7.7,11.9,6.2,9.0,8.4,6.9,7.6,7.4,8.0,9.9,6.7,8.4,9.3,9.1,8.7,9.2,9.1,8.4,9.6,7.7,9.0,9.0,8.4)
shapiro.test(hombres)

## 
##  Shapiro-Wilk normality test
## 
## data:  hombres
## W = 0.86556, p-value = 0.0004434

shapiro.test(mujeres)

## 
##  Shapiro-Wilk normality test
## 
## data:  mujeres
## W = 0.94688, p-value = 0.2316

# Test 
wilcox.test(hombres,mujeres)

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  hombres and mujeres
## W = 683, p-value = 0.0001526
## alternative hypothesis: true location shift is not equal to 0

# Ejercicio 13
# Cargamos los datos
origen1 <- c(3.8,3.5,4.1,2.5,3.6,4.3,2.1,2.9,3.2,3.7,2.8,2.7)
origen2 <- c(1.8,2.2,1.3,5.1,4.0,4.7,3.3,4.3,4.2,2.5,5.4,4.6)
shapiro.test(origen1)

## 
##  Shapiro-Wilk normality test
## 
## data:  origen1
## W = 0.97273, p-value = 0.9372

shapiro.test(origen2)

## 
##  Shapiro-Wilk normality test
## 
## data:  origen2
## W = 0.92763, p-value = 0.3557

Ejercicio 20. Utiliza el test no paramétrico adecuado para resolver los problemas inferenciales planteados en los ejercicios 14 a 18.

# Ejercicio 14
# Cargamos los datos
inicio <- c(10.2,10.5,10.3,9.8,10.6,10.7,10.2,10.0,10.8,10.6)
final <- c(9.8,9.6,10.1,10.2,10.1,9.7,9.5,9.6,9.8,9.8)
wilcox.test(inicio, final,paired = TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  inicio and final
## V = 52.5, p-value = 0.0124
## alternative hypothesis: true location shift is not equal to 0

# Ejercicio 15
# Cargamos los datos
modoA <- c(46,39,40,37,32,26,21,23,20,17,13,15,11,8)
modoB <- c(37,42,37,38,27,19,20,17,20,12,12,9,7,2)
wilcox.test(modoA, modoB,paired = TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  modoA and modoB
## V = 84.5, p-value = 0.006958
## alternative hypothesis: true location shift is not equal to 0

# Ejercicio 16
# Cargamos los datos
postal <- c(3,4,5,4,8,9,7,10,9,9)
privado <- c(2,2,3,5,4,6,9,6,7,6)
wilcox.test(postal, privado,paired = TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  postal and privado
## V = 49, p-value = 0.03086
## alternative hypothesis: true location shift is not equal to 0

# Ejercicio 18
# Cargamos los datos
catalogoA <- c(10.8,13.4,8.9,10.6,17.0,14.1,11.2,13.4,9.9,10.7)
catalogoB <- c(11.3,15.0,9.9,10.0,17.7,12.6,11.8,13.7,10.4,9.9)
wilcox.test(catalogoA, catalogoB,paired = TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  catalogoA and catalogoB
## V = 20, p-value = 0.4752
## alternative hypothesis: true location shift is not equal to 0

Ejercicios de aplicación

Estos ejercicios sirven para pensar en diferentes posibilidades de análisis inferencial (intervalo de confianza y contraste de hipótesis) sin haber analizado los datos muestrales. En los contrastes de hipótesis es necesario establece ambas hipótesis y describir las posibles conclusiones de ese contraste.

Antes de comenzar es necesario tener en cuenta ciertos aspecto técnicos a la hora de resolver las situaciones inferenciales. Si tenemos un banco de datos donde en una columna, X, tenemos la variable de interés y en otra columna, Y, tenemos almacenado el tratamiento al que se ha sometido cada sujeto (dos posibles tratamientos), el t.test de comparación de dos poblaciones se puede escribir como: t.test(X~Y), para indicar que la varaible X se debe dividir y comparar según los dos grupos definidos por Y.

Ejercicio 1. Para el banco de datos Airquality descrito en la Unidad 1, define tres situaciones que requieran un procedimiento inferencial y obtén los resultados de dichos análisis.

Airquality (Chambers et al. 1983).

Los datos para este ejemplo se obtuvieron del Departamento de Conservación del Estado de Nueva York (datos sobre el ozono) y del Servicio Meteorológico Nacional (datos meteorológicos). Los datos recogidos son las lecturas diarias de los siguientes valores de calidad del aire desde el 1 de mayo de 1973 y el 30 de septiembre de 1973 (153 días en total):

Ozone: ozono medio en partes por billón de 13:00 a 15:00 horas en la Isla Roosevelt.
Solar.R: Radiación solar en Langleys en la banda de frecuencia 4000-7700 Angstroms de 08:00 a 12:00 horas en Central Park.
Wind: Velocidad media del viento en millas por hora a las 07:00 y las 10:00 horas en el Aeropuerto La Guardia.
Temp: Temperatura máxima diaria en grados Fahrenheit en el Aeropuerto La Guardia.
Month: Mes del año en código numérico.
Temp: Día de la semana en código numérico.

##      Ozone           Solar.R           Wind             Temp      
##  Min.   :  1.00   Min.   :  7.0   Min.   : 1.700   Min.   :56.00  
##  1st Qu.: 18.00   1st Qu.:115.8   1st Qu.: 7.400   1st Qu.:72.00  
##  Median : 31.50   Median :205.0   Median : 9.700   Median :79.00  
##  Mean   : 42.13   Mean   :185.9   Mean   : 9.958   Mean   :77.88  
##  3rd Qu.: 63.25   3rd Qu.:258.8   3rd Qu.:11.500   3rd Qu.:85.00  
##  Max.   :168.00   Max.   :334.0   Max.   :20.700   Max.   :97.00  
##  NA's   :37       NA's   :7                                       
##      Month            Day      
##  Min.   :5.000   Min.   : 1.0  
##  1st Qu.:6.000   1st Qu.: 8.0  
##  Median :7.000   Median :16.0  
##  Mean   :6.993   Mean   :15.8  
##  3rd Qu.:8.000   3rd Qu.:23.0  
##  Max.   :9.000   Max.   :31.0  
##

Ejercicio 2. Para el banco de datos Puromycin descrito en la Unidad 1, define tres situaciones que requieran un procedimiento inferencial y obtén los resultados de dichos análisis.

El banco de datos de Puromycin contiene 23 mediciones sobre la velocidad de reacción enzimática frente a la concentración de sustrato para células tratadas o no tratadas con Puromicina. Las variables registradas son:

conc: Concentración de sustrato en partes por millón (ppm).
rate: Velocidad instántanea de reacción (recuentos/min/min).
state: Estado (Tratatado o no tratado con Puromicina.

##       conc             rate             state   
##  Min.   :0.0200   Min.   : 47.0   treated  :12  
##  1st Qu.:0.0600   1st Qu.: 91.5   untreated:11  
##  Median :0.1100   Median :124.0                 
##  Mean   :0.3122   Mean   :126.8                 
##  3rd Qu.:0.5600   3rd Qu.:158.5                 
##  Max.   :1.1000   Max.   :207.0

Ejercicio 3. Para el banco de datos NCBIRTH800 descrito en la Unidad 1, define tres situaciones que requieran un procedimiento inferencial y obtén los resultados de dichos análisis.

El banco de datos presenta la información referida al nacimiento y mortalidad infantil de 800 niños nacidos en el estado de Carolina del Norte. Las variables consideradas en el estudio son:

plural: Número de hijos nacidos del embarazo.
sex: Sexo del bebe.
mage: Edad de la madre.
weeks: Semanas completas de gestación.
marital: Estado matrimonial (“married”=1; “not married”=2).
racemom: Raza de la madre (“other non white”=0,“White”=1,“Black”=2,“America indian”=3,“Chinese”=4,“Hawaiian”=5,“Filipino”=6,“Other asian”=7).
hispmom: Madre de origen hispánico (“Cuban”=C,“Mexican”=M,“Non-Hispanic”=N,“Other”=O,“Puerto Rican”=P,“Central/South american”=S,“Not classificable”=U).
gained: Peso ganado durante el embarazo (en libras).
smoke: Madre fumadora (“Yes”=1,“No”=0).
drink: Madre bebedora (“Yes”=1,“No”=0).
tounces: Peso del bebe (en onzas).
tgrams: Peso del bebe (en gramos).
low: Bebe de poco peso (“Yes”=1,“No”=0).
premie: Bebe prematuro (“Yes”=1,“No”=0).

##      plural          sex           mage           weeks      
##  Min.   :1.000   male  :418   Min.   :15.00   Min.   :22.00  
##  1st Qu.:1.000   female:382   1st Qu.:22.00   1st Qu.:38.00  
##  Median :1.000                Median :26.00   Median :39.00  
##  Mean   :1.032                Mean   :26.91   Mean   :38.61  
##  3rd Qu.:1.000                3rd Qu.:32.00   3rd Qu.:40.00  
##  Max.   :2.000                Max.   :42.00   Max.   :45.00  
##                                               NA's   :1      
##         marital              racemom                      hispmom   
##  married    :537   White         :604   Cuban                 :  2  
##  not married:263   Black         :169   Mexican               : 55  
##                    America indian: 12   Non-Hispanic          :718  
##                    Chinese       :  2   Other                 :  2  
##                    Other asian   :  1   Puerto Rican          :  7  
##                    Other         : 12   Central/South american: 16  
##                                                                     
##      gained       smoke      drink        tounces          tgrams      
##  Min.   : 0.00   No  :684   No  :794   Min.   : 12.0   Min.   : 340.2  
##  1st Qu.:20.00   Yes :114   Yes :  4   1st Qu.:106.0   1st Qu.:3005.1  
##  Median :30.00   NA's:  2   NA's:  2   Median :118.0   Median :3345.3  
##  Mean   :30.58                         Mean   :116.4   Mean   :3299.3  
##  3rd Qu.:40.00                         3rd Qu.:130.0   3rd Qu.:3685.5  
##  Max.   :95.00                         Max.   :169.0   Max.   :4791.1  
##  NA's   :23                                                            
##   low      premie   
##  No :730   No :707  
##  Yes: 70   Yes: 93  
##                     
##                     
##                     
##                     
##

Ejercicio 4. Para el banco de datos PCKDATA descrito en la Unidad 1, define tres situaciones que requieran un procedimiento inferencial y obtén los resultados de dichos análisis.

Los datos corresponden a las mediciones de las niveles de la creatina fosfoquinasa para dos grupos de sujetos. En total hay 2010 sujetos y las variables consideradas en el estudio son:

SUBJ: Sujeto.
Grupo: Grupo al que se encuentra asignado cada sujeto del estudio (“A” o “B”).
cretine: Nivel de creatinina para cada sujeto.

##       SUBJ         Grupo              creatine    
##  Min.   :   1   Length:2010        Min.   : 13.0  
##  1st Qu.: 252   Class :character   1st Qu.:114.0  
##  Median : 503   Mode  :character   Median :143.0  
##  Mean   : 503                      Mean   :143.8  
##  3rd Qu.: 754                      3rd Qu.:175.0  
##  Max.   :1005                      Max.   :334.0

Chambers, J. M., W. S. Cleveland, B. Kleiner, and P. A. Tukey. 1983. Graphical Methods for Data Analysis. Wadsworth.

Ejercicios de inferencia estadística

Ejercicios

Ejercicios de aplicación

Airquality (Chambers et al. 1983).