Problema:En un estudio, 10000 personas siguieron una dieta de adelgazamiento durante 6 meses,6500 de ellas perdieron más de 3 kg de peso durante los 6 meses. ¿Permiten los datos afirmar, con el nivel de significación de 0.05, que el 70% de la población perderá más de 3 kg de peso de seguir la misma dieta durante el mismo tiempo?. En otras palabras \[H_{0}:p_{adelgazamiento}=0.7\];
\[H_{1}:p_{adelgazamiento}\neq 0.7\]
prop.test(6500, 10000, p = 0.7, alternative="two.sided",correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: 6500 out of 10000, null probability 0.7
## X-squared = 119.05, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.7
## 95 percent confidence interval:
## 0.6405956 0.6592892
## sample estimates:
## p
## 0.65
prop.test(6500, 10000, p = 0.7, alternative="less",correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: 6500 out of 10000, null probability 0.7
## X-squared = 119.05, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is less than 0.7
## 95 percent confidence interval:
## 0.0000000 0.6578039
## sample estimates:
## p
## 0.65
library("car")
Cargar los datos Chile del paquete car, los llamamos datos, y luego a imprimir los qo primeros datos
datos<- Chile
head(datos,10)
## region population sex age education income statusquo vote
## 1 N 175000 M 65 P 35000 1.00820 Y
## 2 N 175000 M 29 PS 7500 -1.29617 N
## 3 N 175000 F 38 P 15000 1.23072 Y
## 4 N 175000 F 49 P 35000 -1.03163 N
## 5 N 175000 F 23 S 35000 -1.10496 N
## 6 N 175000 F 28 P 7500 -1.04685 N
## 7 N 175000 M 26 PS 35000 -0.78626 N
## 8 N 175000 F 24 S 15000 -1.11348 N
## 9 N 175000 F 41 P 15000 -1.01292 U
## 10 N 175000 M 41 P 15000 -1.29617 N
En este base de datos hay información faltante, en algunos casos porque no se responde a la pregunta voto, por ejemplo. Por lo tanto, antes de comenzar a trabajar debemos eliminar de mis datos los valores etiquetados NA que representa información faltante.
datos<- na.omit(datos)
names(datos)
## [1] "region" "population" "sex" "age" "education"
## [6] "income" "statusquo" "vote"
Tablas de Contingencia Completar la siguiente tabla y teniendo en cuenta los resultados plantear una prueba con respecto a esta tabla: table(Chilesex;Chileeducation)
tabla1<- table(datos$vote,datos$sex)
tabla1
##
## F M
## A 97 80
## N 355 512
## U 339 212
## Y 459 377
sum(tabla1[,])
## [1] 2431
sum(tabla1[,1])#total de la columna 1
## [1] 1250
sum(tabla1[,2])#total columna2
## [1] 1181
sum(tabla1[2,])#total de la fila del NO
## [1] 867
512/2431
## [1] 0.2106129
Teniendo en cuenta la anterior tabla, se puede ver que la proporción de hombres (M) que votaron por el NO fue de 512/2431 aproximadamente el 21.06%. Cuál es la proporción de mujeres que no votaron Cuál es la proporción de mujeres que estan indecisas (U) Cuál es la proporción de hombres que si votaron Realice una tabla de contingencia con las variables voto vs region Se plantee una prueba de hipotesis nula, para verifcar que la proporción de votantes por el NO es superior al 30%. Plantee la hipotesis nula y la alterna
prop.test(867, 2431, p = 0.3, alternative="greater",correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: 867 out of 2431, null probability 0.3
## X-squared = 37.142, df = 1, p-value = 5.492e-10
## alternative hypothesis: true p is greater than 0.3
## 95 percent confidence interval:
## 0.3408308 1.0000000
## sample estimates:
## p
## 0.3566434
Según el resultado anterior con p-value = 5.492e-10 se rechaza o no la hipotesis nula Plantee y corra una prueba de hipotesis para verificar si la proporción de mujeres(F) que votaron si(Y) es menor del 0.6. Cuál es el resultado de la prueba?
En este caso se quiere comparar las medias dadas dos poblaciones independientes
maiznormal <- c(380, 321, 366, 356, 283, 349, 402, 462, 356, 410, 329,
399, 350, 384, 316, 272, 345, 455, 360, 431,345,540)
maiztransgenico <- c(361, 447, 401, 375, 434, 403, 393, 426, 406, 318, 467,
407, 427, 420, 477, 392, 430, 339, 410, 326,435,455)
Los datos anteriores corresponden a la producción de dos poblaciones independientes de Maiz sin tratamiento y con tratamiento
Teniendo los boxplot, cree que hay diferencias significativas en la producción de Maiz debido al factor tratamiento?
boxplot(maiznormal, maiztransgenico,col = "red", names = c("Normal", "Transgenico"))
summary(maiznormal)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 272.0 345.0 358.0 373.2 401.2 540.0
summary(maiztransgenico)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 318.0 392.2 408.5 406.8 433.0 477.0
Observe que , la ganancia media de peso de los pollos alimentados con maíz transgénico es superior a la de los alimentados con maíz normal pero, ¿es esta diferencia entre las dos ganancias medias significativa? Las varianzas muestrales no parecen ser muy distintas? ¿Es aceptable suponer que las varianzas poblacionales son iguales?
\[H_{0}:\mu_{1}=\mu_{2}\]
$$H_{1}:\mu_{1}\neq \mu_{2}$$
Para realizar esta prueba de contranste entre dos poblaciones independientes(el peso de pollos alimentados con maiz sin tratamiento y con tratamiento), podemos suponer primero que las varianzas aunque desconocidas son iguales
t.test(maiznormal, maiztransgenico, var.equal = TRUE,alternative="two.sided",confi.level=0.95)
##
## Two Sample t-test
##
## data: maiznormal and maiztransgenico
## t = -2.1105, df = 42, p-value = 0.04081
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -65.621620 -1.469289
## sample estimates:
## mean of x mean of y
## 373.2273 406.7727
Teniendo en cuenta que p-value = 0.04081 cuál es el resultado de la prueba? Cuál es la conclusión, el tratamiento en el maíz influye en el aumento en el peso de los pollos?
t.test(maiznormal, maiztransgenico, var.equal = FALSE, alternative="two.sided",confi.level=0.95)
##
## Welch Two Sample t-test
##
## data: maiznormal and maiztransgenico
## t = -2.1105, df = 37.485, p-value = 0.04154
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -65.736482 -1.354427
## sample estimates:
## mean of x mean of y
## 373.2273 406.7727
El anterior resultado es suponiendo que las varianzas son diferentes, cuál es el resultado de la prueba? Cambia con respecto a lo anterior? Ahora si suponemos que queremos verificar si la ganacia en peso es menor con maiz normal que con maíz tratado. Es decir: \[H_{0}:\mu_{1}\leq\mu_{2}\] \[H_{1}:\mu_{1}> \mu_{2}\]
t.test(maiznormal, maiztransgenico,alternative="greater", var.equal = TRUE,confi.level=0.95)
##
## Two Sample t-test
##
## data: maiznormal and maiztransgenico
## t = -2.1105, df = 42, p-value = 0.9796
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -60.27905 Inf
## sample estimates:
## mean of x mean of y
## 373.2273 406.7727
Teniendo en cuenta los resultados de la prueba se puede afirmar que los pollos aliementados con maiz normal gana menos peso, que si los alimentamos con maiz tratado?