Erika Melissa Rodriguez Martin
Problema 2. Se realizó una investigación para conocer el Índice de Masa Corporal (IMC) de cuatro poblaciones distintas ubicadas en el Sur de Jalisco, una vez creado el estudio y el diseño, el tamaño de muestra arrojo la cantidad de 30 personas
Tabla 2. MUNICIPIOS DEL SUR DE JALISCO
#Tabla 2. MUNICIPIOS DEL SUR DE JALISCO
tuxpan <- c(27,25,23,23,30,24,20,25,26,27,32,24,22,28,25,22,23,26,26,30,25,21,25,25,25,23,29,26,26,24)
tamazula <- c(25,18,25,19,24,26,25,25,24,26,24,22,26,21,25,23,25,26,20,23,20,26,23,30,31,24,27,27,26,23)
zapotlan <- c(25,26,27,30,21,29,31,27,22,26,19,21,23,26,26,25,27,28,21,26,23,28,20,25,28,26,19,23,29,26)
zapotiltic <- c(24,23,30,28,27,25,24,20,24,21,29,23,26,21,21,17,23,20,25,21,24,21,30,24,23,20,25,29,27,27)
grupo <- factor(rep(c("Tuxpan","Tamazula","Zapotlan","Zapotiltic"), each=30))
imc <- c(tuxpan, tamazula, zapotlan, zapotiltic)
#1.Pruebas de normalidad
library(moments)
#_______________________Metodo analitico______________________
#Asimetria y curtosis
kurtosis(tuxpan) #Curtosis
## [1] 3.167313
skewness(tuxpan) #Coeficiente de asimetría
## [1] 0.4872608
kurtosis(tamazula) #Curtosis
## [1] 3.343039
skewness(tamazula) #Coeficiente de asimetría
## [1] -0.08539975
kurtosis(zapotlan) #Curtosis
## [1] 2.246037
skewness(zapotlan) #Coeficiente de asimetría
## [1] -0.3196904
kurtosis(zapotiltic) #Curtosis
## [1] 2.346439
skewness(zapotiltic) #Coeficiente de asimetría
## [1] 0.09705184
-TUXPAN
#_______________________Metodo grafico_________________________
#Graficos para normalidad
#Linea roja, histograma
#_____TUXPAN
qqnorm(tuxpan)
qqline(tuxpan)
xb=mean(tuxpan)
s=sd(tuxpan)
hist(tuxpan, freq = F, col = "green", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .30), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
-TAMAZULA
#_____TAMAZULA
qqnorm(tamazula)
qqline(tamazula)
xb=mean(tamazula)
s=sd(tamazula)
hist(tamazula, freq = F, col = "pink", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .30), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
-ZAPOTLÁN
#_____ZAPOTLAN
qqnorm(zapotlan)
qqline(zapotlan)
xb=mean(zapotlan)
s=sd(zapotlan)
hist(zapotlan, freq = F, col = "orange", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .30), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
-ZAPOTILTIC
#_____ZAPOTILTIC
qqnorm(zapotiltic)
qqline(zapotiltic)
xb=mean(zapotiltic)
s=sd(zapotiltic)
hist(zapotiltic, freq = F, col = "yellow", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .30), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
-PRUEBAS FORMALES Si el valor p es mayor a 0.05, se asume que los datos siguen una distribución normal
#____________________________Pruebas formales____________________
#Shapiro Wilk.Recomendable a MENOR de 50 datos. Si el valor p es mayor a 0.05, se asume que los datos siguen una distribución normal.
shapiro.test(tuxpan)
##
## Shapiro-Wilk normality test
##
## data: tuxpan
## W = 0.96395, p-value = 0.3892
shapiro.test(tamazula)
##
## Shapiro-Wilk normality test
##
## data: tamazula
## W = 0.95488, p-value = 0.228
shapiro.test(zapotlan)
##
## Shapiro-Wilk normality test
##
## data: zapotlan
## W = 0.95285, p-value = 0.2014
shapiro.test(zapotiltic)
##
## Shapiro-Wilk normality test
##
## data: zapotiltic
## W = 0.9644, p-value = 0.3992
#2.Pruebas de Homocedasticidad
library(car)
## Loading required package: carData
leveneTest(imc ~ grupo)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 0.681 0.5654
## 116
boxplot(imc ~ grupo, col=c("green","pink","orange","yellow"))
#3.Prueba ANOVA. Respecto a lo anterior, ambos supuestos se cumplen entonces puede usarse prueba anova. Si p < 0.05, existen diferencias significativas.
anova <- aov(imc ~ grupo)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## grupo 3 30.1 10.031 1.081 0.36
## Residuals 116 1076.2 9.278
#extra_anova
glm_modelo <- glm(imc ~ grupo, family = gaussian(link = "identity"))
summary(glm_modelo)
##
## Call:
## glm(formula = imc ~ grupo, family = gaussian(link = "identity"))
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 24.3000 0.5561 43.696 <2e-16 ***
## grupoTuxpan 0.9333 0.7865 1.187 0.238
## grupoZapotiltic -0.2333 0.7865 -0.297 0.767
## grupoZapotlan 0.8000 0.7865 1.017 0.311
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 9.277874)
##
## Null deviance: 1106.3 on 119 degrees of freedom
## Residual deviance: 1076.2 on 116 degrees of freedom
## AIC: 613.79
##
## Number of Fisher Scoring iterations: 2
#Prueba Post-Hoc
TukeyHSD(anova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = imc ~ grupo)
##
## $grupo
## diff lwr upr p adj
## Tuxpan-Tamazula 0.9333333 -1.116714 2.9833803 0.6364219
## Zapotiltic-Tamazula -0.2333333 -2.283380 1.8167136 0.9908727
## Zapotlan-Tamazula 0.8000000 -1.250047 2.8500470 0.7397154
## Zapotiltic-Tuxpan -1.1666667 -3.216714 0.8833803 0.4507644
## Zapotlan-Tuxpan -0.1333333 -2.183380 1.9167136 0.9982579
## Zapotlan-Zapotiltic 1.0333333 -1.016714 3.0833803 0.5560019
#4.Pruebas de correlacion
cor(tuxpan, tamazula)
## [1] -0.01810688
cor(tuxpan, zapotlan)
## [1] -0.5322067
cor(tuxpan, zapotiltic)
## [1] 0.1633216
cor(tamazula, zapotlan)
## [1] 0.1334118
cor(tamazula, zapotiltic)
## [1] -0.0202623
cor(zapotlan, zapotiltic)
## [1] -0.2962594
#5. Ecuacion de regresion con analisis de residuos
modelo <- lm(zapotlan ~ tuxpan)
summary(modelo)
##
## Call:
## lm(formula = zapotlan ~ tuxpan)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.2484 -2.0664 0.3436 2.4346 4.3876
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 41.1483 4.8514 8.482 3.19e-09 ***
## tuxpan -0.6360 0.1912 -3.326 0.00247 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.793 on 28 degrees of freedom
## Multiple R-squared: 0.2832, Adjusted R-squared: 0.2576
## F-statistic: 11.06 on 1 and 28 DF, p-value: 0.002468
par(mfrow=c(2,2))
plot(modelo)
Justifique a que conclusión llega: Se realizaron pruebas de normalidad para idendificar si los datos presentaban normalidad y homocedasticidad con el proposito de elegir el analisis correspondiente. Los graficos y pruebas formales mostraron que los datos podrían analizarse con ANOVA. Dicho ANOVA mostró que no existen diferencias significativas entre los datos de IMC de las diferentes localidades (p=0.36). Además, agruegué un GLM que confirmó lo anterior.La prueba de Tukey tampoco encontró diferencias entre los grupos (datos mayores a 0.05). Posteriormente, las correlaciones resultaron cercanas a 0, a excepcion de Tuxpan y Zapotlán (r= - 0.53). El lm resultó estadisticamente significativo. Aunque en general no hay diferencias en los grupos si hay una relacion especifica de variables.
1. ¿Existe diferencia significativa entre el IMC de las muestras? No existe diferencia significativa entre el IMC En caso de existir, ¿Cuál es la localidad diferente? 2. ¿Cuáles son las localidades que mejor se correlacionan? Tuxpan y Zapotlan (relacion negativa,r= - 0.53) 3. ¿Cuál es la ecuación que modela el comportamiento del IMC de esas dos localidades? Zapotlan = 41.1483 - 0.6360 (Tuxpan) 4. A qué conclusión llega Las localidades presentan valores de IMC similares. Se encontró una relación negativa entre Tuxpan y Zapotlan indicando que cuando la del primero aumenta la de Zapotlan disminuye. Justifique todos sus resultados.