Erika Melissa Rodriguez Martin

Problema 2. Se realizó una investigación para conocer el Índice de Masa Corporal (IMC) de cuatro poblaciones distintas ubicadas en el Sur de Jalisco, una vez creado el estudio y el diseño, el tamaño de muestra arrojo la cantidad de 30 personas

Tabla 2. MUNICIPIOS DEL SUR DE JALISCO

#Tabla 2. MUNICIPIOS DEL SUR DE JALISCO
tuxpan <- c(27,25,23,23,30,24,20,25,26,27,32,24,22,28,25,22,23,26,26,30,25,21,25,25,25,23,29,26,26,24)
tamazula <- c(25,18,25,19,24,26,25,25,24,26,24,22,26,21,25,23,25,26,20,23,20,26,23,30,31,24,27,27,26,23)
zapotlan <- c(25,26,27,30,21,29,31,27,22,26,19,21,23,26,26,25,27,28,21,26,23,28,20,25,28,26,19,23,29,26)
zapotiltic <- c(24,23,30,28,27,25,24,20,24,21,29,23,26,21,21,17,23,20,25,21,24,21,30,24,23,20,25,29,27,27)

grupo <- factor(rep(c("Tuxpan","Tamazula","Zapotlan","Zapotiltic"), each=30))
imc <- c(tuxpan, tamazula, zapotlan, zapotiltic)
  1. PRUEBAS DE NORMALIDAD -Método analítico
#1.Pruebas de normalidad
library(moments)

#_______________________Metodo analitico______________________
#Asimetria y curtosis
kurtosis(tuxpan) #Curtosis 
## [1] 3.167313
skewness(tuxpan) #Coeficiente de asimetría 
## [1] 0.4872608
kurtosis(tamazula) #Curtosis 
## [1] 3.343039
skewness(tamazula) #Coeficiente de asimetría 
## [1] -0.08539975
kurtosis(zapotlan) #Curtosis 
## [1] 2.246037
skewness(zapotlan) #Coeficiente de asimetría 
## [1] -0.3196904
kurtosis(zapotiltic) #Curtosis 
## [1] 2.346439
skewness(zapotiltic) #Coeficiente de asimetría 
## [1] 0.09705184

-TUXPAN

#_______________________Metodo grafico_________________________
#Graficos para normalidad
#Linea roja, histograma

#_____TUXPAN
qqnorm(tuxpan)
qqline(tuxpan)

xb=mean(tuxpan)
s=sd(tuxpan)
hist(tuxpan, freq = F, col = "green", xlab = "Balance", main = "",
     xlim = c(xb-4*s, xb+4*s), ylim = c(0, .30), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)

-TAMAZULA

#_____TAMAZULA
qqnorm(tamazula)
qqline(tamazula)

xb=mean(tamazula)
s=sd(tamazula)
hist(tamazula, freq = F, col = "pink", xlab = "Balance", main = "",
     xlim = c(xb-4*s, xb+4*s), ylim = c(0, .30), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)

-ZAPOTLÁN

#_____ZAPOTLAN
qqnorm(zapotlan)
qqline(zapotlan)

xb=mean(zapotlan)
s=sd(zapotlan)
hist(zapotlan, freq = F, col = "orange", xlab = "Balance", main = "",
     xlim = c(xb-4*s, xb+4*s), ylim = c(0, .30), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)

-ZAPOTILTIC

#_____ZAPOTILTIC
qqnorm(zapotiltic)
qqline(zapotiltic)

xb=mean(zapotiltic)
s=sd(zapotiltic)
hist(zapotiltic, freq = F, col = "yellow", xlab = "Balance", main = "",
     xlim = c(xb-4*s, xb+4*s), ylim = c(0, .30), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)

-PRUEBAS FORMALES Si el valor p es mayor a 0.05, se asume que los datos siguen una distribución normal

#____________________________Pruebas formales____________________
#Shapiro Wilk.Recomendable a MENOR de 50 datos. Si el valor p es mayor a 0.05, se asume que los datos siguen una distribución normal.
shapiro.test(tuxpan)
## 
##  Shapiro-Wilk normality test
## 
## data:  tuxpan
## W = 0.96395, p-value = 0.3892
shapiro.test(tamazula)
## 
##  Shapiro-Wilk normality test
## 
## data:  tamazula
## W = 0.95488, p-value = 0.228
shapiro.test(zapotlan)
## 
##  Shapiro-Wilk normality test
## 
## data:  zapotlan
## W = 0.95285, p-value = 0.2014
shapiro.test(zapotiltic)
## 
##  Shapiro-Wilk normality test
## 
## data:  zapotiltic
## W = 0.9644, p-value = 0.3992
  1. PRUEBAS DE HOMOCEDASTICIDAD
#2.Pruebas de Homocedasticidad
library(car)
## Loading required package: carData
leveneTest(imc ~ grupo)
## Levene's Test for Homogeneity of Variance (center = median)
##        Df F value Pr(>F)
## group   3   0.681 0.5654
##       116
boxplot(imc ~ grupo, col=c("green","pink","orange","yellow"))

  1. PRUEBA ANOVA Respecto a lo anterior, ambos supuestos se cumplen entonces puede usarse prueba anova. Si p < 0.05, existen diferencias significativas.
#3.Prueba ANOVA. Respecto a lo anterior, ambos supuestos se cumplen entonces puede usarse prueba anova. Si p < 0.05, existen diferencias significativas.

anova <- aov(imc ~ grupo)
summary(anova)
##              Df Sum Sq Mean Sq F value Pr(>F)
## grupo         3   30.1  10.031   1.081   0.36
## Residuals   116 1076.2   9.278
#extra_anova
glm_modelo <- glm(imc ~ grupo, family = gaussian(link = "identity"))
summary(glm_modelo)
## 
## Call:
## glm(formula = imc ~ grupo, family = gaussian(link = "identity"))
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      24.3000     0.5561  43.696   <2e-16 ***
## grupoTuxpan       0.9333     0.7865   1.187    0.238    
## grupoZapotiltic  -0.2333     0.7865  -0.297    0.767    
## grupoZapotlan     0.8000     0.7865   1.017    0.311    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 9.277874)
## 
##     Null deviance: 1106.3  on 119  degrees of freedom
## Residual deviance: 1076.2  on 116  degrees of freedom
## AIC: 613.79
## 
## Number of Fisher Scoring iterations: 2
#Prueba Post-Hoc
TukeyHSD(anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = imc ~ grupo)
## 
## $grupo
##                           diff       lwr       upr     p adj
## Tuxpan-Tamazula      0.9333333 -1.116714 2.9833803 0.6364219
## Zapotiltic-Tamazula -0.2333333 -2.283380 1.8167136 0.9908727
## Zapotlan-Tamazula    0.8000000 -1.250047 2.8500470 0.7397154
## Zapotiltic-Tuxpan   -1.1666667 -3.216714 0.8833803 0.4507644
## Zapotlan-Tuxpan     -0.1333333 -2.183380 1.9167136 0.9982579
## Zapotlan-Zapotiltic  1.0333333 -1.016714 3.0833803 0.5560019
  1. PRUEBAS DE CORRELACIÓN
#4.Pruebas de correlacion
cor(tuxpan, tamazula)
## [1] -0.01810688
cor(tuxpan, zapotlan)
## [1] -0.5322067
cor(tuxpan, zapotiltic)
## [1] 0.1633216
cor(tamazula, zapotlan)
## [1] 0.1334118
cor(tamazula, zapotiltic)
## [1] -0.0202623
cor(zapotlan, zapotiltic)
## [1] -0.2962594
  1. ECUACIÓN DE REGRESIÓN CON ANÁLISIS DE RESIDUOS
#5. Ecuacion de regresion con analisis de residuos 
modelo <- lm(zapotlan ~ tuxpan)
summary(modelo)
## 
## Call:
## lm(formula = zapotlan ~ tuxpan)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2484 -2.0664  0.3436  2.4346  4.3876 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  41.1483     4.8514   8.482 3.19e-09 ***
## tuxpan       -0.6360     0.1912  -3.326  0.00247 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.793 on 28 degrees of freedom
## Multiple R-squared:  0.2832, Adjusted R-squared:  0.2576 
## F-statistic: 11.06 on 1 and 28 DF,  p-value: 0.002468
par(mfrow=c(2,2))
plot(modelo)

Justifique a que conclusión llega: Se realizaron pruebas de normalidad para idendificar si los datos presentaban normalidad y homocedasticidad con el proposito de elegir el analisis correspondiente. Los graficos y pruebas formales mostraron que los datos podrían analizarse con ANOVA. Dicho ANOVA mostró que no existen diferencias significativas entre los datos de IMC de las diferentes localidades (p=0.36). Además, agruegué un GLM que confirmó lo anterior.La prueba de Tukey tampoco encontró diferencias entre los grupos (datos mayores a 0.05). Posteriormente, las correlaciones resultaron cercanas a 0, a excepcion de Tuxpan y Zapotlán (r= - 0.53). El lm resultó estadisticamente significativo. Aunque en general no hay diferencias en los grupos si hay una relacion especifica de variables.

1. ¿Existe diferencia significativa entre el IMC de las muestras? No existe diferencia significativa entre el IMC En caso de existir, ¿Cuál es la localidad diferente? 2. ¿Cuáles son las localidades que mejor se correlacionan? Tuxpan y Zapotlan (relacion negativa,r= - 0.53) 3. ¿Cuál es la ecuación que modela el comportamiento del IMC de esas dos localidades? Zapotlan = 41.1483 - 0.6360 (Tuxpan) 4. A qué conclusión llega Las localidades presentan valores de IMC similares. Se encontró una relación negativa entre Tuxpan y Zapotlan indicando que cuando la del primero aumenta la de Zapotlan disminuye. Justifique todos sus resultados.