Problema 1

Se realizó una investigación para conocer el Índice de Masa Corporal (IMC) de cuatro poblaciones distintas ubicadas en el Sur de Jalisco, una vez creado el estudio y el diseño, el tamaño de muestra arrojo la cantidad de 30 personas. Los resultados se presentan en al Tabla 1.

Librerías

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.2.1     ✔ readr     2.2.0
## ✔ forcats   1.0.1     ✔ stringr   1.6.0
## ✔ ggplot2   4.0.3     ✔ tibble    3.3.1
## ✔ lubridate 1.9.5     ✔ tidyr     1.3.2
## ✔ purrr     1.2.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## 
## The following object is masked from 'package:dplyr':
## 
##     recode
## 
## The following object is masked from 'package:purrr':
## 
##     some
library(ggpubr)
library(corrplot)
## corrplot 0.95 loaded

Base de datos

Sayula <- c(25,25,29,27,25,29,29,29,25,29,29,29,25,25,29,29,31,31,29,27,25,25,27,29,31,29,31,29,25,29)

GomezFarias <- c(29,25,25,29,25,29,29,29,27,29,31,25,25,25,29,25,29,31,29,25,27,25,25,25,25,29,29,27,27,29)

Zacoalco <- c(29,29,29,29,29,27,27,25,29,25,31,29,25,29,27,29,25,25,29,27,27,27,25,31,25,29,29,25,27,25)

Techaluta <- c(27,31,27,25,27,25,29,27,27,25,29,29,25,25,25,25,25,29,29,25,29,27,25,25,31,29,25,25,31,25)

datos <- data.frame(
  Sayula,
  GomezFarias,
  Zacoalco,
  Techaluta
)

datos_largos <- pivot_longer(datos,
                             cols = everything(),
                             names_to = "Localidad",
                             values_to = "IMC")

Estadística descriptiva

datos_largos %>%
  group_by(Localidad) %>%
  summarise(
    Media = mean(IMC),
    Mediana = median(IMC),
    SD = sd(IMC),
    Minimo = min(IMC),
    Maximo = max(IMC)
  )
## # A tibble: 4 × 6
##   Localidad   Media Mediana    SD Minimo Maximo
##   <chr>       <dbl>   <dbl> <dbl>  <dbl>  <dbl>
## 1 GomezFarias  27.3      27  2.08     25     31
## 2 Sayula       27.9      29  2.15     25     31
## 3 Techaluta    26.9      27  2.13     25     31
## 4 Zacoalco     27.5      27  1.94     25     31

Pruebas de normalidad

Histogramas

ggplot(datos_largos, aes(x = IMC)) +
  geom_histogram(binwidth = 1, color="black", fill="skyblue") +
  facet_wrap(~Localidad) +
  theme_minimal()

QQ-Plots

ggqqplot(datos_largos,
         x = "IMC",
         facet.by = "Localidad")

Shapiro-Wilk

by(datos_largos$IMC,
   datos_largos$Localidad,
   shapiro.test)
## datos_largos$Localidad: GomezFarias
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.79961, p-value = 6.449e-05
## 
## ------------------------------------------------------------ 
## datos_largos$Localidad: Sayula
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.81358, p-value = 0.0001171
## 
## ------------------------------------------------------------ 
## datos_largos$Localidad: Techaluta
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.80207, p-value = 7.153e-05
## 
## ------------------------------------------------------------ 
## datos_largos$Localidad: Zacoalco
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.84349, p-value = 0.0004543

Homocedasticidad

Boxplots

ggplot(datos_largos,
       aes(x = Localidad,
           y = IMC,
           fill = Localidad)) +
  geom_boxplot() +
  theme_minimal()

Prueba de Levene

leveneTest(IMC ~ Localidad,
           data = datos_largos)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##        Df F value Pr(>F)
## group   3  0.1938 0.9005
##       116

ANOVA

modelo_anova <- aov(IMC ~ Localidad,
                    data = datos_largos)

summary(modelo_anova)
##              Df Sum Sq Mean Sq F value Pr(>F)
## Localidad     3   13.7   4.567   1.058   0.37
## Residuals   116  500.7   4.316

Correlaciones

correlaciones <- cor(datos)

correlaciones
##                  Sayula GomezFarias    Zacoalco   Techaluta
## Sayula       1.00000000  0.44029194 -0.19965949 -0.07738834
## GomezFarias  0.44029194  1.00000000 -0.09995974  0.03518802
## Zacoalco    -0.19965949 -0.09995974  1.00000000  0.14093991
## Techaluta   -0.07738834  0.03518802  0.14093991  1.00000000

Matriz de correlación

corrplot(correlaciones,
         method = "color",
         addCoef.col = "black")

Correlación de Pearson

cor.test(datos$Sayula,
         datos$GomezFarias,
         method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Sayula and datos$GomezFarias
## t = 2.5949, df = 28, p-value = 0.01489
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.0951093 0.6909588
## sample estimates:
##       cor 
## 0.4402919

Regresión lineal

modelo_regresion <- lm(GomezFarias ~ Sayula,
                       data = datos)

summary(modelo_regresion)
## 
## Call:
## lm(formula = GomezFarias ~ Sayula, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.6064 -1.0410  0.6763  1.2488  3.2488 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  15.3516     4.6049   3.334  0.00242 **
## Sayula        0.4276     0.1648   2.595  0.01489 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.904 on 28 degrees of freedom
## Multiple R-squared:  0.1939, Adjusted R-squared:  0.1651 
## F-statistic: 6.733 on 1 and 28 DF,  p-value: 0.01489

Análisis de residuos

par(mfrow=c(2,2))
plot(modelo_regresion)

Conclusiones

  1. ¿Existe diferencia significativa entre el IMC de las muestras? No En caso de existir, ¿Cuál es la localidad diferente? No hubo diferencias significativas

  2. ¿Cuáles son las localidades que mejor se correlacionan? Existe un correlacion positiva debil entre las localidades de Sayula y Gomez Farias (0.44)

  3. ¿Cuál es la ecuación que modela el comportamiento del IMC de esas dos localidades? Gomez Farias=15.35+0.42*Sayula

  4. A qué conclusión llega. No existieron diferencias significativas entre el IMC de las regiones. Se identifico una correlacion positiva debil entre los datos de Gomez Farias y Sayula.