Análisis Discriminante y Regresión Logística en una muestra mexicana

Introducción

En esta práctica se hará uso de una base de datos contemporánea procedente de dos panteones de la Ciudad de México: San Nicolás Tolentino, y San Lorenzo Tezonco.

Abriendo paquetes estableciendo directorio de trabajo y leyendo archivo

setwd("~/Olympia")


##Abriendo paquete pacman
library(pacman)
## El archivo esta en formato SPSS, lo abrimos mediante la libreria haven
p_load(haven,dplyr,ggplot2,MASS)
p_load(tinytex)
Hombro <- read_sav("Datos hombro.sav")

## Definimos como factor la variable sexoN
Hombro$sexoN <- factor(Hombro$sexoN,
                       levels = c(2, 1),
                       labels = c("Mujer", "Hombre"))
table (Hombro$sexoN)  ## Frecuencias de sexo

## 
##  Mujer Hombre 
##     30     50

table (Hombro$sexoN)  ## Frecuencias de sexo

## 
##  Mujer Hombre 
##     30     50

Podemos observar que la muestra consta de 80 individuos 50 son hombres y 30 son mujeres.

Estadística descriptiva

Empezemos con la estadistica descriptiva, para resumir por sexo la información de Longitud Máxima del húmero derecho

res_dmhd <- Hombro %>%
          group_by(sexoN) %>%
          summarise(
            n       = sum(!is.na(LMHD)),
            media   = mean(LMHD, na.rm = TRUE),
            sd      = sd(LMHD, na.rm = TRUE)
          ) %>%
          mutate(across(c(media, sd), ~round(.x, 2)))
        res_dmhd

## # A tibble: 2 × 4
##   sexoN      n media    sd
##   <fct>  <int> <dbl> <dbl>
## 1 Mujer     26  283.  15.7
## 2 Hombre    43  312.  13.9

De la tabla anterior observamos que en ambos sexos hay datos perdidos en la variable Longitud Máxima del Húmero Derecho. También se observa que los hombres tienen valores mayores que las mujeres.

Ahora veremos el caso de la Altura biomecánica del húmero derecho

res_abhd <- Hombro %>%
          group_by(sexoN) %>%
          summarise(
            n       = sum(!is.na(ABHD)),
            media   = mean(ABHD, na.rm = TRUE),
            sd      = sd(ABHD, na.rm = TRUE)
          ) %>%
          mutate(across(c(media, sd), ~round(.x, 2)))
        res_abhd

## # A tibble: 2 × 4
##   sexoN      n media    sd
##   <fct>  <int> <dbl> <dbl>
## 1 Mujer     26  279.  14.7
## 2 Hombre    41  308.  13.6

Observamos que…

Realizaremos una gráfica comparativa de Longitud Máxima del Húmero Derecho por Sexo

ggplot(Hombro, aes(x = LMHD, fill = sexoN)) +
          geom_density(alpha = 0.5) +
          labs(
            title = "Gráfica 1. Longitud máxima del húmero derecho por sexo",
            x = "Longitud máxima del húmero derecho (mm)",
            y = "Densidad"
          ) +
          theme_minimal()

## Warning: Removed 11 rows containing non-finite outside the scale range
## (`stat_density()`).

Otra gráfica, ahora de caja.

ggplot(Hombro, aes(x = sexoN, y = LMHD, fill = sexoN)) +
          geom_boxplot(alpha = 0.7) +
          labs(
            title = "Longitud máxima del húmero derecho",
            x = "Sexo",
            y = " "
          ) +
          theme_minimal()

## Warning: Removed 11 rows containing non-finite outside the scale range
## (`stat_boxplot()`).

Cálculo d de Cohen

p_load(effsize)
        # Comparar  entre hombres y mujeres
        cohen.d(Hombro$LMHD, Hombro$sexoN,na.rm = TRUE)

## 
## Cohen's d
## 
## d estimate: -2.031314 (large)
## 95 percent confidence interval:
##     lower     upper 
## -2.635474 -1.427154

Observamos que…

Prueba t para comparar las medias

t.test(LMHD ~ sexoN, data = Hombro, var.equal = TRUE)

## 
##  Two Sample t-test
## 
## data:  LMHD by sexoN
## t = -8.1766, df = 67, p-value = 1.156e-11
## alternative hypothesis: true difference in means between group Mujer and group Hombre is not equal to 0
## 95 percent confidence interval:
##  -36.86178 -22.39620
## sample estimates:
##  mean in group Mujer mean in group Hombre 
##             282.5998             312.2288

        t.test(LMHD ~ sexoN, data = Hombro, var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  LMHD by sexoN
## t = -7.9259, df = 47.778, p-value = 2.941e-10
## alternative hypothesis: true difference in means between group Mujer and group Hombre is not equal to 0
## 95 percent confidence interval:
##  -37.14616 -22.11183
## sample estimates:
##  mean in group Mujer mean in group Hombre 
##             282.5998             312.2288

        ## la alternativa no paramétrica
        wilcox.test(LMHD ~ sexoN, data = Hombro)

## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): cannot
## compute exact p-value with ties

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  LMHD by sexoN
## W = 81, p-value = 3.344e-09
## alternative hypothesis: true location shift is not equal to 0

Se observa que…

Supuesto de normalidad, prueba de Shapiro-Wilk

by(Hombro$LMHD, Hombro$sexoN, shapiro.test)

## Hombro$sexoN: Mujer
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.98209, p-value = 0.9149
## 
## ------------------------------------------------------------ 
## Hombro$sexoN: Hombre
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.98631, p-value = 0.8811

Se observa que… ¿Hay diferencias significativas entre Hombres y Mujeres en la variable LMHD? # Ho:media de Hombres = media de Mujeres vs. Ha: media de Hombres es diferente a media de Mujeres # ¿Hay distribución normal? Prueba de Shapiro-Wilks by(Hombro\(LMHD, Hombro\)sexoN, shapiro.test) #p-v Hombres: 0.8811 >0.05, por lo que se asume Distribución normal #p-v Mujeres: 0.9149 >0.05, por lo que se asume Distribución normal #En ambos grupos se asume Dn, por lo que realiza la prueba t-student

Ahora se analiza el Supuesto de homogeneidad de varianza

var.test(LMHD ~ sexoN, data = Hombro)

## 
##  F test to compare two variances
## 
## data:  LMHD by sexoN
## F = 1.2843, num df = 25, denom df = 42, p-value = 0.4642
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.6498778 2.7084863
## sample estimates:
## ratio of variances 
##           1.284277

Cuando las variables son diferentes: #Prueba de homogeneidad de varianzas var.test(LMHD ~ sexoN, data = Hombro) #p-v 0.4642 es> a 0.05, no se rechaza Ho, se asume igualdad de varianzas #Haremos prueba de igualdad de varianzas, Prueba t t.test(LMHD ~ sexoN, data = Hombro, var.equal = TRUE) #p-v 1.156e-11 (0.0000000000001156) #p-v<0.05, por lo que se rechaza Ho

Análisis Discriminante y Regresión Logística en una muestra mexicana

Olympia Citlallin González Pulido

2025-11-07

Introducción

Estadística descriptiva