library(readxl)
library(dplyr)
library(ggplot2)
library(knitr)
library(stats)
BD_Practica_R_Endocrino_1 <- read_excel("BD Practica R_Endocrino-1.xlsx")
head(BD_Practica_R_Endocrino_1)
## # A tibble: 6 × 51
## ID EDAD SEXO PESO TALLA SEDENTARIO Escolaridad TAS TAD HTA_conocida
## <dbl> <dbl> <chr> <dbl> <dbl> <dbl> <chr> <dbl> <dbl> <dbl>
## 1 700 35 Mascu… 112. 162 1 Primaria 125 85 0
## 2 570 69 Femen… 76 168 0 Primaria 130 70 0
## 3 29 38 Femen… 89.6 171. 0 Primaria 120 90 0
## 4 1003 30 Mascu… 57.5 159 1 Universidad 100 60 0
## 5 994 62 Femen… 82 164 0 Secundaria 130 70 0
## 6 1310 30 Mascu… 68 160 1 Universidad 90 60 0
## # ℹ 41 more variables: HTA_OMS <dbl>, A_DIAB <dbl>, ECV_B <dbl>, TABACO <dbl>,
## # ALCOHOL <dbl>, STATIN <dbl>, CINTURA <dbl>, CINTURADESP <dbl>,
## # CADERA <dbl>, OBCENT_ATP <dbl>, COLESTEROL <dbl>, HDL <dbl>, LDL <dbl>,
## # LDL_C <chr>, TG <dbl>, CnoHDL <dbl>, ApoA <dbl>, ApoB <dbl>, LPA <dbl>,
## # A1C <dbl>, hba1 <dbl>, CREATININA <dbl>, GLUCB <dbl>, SOG <dbl>,
## # Tol_Glucosa <chr>, DM <dbl>, conocida <chr>, SM <dbl>, PCR <dbl>,
## # INSULINEMIA <dbl>, PAI_1 <dbl>, fvw <dbl>, fibri <dbl>, HMC <dbl>, …
# Estructura general
glimpse(BD_Practica_R_Endocrino_1)
## Rows: 100
## Columns: 51
## $ ID <dbl> 700, 570, 29, 1003, 994, 1310, 1346, 791, 136, 307, 912, …
## $ EDAD <dbl> 35, 69, 38, 30, 62, 30, 40, 57, 42, 35, 32, 64, 53, 40, 3…
## $ SEXO <chr> "Masculino", "Femenino", "Femenino", "Masculino", "Femeni…
## $ PESO <dbl> 112.5, 76.0, 89.6, 57.5, 82.0, 68.0, 79.0, 66.0, 65.2, 12…
## $ TALLA <dbl> 162.0, 168.0, 170.8, 159.0, 164.0, 160.0, 156.0, 147.0, 1…
## $ SEDENTARIO <dbl> 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, …
## $ Escolaridad <chr> "Primaria", "Primaria", "Primaria", "Universidad", "Secun…
## $ TAS <dbl> 125.0, 130.0, 120.0, 100.0, 130.0, 90.0, 120.0, 110.0, 12…
## $ TAD <dbl> 85, 70, 90, 60, 70, 60, 70, 70, 75, 80, 85, 80, 70, 60, 9…
## $ HTA_conocida <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, …
## $ HTA_OMS <dbl> 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, …
## $ A_DIAB <dbl> 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, …
## $ ECV_B <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ TABACO <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ ALCOHOL <dbl> 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, …
## $ STATIN <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, …
## $ CINTURA <dbl> 124, 99, 105, 77, 112, 96, 102, 93, 87, 126, 96, 101, 115…
## $ CINTURADESP <dbl> 119, 94, 100, 72, 107, 91, 97, 88, 82, 121, 91, 96, 107, …
## $ CADERA <dbl> 136, 104, 99, 99, 100, 105, 107, 110, 98, 121, 102, 115, …
## $ OBCENT_ATP <dbl> 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, …
## $ COLESTEROL <dbl> 219, 176, 245, 183, 233, 175, 239, 244, 209, 204, 178, 21…
## $ HDL <dbl> 56, 57, 65, 59, 48, 80, 50, 58, 50, 38, 59, 48, 37, 51, 4…
## $ LDL <dbl> 144, 95, 171, 116, 161, 83, 167, 166, 141, 116, 109, 123,…
## $ LDL_C <chr> "140 - 160", "80 - 100", "160 - 180", "100 - 120", "160 -…
## $ TG <dbl> 95, 120, 47, 38, 122, 60, 112, 104, 90, 250, 53, 215, 177…
## $ CnoHDL <dbl> 163, 119, 180, 124, 185, 95, 189, 186, 159, 166, 119, 166…
## $ ApoA <dbl> 131.7, 144.9, 0.0, 122.5, 128.9, 180.2, 134.6, 149.1, 123…
## $ ApoB <dbl> 102, 72, 0, 76, 103, 50, 109, 87, 75, 93, 72, 83, 129, 10…
## $ LPA <dbl> 5.26, 11.20, 2.39, 8.35, 3.81, 32.70, 6.88, 24.90, 7.60, …
## $ A1C <dbl> 6.8625, 6.6655, 6.0745, 4.7940, 5.6805, 5.2865, 5.3850, 5…
## $ hba1 <dbl> 8.4, 8.5, 7.4, 5.9, 7.3, 6.1, 6.4, 6.5, 6.0, 6.4, 6.0, 7.…
## $ CREATININA <dbl> 0.8, 1.1, 0.8, 0.7, 0.7, 0.5, 0.8, 0.6, 0.7, 0.9, 0.8, 0.…
## $ GLUCB <dbl> 172, 156, 89, 75, 91, 59, 87, 113, 83, 91, 90, 115, 87, 9…
## $ SOG <dbl> 337, 301, 91, 74, 173, 87, 100, 117, 89, 74, 97, 106, 107…
## $ Tol_Glucosa <chr> "DM", "DM", "NGT", "NGT", "IGT", "NGT", "NGT", "IFG", "NG…
## $ DM <dbl> 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ conocida <chr> "Diabetes no conocida", "Diabetes no conocida", "Normal",…
## $ SM <dbl> 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, …
## $ PCR <dbl> 1.10, 0.34, 0.32, 0.34, 0.34, 0.30, 0.30, 0.34, 0.32, 0.4…
## $ INSULINEMIA <dbl> 32.8, 4.9, 4.2, 8.0, 4.6, 7.9, 16.1, 2.6, 3.9, 12.1, 15.0…
## $ PAI_1 <dbl> 53.60, 39.80, 24.20, 17.20, 24.20, 11.10, 33.80, 8.77, 13…
## $ fvw <dbl> 129.0, 118.0, 46.5, 23.5, 111.0, 80.7, 158.0, 142.0, 146.…
## $ fibri <dbl> 3.37, 3.13, 2.69, 3.80, 3.24, 2.84, 2.80, 3.29, 2.94, 3.0…
## $ HMC <dbl> 9.84, 9.72, 12.48, 10.27, 13.30, 6.21, 5.22, 9.86, 11.40,…
## $ HOMA <dbl> 13.9184540, 1.8858597, 0.9222061, 1.4802667, 1.0327327, 1…
## $ IR <dbl> 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, …
## $ ecnos <chr> "bb", "ab", "aa", "ab", "bb", "bb", "bb", "ab", "bb", "bb…
## $ ppr <chr> "pp", "0", "0", "pp", "pp", "pp", "pp", "pa", "pp", "0", …
## $ fibratos <chr> "No", "No", "No", "No", "No", "No", "No", "No", "No", "No…
## $ CETP <chr> "B1B1", "B1B2", "0", "0", "0", "B1B2", "B1B1", "B1B1", "0…
## $ PON_192 <chr> "QR", "QR", "0", "QR", "QQ", "QR", "QR", "RR", "QQ", "QQ"…
# Resumen de variables numéricas
summary(select_if(BD_Practica_R_Endocrino_1, is.numeric))
## ID EDAD PESO TALLA
## Min. : 29.0 Min. :30.00 Min. : 46.50 Min. :146.0
## 1st Qu.: 296.8 1st Qu.:37.75 1st Qu.: 65.15 1st Qu.:157.8
## Median : 739.5 Median :44.50 Median : 74.35 Median :163.6
## Mean : 726.7 Mean :46.25 Mean : 75.67 Mean :164.2
## 3rd Qu.:1080.8 3rd Qu.:53.00 3rd Qu.: 85.00 3rd Qu.:170.8
## Max. :1383.0 Max. :79.00 Max. :127.00 Max. :182.0
## SEDENTARIO TAS TAD HTA_conocida HTA_OMS
## Min. :0.00 Min. : 90.0 Min. : 60.0 Min. :0.00 Min. :0.00
## 1st Qu.:0.00 1st Qu.:110.0 1st Qu.: 70.0 1st Qu.:0.00 1st Qu.:0.00
## Median :1.00 Median :120.0 Median : 70.0 Median :0.00 Median :0.00
## Mean :0.54 Mean :118.3 Mean : 72.7 Mean :0.17 Mean :0.24
## 3rd Qu.:1.00 3rd Qu.:130.0 3rd Qu.: 80.0 3rd Qu.:0.00 3rd Qu.:0.00
## Max. :1.00 Max. :160.0 Max. :100.0 Max. :1.00 Max. :1.00
## A_DIAB ECV_B TABACO ALCOHOL STATIN
## Min. :0.00 Min. :0.00 Min. :0.00 Min. :0.00 Min. :0.00
## 1st Qu.:0.00 1st Qu.:0.00 1st Qu.:0.00 1st Qu.:0.00 1st Qu.:0.00
## Median :0.00 Median :0.00 Median :0.00 Median :0.00 Median :0.00
## Mean :0.43 Mean :0.05 Mean :0.15 Mean :0.31 Mean :0.13
## 3rd Qu.:1.00 3rd Qu.:0.00 3rd Qu.:0.00 3rd Qu.:1.00 3rd Qu.:0.00
## Max. :1.00 Max. :1.00 Max. :1.00 Max. :1.00 Max. :1.00
## CINTURA CINTURADESP CADERA OBCENT_ATP
## Min. : 68.00 Min. : 63.00 Min. : 82.0 Min. :0.00
## 1st Qu.: 88.75 1st Qu.: 80.75 1st Qu.: 98.0 1st Qu.:0.00
## Median : 97.00 Median : 91.00 Median :102.0 Median :1.00
## Mean : 96.24 Mean : 89.68 Mean :104.1 Mean :0.54
## 3rd Qu.:103.00 3rd Qu.: 96.25 3rd Qu.:110.2 3rd Qu.:1.00
## Max. :135.00 Max. :128.00 Max. :136.0 Max. :1.00
## COLESTEROL HDL LDL TG
## Min. :117.0 Min. : 31.00 Min. : 0.0 Min. : 38.0
## 1st Qu.:185.8 1st Qu.: 46.75 1st Qu.:113.8 1st Qu.: 63.5
## Median :209.0 Median : 54.50 Median :131.0 Median : 91.5
## Mean :211.8 Mean : 55.18 Mean :133.0 Mean :116.8
## 3rd Qu.:234.8 3rd Qu.: 61.25 3rd Qu.:153.2 3rd Qu.:131.5
## Max. :340.0 Max. :102.00 Max. :230.0 Max. :843.0
## CnoHDL ApoA ApoB LPA
## Min. : 58.0 Min. : 0.0 Min. : 0.00 Min. : 2.39
## 1st Qu.:130.5 1st Qu.:116.6 1st Qu.: 72.00 1st Qu.: 5.52
## Median :155.5 Median :129.5 Median : 82.50 Median :10.45
## Mean :156.7 Mean :124.7 Mean : 80.43 Mean :19.69
## 3rd Qu.:178.5 3rd Qu.:144.9 3rd Qu.: 95.00 3rd Qu.:26.65
## Max. :283.0 Max. :239.9 Max. :161.00 Max. :74.60
## A1C hba1 CREATININA GLUCB
## Min. : 4.498 Min. : 5.500 Min. :0.400 Min. : 59.0
## 1st Qu.: 4.991 1st Qu.: 6.200 1st Qu.:0.675 1st Qu.: 85.0
## Median : 5.287 Median : 6.600 Median :0.800 Median : 91.0
## Mean : 5.457 Mean : 7.226 Mean :0.784 Mean :100.9
## 3rd Qu.: 5.607 3rd Qu.: 7.000 3rd Qu.:0.900 3rd Qu.:105.2
## Max. :10.605 Max. :53.000 Max. :1.400 Max. :223.0
## SOG DM SM PCR
## Min. : 0.00 Min. :0.00 Min. :0.00 Min. :0.3000
## 1st Qu.: 83.75 1st Qu.:0.00 1st Qu.:0.00 1st Qu.:0.3200
## Median :100.00 Median :0.00 Median :0.00 Median :0.3400
## Mean :107.06 Mean :0.12 Mean :0.36 Mean :0.4123
## 3rd Qu.:124.75 3rd Qu.:0.00 3rd Qu.:1.00 3rd Qu.:0.3400
## Max. :337.00 Max. :1.00 Max. :1.00 Max. :2.2400
## INSULINEMIA PAI_1 fvw fibri
## Min. : 0.600 Min. : 1.29 Min. : 23.50 Min. :1.670
## 1st Qu.: 4.700 1st Qu.:15.10 1st Qu.: 78.38 1st Qu.:2.835
## Median : 6.600 Median :24.00 Median :104.50 Median :3.125
## Mean : 8.599 Mean :28.07 Mean :106.12 Mean :3.243
## 3rd Qu.:10.850 3rd Qu.:37.92 3rd Qu.:137.00 3rd Qu.:3.683
## Max. :32.800 Max. :90.30 Max. :199.00 Max. :5.740
## HMC HOMA IR
## Min. : 2.740 Min. : 0.1391 Min. :0.00
## 1st Qu.: 8.947 1st Qu.: 1.0256 1st Qu.:0.00
## Median :10.775 Median : 1.5011 Median :0.00
## Mean :11.101 Mean : 2.3531 Mean :0.31
## 3rd Qu.:12.787 3rd Qu.: 2.7168 3rd Qu.:1.00
## Max. :31.850 Max. :17.2293 Max. :1.00
# Tablas de frecuencia para variables
table(BD_Practica_R_Endocrino_1$SEXO)
##
## Femenino Masculino
## 43 57
table(BD_Practica_R_Endocrino_1$Escolaridad)
##
## Primaria Secundaria Sin estudios Universidad
## 33 54 2 11
Exploración de las variables del conjunto de datos
Al explorar la base de datos BD_Practica_R_Endocrino_1,ya en otros ejercicios analizada,vuelvo a considerar que el conjunto presenta una estructura muy completa, con 100 observaciones y 51 variables que abarcan dimensiones sociodemográficas, antropométricas, clínicas, bioquímicas y genéticas, además, noto que los valores se encuentran organizados y sin errores aparentes de codificación, lo cual facilita la ejecución de análisis estadísticos posteriores.
En términos sociodemográficos, observo que la edad de los participantes oscila entre 30 y 79 años, con una media cercana a los 46 años, lo que sugiere una población predominantemente adulta media, además,en cuanto al sexo, la distribución muestra una ligera predominancia masculina (57 hombres frente a 43 mujeres), lo cual puede reflejar la estructura de la muestra o el perfil de atención en la consulta endocrinológica.
En relación con el nivel educativo, la mayoría de los participantes reportan haber alcanzado la secundaria (54%), seguidos de aquellos con primaria (33%) y una menor proporción con educación universitaria (11%), mientras que un pequeño grupo (2 personas) no tiene estudios formales. Considero que esta variable puede estar asociada a factores de estilo de vida y acceso al sistema de salud, por lo cual será relevante en el análisis posterior.
Desde el punto de vista antropométrico, noto que la media de peso es de 75.7 kg y la talla promedio de 164.2 cm, lo que implica un índice de masa corporal en el rango del sobrepeso, además, la circunferencia de cintura promedio es de 96.2 cm** con una desviación estándar de 12.6 cm, indicando una tendencia hacia obesidad abdominal, lo cual tiene implicaciones metabólicas importantes en endocrinología y riesgo cardiovascular.
Respecto a las variables clínicas, observo que un 24% de los participantes tienen antecedente de diabetes y un 17% presentan diagnóstico de hipertensión arterial conocida. También me ha llamado la atención que solo el 15% son consumidores de alcohol, mientras que el tabaquismo es aún menos frecuente (5%), por lo cual, esto podría reflejar un grupo con bajo consumo de sustancias, pero con una carga importante de factores metabólicos.
En cuanto al perfil lipídico, el colesterol total promedio es de 211.8 mg/dL, el HDL promedio es de 55.2 mg/dL, y el LDL promedio de 133 mg/dL, valores que, en conjunto, me sugieren que hay tendencia leve a dislipidemia mixta, además, el triglicérido promedio fue de 116 mg/dL, con una desviación importante que sugiere heterogeneidad en el control metabólico de los pacientes.
También noto que las variables de control glucémico (HbA1c y glucosa basal) tienen medias de 5.45% y 107 mg/dL, respectivamente, lo cual es compatible con una población en la que coexisten sujetos con normoglucemia, prediabetes y diabetes diagnosticada o no conocida, y muy importante, el valor medio del índice HOMA fue de 2.35, lo que refuerza la posibilidad de resistencia a la insulina en parte del grupo.
Finalmente, considero relevante que las variables categóricas
genéticas (CETP, PON_192,
fibratos) se encuentran correctamente codificadas, y que el
conjunto de datos no presenta valores faltantes aparentes ni errores de
formato.
En síntesis, la base la encuentro limpia, coherente y lista para el desarrollo de los ejercicios de inferencia estadística, como es para este taller, la estimación de intervalos de confianza e hipótesis paramétricas y no paramétricas.
IC para la media (CINTURA)
media <- mean(BD_Practica_R_Endocrino_1$CINTURA, na.rm = TRUE)
desv.est <- sd(BD_Practica_R_Endocrino_1$CINTURA, na.rm = TRUE)
n <- sum(!is.na(BD_Practica_R_Endocrino_1$CINTURA))
nivconf <- 95
t <- qt(1 - ((1 - (nivconf / 100)) / 2), df = n - 1)
error <- t * sqrt(desv.est^2 / n)
IC_inferior <- media - error
IC_superior <- media + error
c(IC_inferior, IC_superior)
## [1] 93.72316 98.75684
** Interpretación del Intervalo de confianza (IC) para la media de CINTURA**
Al calcular el intervalo de confianza del 95% para la variable CINTURA,obtuve un valor promedio de 96.24 cm, con una desviación estándar de 12.68 cm y un tamaño de muestra de 100 individuos, donde el intervalo de confianza se extiende desde 93.72 cm hasta 98.76 cm, lo que significa que con un nivel de confianza del 95%, puedo afirmar que el valor verdadero de la media poblacional de la circunferencia de cintura se encuentra dentro de este rango.
Considero que este resultado es clínicamente relevante, pues el límite inferior (93.7 cm) ya supera el punto de corte internacional para riesgo metabólico en mujeres (≥ 88 cm) y se acerca al umbral para hombres (≥ 102 cm), por lo que esto me sugiere que, en esta población, la mayoría de los sujetos presentan una acumulación central de grasa abdominal que podría estar asociada con resistencia a la insulina, dislipidemia o síndrome metabólico.
Además, dado que en la exploración previa la variable mostró una distribución aproximadamente normal, la utilización de la prueba t de Student para construir este intervalo es apropiada. El rango estrecho de valores también indica una variabilidad moderada y una estimación precisa del parámetro poblacional.
media <- mean(BD_Practica_R_Endocrino_1$CINTURA, na.rm = TRUE)
desv.est <- sd(BD_Practica_R_Endocrino_1$CINTURA, na.rm = TRUE)
n <- sum(!is.na(BD_Practica_R_Endocrino_1$CINTURA))
t <- qt(1 - 0.05/2, df = n - 1)
error <- t * desv.est / sqrt(n)
IC_inferior <- media - error
IC_superior <- media + error
# Visualización del intervalo de confianza
library(ggplot2)
ggplot() +
geom_point(aes(x = media, y = 1), size = 4, color = "darkblue") +
geom_errorbarh(aes(y = 1, xmin = IC_inferior, xmax = IC_superior),
height = 0.1, color = "steelblue", linewidth = 1.2) +
scale_x_continuous(limits = c(90, 105)) +
labs(title = "Intervalo de confianza del 95% para la media de CINTURA",
x = "Cintura (cm)", y = "") +
theme_minimal(base_size = 13)
La figura muestra el intervalo de confianza del 95% para la media de la variable CINTURA, donde el punto azul representa la media muestral (96.2 cm) y las líneas horizontales delimitan los valores inferior (93.7 cm) y superior (98.8 cm) del intervalo.
Considero que este gráfico facilita la comprensión visual del rango en el cual se encuentra la verdadera media poblacional, evidenciando que los valores son consistentes con un patrón de obesidad abdominal leve a moderada en la población estudiada, además, la amplitud del intervalo es reducida, lo que indica una estimación precisa y estable del parámetro poblacional.
Intervalo de confianza para una proporción (variable SEXO)
library(dplyr)
tabla_sexo <- BD_Practica_R_Endocrino_1 %>% count(SEXO)
prop.test(
x = tabla_sexo$n[tabla_sexo$SEXO == "Femenino"],
n = sum(tabla_sexo$n),
p = 0.5,
conf.level = 0.95,
correct = FALSE
)
##
## 1-sample proportions test without continuity correction
##
## data: tabla_sexo$n[tabla_sexo$SEXO == "Femenino"] out of sum(tabla_sexo$n), null probability 0.5
## X-squared = 1.96, df = 1, p-value = 0.1615
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3373330 0.5278461
## sample estimates:
## p
## 0.43
Análisis del Intervalo de confianza del 95% para la proporción de mujeres
El resultado del 1-sample proportions test me indica que la proporción que observo de mujeres en la muestra es p = 0.43 (43%), con un intervalo de confianza al 95% entre 0.337 y 0.528, asi que este valor p, está asociado a la pruebay que corresponde a 0.1615,lo cual resulta ser mayor que el nivel de significancia convencional (α = 0.05).
Considero que este resultado me dice que no existe evidencia estadística suficiente para rechazar la hipótesis nula de que la proporción de mujeres sea igual al 50%, en otras palabras, la proporción que observo del (43%) podría deberse al azar muestral y no representa una diferencia significativa frente a una distribución equitativa entre sexos.
Desde un punto de vista descriptivo, noto que la muestra incluye ligeramente más hombres (57%) que mujeres (43%), pero esta diferencia no alcanza relevancia estadística, por lo que esto implica que la muestra mantiene una representación balanceada por sexo, y resulta ser positivo para la validez de comparaciones posteriores entre variables metabólicas y antropométricas.
Prueba de hipótesis para una media (variable CINTURA)
t.test(BD_Practica_R_Endocrino_1$CINTURA,
mu = 90,
alternative = "two.sided",
conf.level = 0.95)
##
## One Sample t-test
##
## data: BD_Practica_R_Endocrino_1$CINTURA
## t = 4.9195, df = 99, p-value = 3.458e-06
## alternative hypothesis: true mean is not equal to 90
## 95 percent confidence interval:
## 93.72316 98.75684
## sample estimates:
## mean of x
## 96.24
Para esta prueba, el objetivo ha sido determinar si la cintura promedio de la población difiere significativamente de un valor de referencia de 90 cm.
Las hipótesis planteada es así:
El resultado de la prueba t para una muestra, me indica un valor p de 3.46 aproximado × 10⁻⁶, muy inferior al nivel de significancia convencional (α = 0.05), por tanto, rechazo la hipótesis nula, y concluyo que la media de cintura en la población es diferente de 90 cm con un nivel de confianza del 95%.
Considero que este hallazgo es clínicamente relevante, ya que la media que he obtenido (96.2 cm) supera el valor de referencia habitual para diagnóstico de riesgo cardiometabólico, por lo cual esto sugiere que la muestra estudiada presenta, en promedio, una circunferencia de cintura mayor a la esperada en población general, lo que podría relacionarse con obesidad abdominal o resistencia a la insulina.
El intervalo de confianza (93.7–98.8 cm) respalda esta conclusión, pues los valores poblacionales probables se ubican consistentemente por encima del umbral clínico de normalidad.
Prueba de hipótesis para una proporción (variable SEXO)
library(dplyr)
tabla_sexo <- BD_Practica_R_Endocrino_1 %>% count(SEXO)
prop.test(
x = tabla_sexo$n[tabla_sexo$SEXO == "Femenino"],
n = sum(tabla_sexo$n),
p = 0.5,
alternative = "two.sided",
conf.level = 0.95,
correct = FALSE
)
##
## 1-sample proportions test without continuity correction
##
## data: tabla_sexo$n[tabla_sexo$SEXO == "Femenino"] out of sum(tabla_sexo$n), null probability 0.5
## X-squared = 1.96, df = 1, p-value = 0.1615
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3373330 0.5278461
## sample estimates:
## p
## 0.43
Interpretación
El objetivo de esta prueba ha sido determinar si la proporción de mujeres en la muestra difiere significativamente del 50%, es decir, si existe un desbalance por sexo en la población analizada.
Las hipótesis se plantea de la siguiente manera: -
H₀: p = 0.5
- H₁: p ≠ 0.5
El resultado muestra una proporción observada de p̂ =
0.43, con un intervalo de confianza al 95% entre 0.337
y 0.528.
El valor p fue de 0.1615, mayor que el nivel de
significancia (α = 0.05).
Por tanto, no rechazo la hipótesis nula, lo cual
significa que no hay evidencia estadísticamente
significativa de que la proporción de mujeres sea distinta del
50%.
Considero que, aunque el porcentaje de mujeres (43%) es algo menor al esperado, esta diferencia no alcanza relevancia estadística y puede atribuirse al azar muestral.Desde el punto de vista epidemiológico,creo que la muestra es relativamente balanceada por sexo, permitiendo realizar comparaciones sin sesgo importante de representación.
library(readxl)
BD_Practica_R_Endocrino_1 <- read_excel("BD Practica R_Endocrino-1.xlsx")
names(BD_Practica_R_Endocrino_1)
## [1] "ID" "EDAD" "SEXO" "PESO" "TALLA"
## [6] "SEDENTARIO" "Escolaridad" "TAS" "TAD" "HTA_conocida"
## [11] "HTA_OMS" "A_DIAB" "ECV_B" "TABACO" "ALCOHOL"
## [16] "STATIN" "CINTURA" "CINTURADESP" "CADERA" "OBCENT_ATP"
## [21] "COLESTEROL" "HDL" "LDL" "LDL_C" "TG"
## [26] "CnoHDL" "ApoA" "ApoB" "LPA" "A1C"
## [31] "hba1" "CREATININA" "GLUCB" "SOG" "Tol_Glucosa"
## [36] "DM" "conocida" "SM" "PCR" "INSULINEMIA"
## [41] "PAI_1" "fvw" "fibri" "HMC" "HOMA"
## [46] "IR" "ecnos" "ppr" "fibratos" "CETP"
## [51] "PON_192"
Prueba Chi-cuadrado de independencia (SEXO vs ESCOLARIDAD)
tabla <- table(BD_Practica_R_Endocrino_1$SEXO,
BD_Practica_R_Endocrino_1$Escolaridad)
chisq.test(tabla, correct = FALSE)
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 2.1151, df = 3, p-value = 0.5489
El valor de p fue 0.5489, con un estadístico Chi-cuadrado (X²) = 2.1151 y 3 grados de libertad. El estadístico Chi-cuadrado representa una medida de discrepancia entre las frecuencias observadas en la tabla de contingencia y las frecuencias esperadas si las variables fueran independientes, por lo que en este caso, el valor que obtuve (2.1151) es bajo, lo cual me sugiere que las diferencias entre lo observado y lo esperado son pequeñas.
Los grados de libertad (df) indican el número de categorías que pueden variar libremente al calcular el estadístico, y dependen del número de filas y columnas de la tabla, por lo que en este caso, el valor de 3 se obtiene a partir de la fórmula (número de filas - 1) × (número de columnas - 1), lo que refleja las combinaciones posibles entre los niveles de escolaridad y los sexos evaluados.
El valor p = 0.5489, al ser mayor que el umbral convencional de significancia (0.05), indica que no se rechaza la hipótesis nula,por tanto, no encuentro evidencia estadísticamente significativa de asociación entre el sexo y el nivel de escolaridad en esta muestra.
# librería para gráficos
library(ggplot2)
# Crear el gráfico de barras agrupadas
ggplot(BD_Practica_R_Endocrino_1, aes(x = Escolaridad, fill = SEXO)) +
geom_bar(position = "dodge") +
geom_text(stat = "count", aes(label = after_stat(count)),
position = position_dodge(width = 0.9), vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#377eb8", "#e41a1c")) +
labs(
title = "Distribución de la Escolaridad según el Sexo",
x = "Nivel de escolaridad",
y = "Frecuencia absoluta",
fill = "Sexo"
) +
theme_minimal(base_size = 13) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
legend.position = "top"
)
Considero que este gráfico de barras agrupadas permite visualizar de forma clara la distribución de los niveles de escolaridad según el sexo en la muestra estudiada, por ejemplo, observo que tanto en hombres como en mujeres predominan los niveles de educación secundaria y primaria, con frecuencias relativamente similares entre ambos grupos (por ejemplo, 23 mujeres y 31 hombres con secundaria, y 14 mujeres y 19 hombres con primaria), en contraste, los niveles de educación universitaria y sin estudios presentan frecuencias mucho menores, lo que sugiere que la mayoría de los participantes alcanzó al menos la educación básica o media.
Desde el punto de vista estadístico, este patrón visual coincide con los resultados de la prueba Chi-cuadrado de independencia, donde el valor p = 0.5489 indica que no existe una asociación significativa entre el sexo y el nivel de escolaridad, por lo cual,interpreto que las diferencias observadas en las frecuencias se deben probablemente al azar y no a una relación sistemática entre ambas variables.
Además me parece que el acceso a los distintos niveles educativos no depende del sexo dentro de esta población, por lo que la distribución me parece equilibrada, sin indicios de desigualdad educativa marcada entre hombres y mujeres.
Gráfico en porcentaje (frecuencia relativa de Escolaridad según Sexo)
# Cargar librería
library(ggplot2)
library(dplyr)
# proporciones por sexo y escolaridad
tabla_prop <- BD_Practica_R_Endocrino_1 %>%
group_by(SEXO, Escolaridad) %>%
summarise(Frecuencia = n()) %>%
mutate(Porcentaje = Frecuencia / sum(Frecuencia) * 100)
# Gráfico de barras con porcentajes
ggplot(tabla_prop, aes(x = Escolaridad, y = Porcentaje, fill = SEXO)) +
geom_bar(stat = "identity", position = "dodge") +
geom_text(aes(label = paste0(round(Porcentaje, 1), "%")),
position = position_dodge(width = 0.9), vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("lightpink", "lightblue")) +
labs(
title = "Porcentaje de Escolaridad según el Sexo",
x = "Nivel de escolaridad",
y = "Porcentaje (%)",
fill = "Sexo"
) +
theme_minimal(base_size = 13) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
legend.position = "top"
)
Considero que este gráfico de barras porcentuales me ayuda a comprender la evidencia de independencia entre el sexo y la escolaridad, pues las proporciones son muy similares entre hombres y mujeres en cada nivel educativo, lo cual se refleja en las alturas casi iguales de las barras para ambos grupos.
En el nivel de educación secundaria,que representa el porcentaje más alto, las mujeres constituyen el 53.5% y los hombres el 54.4%, prácticamente iguales, además, en los niveles de educación universitaria y sin estudios, las diferencias también son pequeñas, pues las mujeres alcanzan un 14% en educación universitaria frente a un 8.8% en los hombres, mientras que el nivel sin estudios es muy bajo en ambos grupos.
Considero que este patrón visual respalda el resultado del test Chi-cuadrado, cuyo valor p = 0.5489 que me indica que no existe asociación significativa entre el sexo y la escolaridad, pues las diferencias que observo en los porcentajes son tan pequeñas que podría atribuirse al azar.| Variable…Prueba | Tipo.de.dato | Estadístico.utilizado | Resultado.principal | Interpretación |
|---|---|---|---|---|
| CINTURA (IC) | Cuantitativa continua | IC del 95% para la media | IC95%: [93.72 – 98.76] cm | El promedio de cintura se estima entre 93.7 y 98.7 cm. |
| CINTURA (t de Student) | Cuantitativa continua | t de Student (una muestra) | t = 4.9195, p = 3.45e-06 | La media difiere significativamente del valor de referencia (90 cm). |
| SEXO (Proporción) | Categórica binaria | Test de proporción (prop.test) | p = 0.1615, IC95%: [33.7% – 52.7%] | No hay diferencia significativa en la proporción de mujeres (p ≈ 0.43). |
| SEXO vs ESCOLARIDAD (Chi-cuadrado) | Categórica nominal | Chi-cuadrado de independencia | χ² = 2.1151, gl = 3, p = 0.5489 | No existe asociación significativa entre sexo y nivel educativo. |
Considero que esta tabla me resume de forma clara y visual los resultados del taller, pues noto que las variables cuantitativas (como CINTURA) presentan resultados significativos, mientras que las categóricas (SEXO y ESCOLARIDAD) no muestran diferencias relevantes. Desde la interpretación estadística,considero que los valores p menores a 0.05 indican evidencia suficiente para rechazar la hipótesis nula, mientras que los mayores a 0.05 me refleja independencia o similitud entre grupos. Integración de los resultados
## [1] "LC_COLLATE=Spanish_Colombia.1252;LC_CTYPE=Spanish_Colombia.1252;LC_MONETARY=Spanish_Colombia.1252;LC_NUMERIC=C;LC_TIME=Spanish_Colombia.1252"
Considero que esta visualización me sintetiza la lógica de inferencia estadística aplicada en este taller, pues el primer gráfico me muestra la precisión de la estimación (IC95%), el segundo demuestra la homogeneidad demográfica por sexo, y el tercero me confirma la independencia entre las variables socioculturales analizadas.
Referencias