library(readr)
library(ggplot2)
library(dplyr)
library(broom)
library(ggpubr)

#INTRODUCCIÓN

se tomó un conjunto de datos con los nacimientos reportados por el Hospital Manuel Uribe Ángel, de enero 2018 hasta septiembre 2019, en el municipio de envigado. se va a trabajar una regresión lineal simple con los datos de peso y talla de 30 recien nacidos, esta información fue sacada de datos publicos de la pagina de la republica de colombia. (https://www.datos.gov.co/Salud-y-Protecci-n-Social/Informe-de-Nacidos-vivos-por-peso-del-reci-n-nacid/5u7m-gc5b) la variable independiente es el peso, la variable dependiente es la talla.

#CARGUE DE DATOS

Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604<-read_delim("Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604.csv",delim=";",escape_double=FALSE,trim_ws=TRUE)
## Rows: 30 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## dbl (2): PESO, TALLA
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

#DIAGRAMA DE DISPERSIÓN

Con el fin de conocer las relaciones existentes entre cada par de variables podemos representar una matriz de diagramas de dispersión. Al parecer existe una relación lineal bastante clara entre el peso y la talla.

pairs(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604)

#GRADO DE RELACIÓN LINEAL

Para cuantificar el grado de relación lineal, calculamos la matriz de coeficientes de correlación.

cor(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604)
##            PESO     TALLA
## PESO  1.0000000 0.8549946
## TALLA 0.8549946 1.0000000

El análisis de regresión lineal simple realizado demuestra que existe una relación lineal positiva fuerte entre las variables estudiadas, con un coeficiente de correlación de 0.86 Esto indica que a medida que la variable independiente aumenta, la variable dependiente tiende también a incrementarse de manera consistente.

#REGRESIÓN

A continuación una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados.

regresion <- lm(TALLA ~ PESO, data = Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604)
summary(regresion)
## 
## Call:
## lm(formula = TALLA ~ PESO, data = Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.92434 -1.05804 -0.04214  1.33417  3.13735 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.464e+01  1.664e+00  20.815  < 2e-16 ***
## PESO        4.812e-03  5.516e-04   8.723 1.79e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.598 on 28 degrees of freedom
## Multiple R-squared:  0.731,  Adjusted R-squared:  0.7214 
## F-statistic:  76.1 on 1 and 28 DF,  p-value: 1.793e-09

#ECUACIÓN DE LA RECTA DE MÍNIMOS

Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de la talla de los nacidos en función del peso. Por lo tanto, la ecuación de la recta de mínimos cuadrados es:

\[y=3.464e+01+4.812e-03*PESO\] #GRAFICA DE LA RECTA DE REGRESIÓN POR EL MÉTODO DE MINIMOS CUADRADOS

plot(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$PESO, Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$TALLA, xlab='PESO', ylab='TALLA')
abline(regresion)

#CALCULO DE PREDICCIONES

nuevos.PESOS <- data.frame(PESO = seq(1,30))
predict(regresion, nuevos.PESOS)
##        1        2        3        4        5        6        7        8 
## 34.64543 34.65024 34.65505 34.65986 34.66467 34.66949 34.67430 34.67911 
##        9       10       11       12       13       14       15       16 
## 34.68392 34.68873 34.69355 34.69836 34.70317 34.70798 34.71279 34.71760 
##       17       18       19       20       21       22       23       24 
## 34.72242 34.72723 34.73204 34.73685 34.74166 34.74648 34.75129 34.75610 
##       25       26       27       28       29       30 
## 34.76091 34.76572 34.77053 34.77535 34.78016 34.78497

#INFERENCIAS SOBRE LOS COEFICIENTES

Bajo este modelo, los errores típicos de los estimadores de los parámetros β0 y β1 se encuentran en la columna Std Error de la salida anterior. sus valores son 31.232 y 0.00368 respectivamente.

La columna t value contiene el estadístico t, es decir, cociente entre cada estimador y su error típico. Estos cocientes son la base para llevar a cabo los contrastes H0:β0=0 y H0:β1=0. Los correspondientes p-valores aparecen en la columna Pr(>|t|). En este caso son muy pequeños por lo que se rechazan ambas hipótesis para los niveles de significación habituales.

El estimador de la desviación típica de los errores σ aparece como Residual standard error y su valor es 0.025

Los intervalos de confianza para los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por defecto es 0.95)

confint(regresion)
##                    2.5 %       97.5 %
## (Intercept) 31.231579259 38.049651010
## PESO         0.003681905  0.005941741
confint(regresion, level = 0.95)
##                    2.5 %       97.5 %
## (Intercept) 31.231579259 38.049651010
## PESO         0.003681905  0.005941741

#DIAGNOSTICO DEL MODELO

Homocedasticidad, se grafican los valores ajustados vrs los residuos estandarizados.

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)

Datos <- rstandard(regresion)
mortalidad_data <- fitted(regresion)
plot(mortalidad_data, Datos, 
     main = "PESO VS TALLA",
     xlab = "PESO", ylab = "TALLA")
abline(h = 0, col = "red")

No se observa ningún patrón especial, por lo tanto la homocedasticidad como la linealidad resultan hipótesis razonables.

#NORMALIDAD

#ANÁLISIS GRÁFICO

qqnorm(residuos)
qqline(residuos)

#ANÁLISIS EMPLEANDO PRUEBAS ESTADÍSTICAS

H0: Los pesos son normales

H1: Los pesos no son normales

criterio de desición

Se acepta Ho si p>0.05

se rechaza Ho si p<0.05

shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.98435, p-value = 0.9256

#ANOVA

anova <- aov(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$PESO ~ factor(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$TALLA))
summary(anova)
##                                                                     Df  Sum Sq
## factor(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$TALLA) 10 6508136
## Residuals                                                           19 1885911
##                                                                     Mean Sq
## factor(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$TALLA)  650814
## Residuals                                                             99258
##                                                                     F value
## factor(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$TALLA)   6.557
## Residuals                                                                  
##                                                                       Pr(>F)
## factor(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$TALLA) 0.000237
## Residuals                                                                   
##                                                                        
## factor(Nacidos_Vivos_en_Hospital_Manuel_Uribe_Angel_20250604$TALLA) ***
## Residuals                                                              
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
plot(anova)
## Warning: not plotting observations with leverage one:
##   1, 9, 11, 22, 30

#CONCLUSIÓN

Los resultados del análisis de regresión lineal muestran una fuerte relación entre las dos variables estudiadas, evidenciada por un alto coeficiente de correlación y un ajuste casi perfecto de los datos al modelo. Esto indica que la variable independiente es un excelente predictor de la variable dependiente dentro del rango de los datos analizados. Además, la mínima dispersión de los puntos con respecto a la recta de regresión sugiere que el modelo es confiable y representa adecuadamente la relación entre las variables. En resumen, el modelo desarrollado no solo es estadísticamente significativo, sino también útil para realizar predicciones precisas en contextos similares.