Teoría

la Regresión logística es un modelo estadístico de clasificacion binaria, que estima la probabilidad de que ocurra un evento (valor 1) frente a que no ocurra (valor 0), en funcion de variables independientes

Instalar paquetes y llaamr librerias

#install.packages("titanic")
library(titanic)
library(caret)

## Cargando paquete requerido: ggplot2

## Cargando paquete requerido: lattice

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.4     ✔ tibble    3.3.0
## ✔ purrr     1.1.0     ✔ tidyr     1.3.1

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ✖ purrr::lift()   masks caret::lift()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

Crear la base de datos

df <- titanic_train

Entender la base de datos

summary(df)

##   PassengerId       Survived          Pclass          Name          
##  Min.   :  1.0   Min.   :0.0000   Min.   :1.000   Length:891        
##  1st Qu.:223.5   1st Qu.:0.0000   1st Qu.:2.000   Class :character  
##  Median :446.0   Median :0.0000   Median :3.000   Mode  :character  
##  Mean   :446.0   Mean   :0.3838   Mean   :2.309                     
##  3rd Qu.:668.5   3rd Qu.:1.0000   3rd Qu.:3.000                     
##  Max.   :891.0   Max.   :1.0000   Max.   :3.000                     
##                                                                     
##      Sex                 Age            SibSp           Parch       
##  Length:891         Min.   : 0.42   Min.   :0.000   Min.   :0.0000  
##  Class :character   1st Qu.:20.12   1st Qu.:0.000   1st Qu.:0.0000  
##  Mode  :character   Median :28.00   Median :0.000   Median :0.0000  
##                     Mean   :29.70   Mean   :0.523   Mean   :0.3816  
##                     3rd Qu.:38.00   3rd Qu.:1.000   3rd Qu.:0.0000  
##                     Max.   :80.00   Max.   :8.000   Max.   :6.0000  
##                     NA's   :177                                     
##     Ticket               Fare           Cabin             Embarked        
##  Length:891         Min.   :  0.00   Length:891         Length:891        
##  Class :character   1st Qu.:  7.91   Class :character   Class :character  
##  Mode  :character   Median : 14.45   Mode  :character   Mode  :character  
##                     Mean   : 32.20                                        
##                     3rd Qu.: 31.00                                        
##                     Max.   :512.33                                        
##

str(df)

## 'data.frame':    891 obs. of  12 variables:
##  $ PassengerId: int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Survived   : int  0 1 1 1 0 0 0 0 1 1 ...
##  $ Pclass     : int  3 1 3 1 3 3 1 3 3 2 ...
##  $ Name       : chr  "Braund, Mr. Owen Harris" "Cumings, Mrs. John Bradley (Florence Briggs Thayer)" "Heikkinen, Miss. Laina" "Futrelle, Mrs. Jacques Heath (Lily May Peel)" ...
##  $ Sex        : chr  "male" "female" "female" "female" ...
##  $ Age        : num  22 38 26 35 35 NA 54 2 27 14 ...
##  $ SibSp      : int  1 1 0 1 0 0 0 3 0 1 ...
##  $ Parch      : int  0 0 0 0 0 0 0 1 2 0 ...
##  $ Ticket     : chr  "A/5 21171" "PC 17599" "STON/O2. 3101282" "113803" ...
##  $ Fare       : num  7.25 71.28 7.92 53.1 8.05 ...
##  $ Cabin      : chr  "" "C85" "" "C123" ...
##  $ Embarked   : chr  "S" "C" "S" "S" ...

df <- df[, c("Survived", "Pclass", "Sex", "Age")]
df <- na.omit(df)
df$Survived <- as.factor(df$Survived)
df$Survived <- as.factor(df$Pclass)
df$Survived <- as.factor(df$Sex)

Crear el modelo

modelo <- glm(Survived ~ ., data=df, family=binomial)

## Warning: glm.fit: algorithm did not converge

summary(modelo)

## 
## Call:
## glm(formula = Survived ~ ., family = binomial, data = df)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.657e+01  5.797e+04   0.000    1.000
## Pclass      -7.052e-11  1.749e+04   0.000    1.000
## Sexmale      5.313e+01  2.840e+04   0.002    0.999
## Age         -3.501e-12  1.001e+03   0.000    1.000
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 9.3754e+02  on 713  degrees of freedom
## Residual deviance: 4.1423e-09  on 710  degrees of freedom
## AIC: 8
## 
## Number of Fisher Scoring iterations: 25

Probar el modelo

prueba <- data.frame(
  Pclass = c(1,3),
  Sex = factor(c("female","male")),
  Age = c(25,40)
)

probabilidad <- predict(modelo, newdata = prueba, type = "response")
cbind(prueba, Probabilidad_Sobrevive = probabilidad)

##   Pclass    Sex Age Probabilidad_Sobrevive
## 1      1 female  25           2.900701e-12
## 2      3   male  40           1.000000e+00

LS0tDQp0aXRsZTogIlJlZ3Jlc2lvbiBsb2fDrXN0aWNhIg0KYXV0aG9yOiAiQW50b25pbyBDw6FyZGVuYXMgRHVhcnRlIC0gQTAxNTY4OTA4Ig0KZGF0ZTogIjIwMjUtMDgtMjkiDQpvdXRwdXQ6DQogIGh0bWxfZG9jdW1lbnQ6DQogICAgdG9jOiBUUlVFICNUYWJsYSBkZSBjb250ZW5pZG9zDQogICAgdG9jX2Zsb2F0OiBUUlVFICNUYmxhIGRlIGFsZ28NCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFICNQb2RlciBkZXNjYXJnYXIgY8OzZGlnbw0KICAgIHRoZW1lOiBib290c3RyYXANCi0tLQ0KIVtdKGh0dHBzOi8vYXNzZXRzLnN1dG9yaS5jb20vdXNlci11cGxvYWRzL2ltYWdlLzc4OTljZWMwLWE5YjktNDY3NS04MjliLTIwYzE1YTBiMzE0OC9iZmFjNDllM2UxNWJmZGQ0ZDlkYWQ0ZWExZTBlYzk0NC5naWYpDQoNCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+IFRlb3LDrWEgPC9zcGFuPg0KbGEgKipSZWdyZXNpw7NuIGxvZ8Otc3RpY2EqKiBlcyB1biBtb2RlbG8gZXN0YWTDrXN0aWNvIGRlIGNsYXNpZmljYWNpb24gYmluYXJpYSwgcXVlIGVzdGltYSBsYSBwcm9iYWJpbGlkYWQgZGUgcXVlIG9jdXJyYSB1biBldmVudG8gKHZhbG9yIDEpIGZyZW50ZSBhIHF1ZSBubyBvY3VycmEgKHZhbG9yIDApLCBlbiBmdW5jaW9uIGRlIHZhcmlhYmxlcyBpbmRlcGVuZGllbnRlcw0KDQojIDxzcGFuIHN0eWxlPSJjb2xvcjogYmx1ZTsiPiBJbnN0YWxhciBwYXF1ZXRlcyB5IGxsYWFtciBsaWJyZXJpYXMgPC9zcGFuPg0KDQpgYGB7cn0NCiNpbnN0YWxsLnBhY2thZ2VzKCJ0aXRhbmljIikNCmxpYnJhcnkodGl0YW5pYykNCmxpYnJhcnkoY2FyZXQpDQpsaWJyYXJ5KHRpZHl2ZXJzZSkNCg0KYGBgDQoNCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+IENyZWFyIGxhIGJhc2UgZGUgZGF0b3MgPC9zcGFuPg0KYGBge3J9DQpkZiA8LSB0aXRhbmljX3RyYWluDQpgYGANCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+IEVudGVuZGVyIGxhIGJhc2UgZGUgZGF0b3MgPC9zcGFuPg0KDQpgYGB7cn0NCnN1bW1hcnkoZGYpDQpzdHIoZGYpDQpkZiA8LSBkZlssIGMoIlN1cnZpdmVkIiwgIlBjbGFzcyIsICJTZXgiLCAiQWdlIildDQpkZiA8LSBuYS5vbWl0KGRmKQ0KZGYkU3Vydml2ZWQgPC0gYXMuZmFjdG9yKGRmJFN1cnZpdmVkKQ0KZGYkU3Vydml2ZWQgPC0gYXMuZmFjdG9yKGRmJFBjbGFzcykNCmRmJFN1cnZpdmVkIDwtIGFzLmZhY3RvcihkZiRTZXgpDQpgYGANCg0KIyA8c3BhbiBzdHlsZT0iY29sb3I6IGJsdWU7Ij4gQ3JlYXIgZWwgbW9kZWxvIDwvc3Bhbj4NCmBgYHtyfQ0KbW9kZWxvIDwtIGdsbShTdXJ2aXZlZCB+IC4sIGRhdGE9ZGYsIGZhbWlseT1iaW5vbWlhbCkNCnN1bW1hcnkobW9kZWxvKQ0KYGBgDQojIDxzcGFuIHN0eWxlPSJjb2xvcjogYmx1ZTsiPiBQcm9iYXIgZWwgbW9kZWxvIDwvc3Bhbj4NCmBgYHtyfQ0KcHJ1ZWJhIDwtIGRhdGEuZnJhbWUoDQogIFBjbGFzcyA9IGMoMSwzKSwNCiAgU2V4ID0gZmFjdG9yKGMoImZlbWFsZSIsIm1hbGUiKSksDQogIEFnZSA9IGMoMjUsNDApDQopDQoNCnByb2JhYmlsaWRhZCA8LSBwcmVkaWN0KG1vZGVsbywgbmV3ZGF0YSA9IHBydWViYSwgdHlwZSA9ICJyZXNwb25zZSIpDQpjYmluZChwcnVlYmEsIFByb2JhYmlsaWRhZF9Tb2JyZXZpdmUgPSBwcm9iYWJpbGlkYWQpDQoNCmBgYA0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0K

Regresion logística

Antonio Cárdenas Duarte - A01568908

2025-08-29