library(readxl)
Evidencia <- read_excel("Fojal3.xlsx")
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
Tiempo <- dplyr::select(Evidencia,Tiempo)
filtrar <- filter(Evidencia, Tiempo %in% c(1999, 2000))
filtrar <- na.omit(filtrar)
mean_valor  <- mean(filtrar$Valor)
mean_valor2 <- mean(filtrar$Valor2)
mean_valor3 <- mean(filtrar$Valor3)
print(paste("Promedio Valor:", round(mean_valor, 4)))
## [1] "Promedio Valor: 0.1497"
print(paste("Promedio Valor2:", round(mean_valor2, 4)))
## [1] "Promedio Valor2: 0.2088"
print(paste("Promedio Valor3:", round(mean_valor3, 4)))
## [1] "Promedio Valor3: 0.0546"
filtrar$Clase_dummy <- as.numeric(factor(filtrar$Clase,
                              levels = c("Uno")))
m1 <- glm(Salida ~ Valor + Valor2 + Valor3, data = filtrar, family = binomial)
summary(m1)
## 
## Call:
## glm(formula = Salida ~ Valor + Valor2 + Valor3, family = binomial, 
##     data = filtrar)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -3.0628     0.9833  -3.115  0.00184 **
## Valor         4.4719     2.2003   2.032  0.04212 * 
## Valor2        0.6260     0.8967   0.698  0.48513   
## Valor3      -43.2958    18.8553  -2.296  0.02166 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 57.364  on 265  degrees of freedom
## Residual deviance: 44.168  on 262  degrees of freedom
## AIC: 52.168
## 
## Number of Fisher Scoring iterations: 7
m2 <- glm(Salida ~ Valor + Valor2 + Valor3 + Clase_dummy, data = filtrar, family = binomial)
summary(m2)
## 
## Call:
## glm(formula = Salida ~ Valor + Valor2 + Valor3 + Clase_dummy, 
##     family = binomial, data = filtrar)
## 
## Coefficients: (1 not defined because of singularities)
##             Estimate Std. Error z value Pr(>|z|)
## (Intercept)   -8.290      5.311  -1.561    0.119
## Valor         14.139     10.703   1.321    0.186
## Valor2         2.792      4.673   0.598    0.550
## Valor3       -29.339     50.717  -0.578    0.563
## Clase_dummy       NA         NA      NA       NA
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10.2381  on 61  degrees of freedom
## Residual deviance:  5.5496  on 58  degrees of freedom
##   (204 observations deleted due to missingness)
## AIC: 13.55
## 
## Number of Fisher Scoring iterations: 9

#” En este caso el Modelo 2 que viene siendo el M2 es considerado un mejor modelo ya que tenemos un AIC de 13.55 comparado a un AIC de 52.168. El M2 es un modelo mas ajustado en relacion al M1 ”

#” Para la pregunta 4 si es posible hacer un arbol de decision, en base a lo que vimos en clase se tendiran que usar variables numericas y que esten limpias de NAs, en el caso de la “x” e “y” se pueden mantener igual tomando en cuenta que cumpla con el formato. Para la variable de salida si es obligatorio convertirla en un factor ”

#” En el caso de los dos modelos de regresion se le pueden agregar mas informacion o jugar con mas valores dummy, tambien una matriz de confusion con variables nuevas puede generar un analisis mas profundo ”

#“Para el caso del arbol agregar, hacer una limpieza del arbol tambien conocida como podar y añadir un punto maximo hasta donde pueda llegar el arbol para que no siga creciendo con ramas irrelevantes creando un arbol mas limpio y visible despues de los ajustes”