library(readxl)
Evidencia <- read_excel("Fojal3.xlsx")
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Tiempo <- dplyr::select(Evidencia,Tiempo)
filtrar <- filter(Evidencia, Tiempo %in% c(1999, 2000))
filtrar <- na.omit(filtrar)
mean_valor <- mean(filtrar$Valor)
mean_valor2 <- mean(filtrar$Valor2)
mean_valor3 <- mean(filtrar$Valor3)
print(paste("Promedio Valor:", round(mean_valor, 4)))
## [1] "Promedio Valor: 0.1497"
print(paste("Promedio Valor2:", round(mean_valor2, 4)))
## [1] "Promedio Valor2: 0.2088"
print(paste("Promedio Valor3:", round(mean_valor3, 4)))
## [1] "Promedio Valor3: 0.0546"
filtrar$Clase_dummy <- as.numeric(factor(filtrar$Clase,
levels = c("Uno")))
m1 <- glm(Salida ~ Valor + Valor2 + Valor3, data = filtrar, family = binomial)
summary(m1)
##
## Call:
## glm(formula = Salida ~ Valor + Valor2 + Valor3, family = binomial,
## data = filtrar)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.0628 0.9833 -3.115 0.00184 **
## Valor 4.4719 2.2003 2.032 0.04212 *
## Valor2 0.6260 0.8967 0.698 0.48513
## Valor3 -43.2958 18.8553 -2.296 0.02166 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 57.364 on 265 degrees of freedom
## Residual deviance: 44.168 on 262 degrees of freedom
## AIC: 52.168
##
## Number of Fisher Scoring iterations: 7
m2 <- glm(Salida ~ Valor + Valor2 + Valor3 + Clase_dummy, data = filtrar, family = binomial)
summary(m2)
##
## Call:
## glm(formula = Salida ~ Valor + Valor2 + Valor3 + Clase_dummy,
## family = binomial, data = filtrar)
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -8.290 5.311 -1.561 0.119
## Valor 14.139 10.703 1.321 0.186
## Valor2 2.792 4.673 0.598 0.550
## Valor3 -29.339 50.717 -0.578 0.563
## Clase_dummy NA NA NA NA
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 10.2381 on 61 degrees of freedom
## Residual deviance: 5.5496 on 58 degrees of freedom
## (204 observations deleted due to missingness)
## AIC: 13.55
##
## Number of Fisher Scoring iterations: 9
#” En este caso el Modelo 2 que viene siendo el M2 es considerado un mejor modelo ya que tenemos un AIC de 13.55 comparado a un AIC de 52.168. El M2 es un modelo mas ajustado en relacion al M1 ”
#” Para la pregunta 4 si es posible hacer un arbol de decision, en base a lo que vimos en clase se tendiran que usar variables numericas y que esten limpias de NAs, en el caso de la “x” e “y” se pueden mantener igual tomando en cuenta que cumpla con el formato. Para la variable de salida si es obligatorio convertirla en un factor ”
#” En el caso de los dos modelos de regresion se le pueden agregar mas informacion o jugar con mas valores dummy, tambien una matriz de confusion con variables nuevas puede generar un analisis mas profundo ”
#“Para el caso del arbol agregar, hacer una limpieza del arbol tambien conocida como podar y añadir un punto maximo hasta donde pueda llegar el arbol para que no siga creciendo con ramas irrelevantes creando un arbol mas limpio y visible despues de los ajustes”