##Parte1 1.1 Realizar un análisis grafico de los individuos con/sin cáncer de pulmón: Para este análisis grafico he decidido mostrar en graficas simples las variables que mas peso tienen en la decisión final sobre la existencia o no de cáncer de pulmón.
#1.2 Comparación estadística de los individuos con/sin cáncer de pulmón
El código es mostrado a consciencia, para complementar los
resultados.
# Tabla de contingencia
table_smoking <- table(data$SMOKING, data$LUNG_CANCER)
chisq.test(table_smoking)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table_smoking
## X-squared = 0.72251, df = 1, p-value = 0.3953
#Cancer de pulmon segun la edad
t.test(AGE ~ LUNG_CANCER, data = data)
##
## Welch Two Sample t-test
##
## data: AGE by LUNG_CANCER
## t = -1.3662, df = 45.822, p-value = 0.1785
## alternative hypothesis: true difference in means between group NO and group YES is not equal to 0
## 95 percent confidence interval:
## -5.462121 1.045597
## sample estimates:
## mean in group NO mean in group YES
## 60.74359 62.95185
#1.3 Modelo predictivo del cáncer de pulmón con RANDOM FOREST Aquí el codigo es mostrado a consciencia, para que se entienda mejor y no se vea solo el resultado de la matriz de confusión.
#Primero convertimos las variables a factores
data <- data %>%
mutate(across(everything(), as.factor))
#Division en entrenamiento y prueba
set.seed(123)
train_index <- sample(1:nrow(data), 0.7 * nrow(data))
train_data <- data[train_index, ]
test_data <- data[-train_index, ]
#Entrenar modelo
rf_model <- randomForest(LUNG_CANCER ~ ., data = train_data, importance = TRUE)
predictions <- predict(rf_model, test_data)
confusion_matrix <- table(Predicted = predictions, Actual = test_data$LUNG_CANCER)
print(confusion_matrix)
## Actual
## Predicted NO YES
## NO 3 1
## YES 10 79
#DASHBOARD RESULTANTE