##Parte1 1.1 Realizar un análisis grafico de los individuos con/sin cáncer de pulmón: Para este análisis grafico he decidido mostrar en graficas simples las variables que mas peso tienen en la decisión final sobre la existencia o no de cáncer de pulmón.

#1.2 Comparación estadística de los individuos con/sin cáncer de pulmón El código es mostrado a consciencia, para complementar los resultados.

# Tabla de contingencia
table_smoking <- table(data$SMOKING, data$LUNG_CANCER)
chisq.test(table_smoking) 
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table_smoking
## X-squared = 0.72251, df = 1, p-value = 0.3953
#Cancer de pulmon segun la edad
t.test(AGE ~ LUNG_CANCER, data = data) 
## 
##  Welch Two Sample t-test
## 
## data:  AGE by LUNG_CANCER
## t = -1.3662, df = 45.822, p-value = 0.1785
## alternative hypothesis: true difference in means between group NO and group YES is not equal to 0
## 95 percent confidence interval:
##  -5.462121  1.045597
## sample estimates:
##  mean in group NO mean in group YES 
##          60.74359          62.95185

#1.3 Modelo predictivo del cáncer de pulmón con RANDOM FOREST Aquí el codigo es mostrado a consciencia, para que se entienda mejor y no se vea solo el resultado de la matriz de confusión.

#Primero convertimos las variables a factores
data <- data %>%
  mutate(across(everything(), as.factor))
#Division en entrenamiento y prueba
set.seed(123)
train_index <- sample(1:nrow(data), 0.7 * nrow(data))
train_data <- data[train_index, ]
test_data <- data[-train_index, ]
#Entrenar modelo 
rf_model <- randomForest(LUNG_CANCER ~ ., data = train_data, importance = TRUE)
predictions <- predict(rf_model, test_data)
confusion_matrix <- table(Predicted = predictions, Actual = test_data$LUNG_CANCER)

print(confusion_matrix)
##          Actual
## Predicted NO YES
##       NO   3   1
##       YES 10  79

#DASHBOARD RESULTANTE

Shiny applications not supported in static R Markdown documents