Teoría

el paquete Caret (classification and regression training) es un paquete integral con una amplia variedad de algoritmos para el aprendizaje automático.

Instalar paquetes y llamar librerías

ˆ

#install.packages("ggplot2")
library("ggplot2")
#install.packages("lattice") # crear gráficos 
library("lattice")
#install.packages("caret") #algoritmos de aprendizaje automatico
library("caret")
#install.packages("datasets") #Usar bd en, en este caso iris
library("datasets")
#install.packages("DataExplorer") #analisis exploratorio
library("DataExplorer")
library(nnet)

Crear la base de datos

df<- data.frame(iris)

Entender la bd

summary(df)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 
str(df)
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
#create_report(df)
plot_missing(df)

plot_histogram(df)

plot_correlation(df)

Nota: la variabole que queremos predecir debe tener formato de FACTOR

Partir la base de datos

#Normalmente 80-20
set.seed(123) #num aleatorios son los mismos
renglones_entrenamiento<-createDataPartition(df$Species,p=.8,list=FALSE)
entrenamiento<-iris[renglones_entrenamiento,]
prueba<-iris[-renglones_entrenamiento,]

Distintos tipos de metodos para modelar

Loa métodos más utilizados oara modelar aprendizajes automatico son: * SV: Support vector machine o máquina de vectores de soporte. Hay varios subtipos: Lineal(svmLinear), Radial (svmRadial), Polinomico (svmPoly), etc.

  • Árbol de Decisión: rpart
  • Redes Neuronales: nnet
  • Random Forest o Bosques Aleatorios: rf

Modelo 1. SVM Lineal

modelo1<- train(Species ~ ., data=entrenamiento,
                method = "svmLinear", #cambiar
                preProcess= c("scale","center"),
                trControl=trainControl(method = "cv", number = 10),
                tuneGride=data.frame(c=1))#cambiar
resultado_entrenamiento1<- predict(modelo1,entrenamiento)
resultado_prueba<-predict(modelo1,prueba)
#matriz de confusión 
#es una tabla de evaluación que desgloda el rendimiento del modelo de clasificacion
#matriz de confusion del resultado del entrenamiento
mcre1<- confusionMatrix(resultado_entrenamiento1,entrenamiento$Species)
mcre1
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         40          0         0
##   versicolor      0         39         0
##   virginica       0          1        40
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9917          
##                  95% CI : (0.9544, 0.9998)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.9875          
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            0.9750           1.0000
## Specificity                 1.0000            1.0000           0.9875
## Pos Pred Value              1.0000            1.0000           0.9756
## Neg Pred Value              1.0000            0.9877           1.0000
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3250           0.3333
## Detection Prevalence        0.3333            0.3250           0.3417
## Balanced Accuracy           1.0000            0.9875           0.9938
mcrp1<- confusionMatrix(resultado_prueba, prueba$Species)
mcrp1
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         10          0         0
##   versicolor      0         10         1
##   virginica       0          0         9
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9667          
##                  95% CI : (0.8278, 0.9992)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : 2.963e-13       
##                                           
##                   Kappa : 0.95            
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            1.0000           0.9000
## Specificity                 1.0000            0.9500           1.0000
## Pos Pred Value              1.0000            0.9091           1.0000
## Neg Pred Value              1.0000            1.0000           0.9524
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3333           0.3000
## Detection Prevalence        0.3333            0.3667           0.3000
## Balanced Accuracy           1.0000            0.9750           0.9500

Modelo 2. SVM Lineal

modelo2<- train(Species ~ ., data=entrenamiento,
                method = "svmRadial", #cambiar
                preProcess= c("scale","center"),
                trControl=trainControl(method = "cv", number = 10),
                tuneGride=data.frame(sigma=1,C=1)
                ) #cambiar

resultado_entrenamiento2<- predict(modelo1,entrenamiento)
resultado_prueba2<-predict(modelo2,prueba)
#matriz de confusión 
#es una tabla de evaluación que desgloda el rendimiento del modelo de clasificacion
#matriz de confusion del resultado del entrenamiento
mcre2<- confusionMatrix(resultado_entrenamiento2,entrenamiento$Species)
mcre2
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         40          0         0
##   versicolor      0         39         0
##   virginica       0          1        40
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9917          
##                  95% CI : (0.9544, 0.9998)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.9875          
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            0.9750           1.0000
## Specificity                 1.0000            1.0000           0.9875
## Pos Pred Value              1.0000            1.0000           0.9756
## Neg Pred Value              1.0000            0.9877           1.0000
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3250           0.3333
## Detection Prevalence        0.3333            0.3250           0.3417
## Balanced Accuracy           1.0000            0.9875           0.9938
mcrp2<- confusionMatrix(resultado_prueba, prueba$Species)
mcrp2
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         10          0         0
##   versicolor      0         10         1
##   virginica       0          0         9
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9667          
##                  95% CI : (0.8278, 0.9992)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : 2.963e-13       
##                                           
##                   Kappa : 0.95            
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            1.0000           0.9000
## Specificity                 1.0000            0.9500           1.0000
## Pos Pred Value              1.0000            0.9091           1.0000
## Neg Pred Value              1.0000            1.0000           0.9524
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3333           0.3000
## Detection Prevalence        0.3333            0.3667           0.3000
## Balanced Accuracy           1.0000            0.9750           0.9500

Modelo 3. SVM Lineal

modelo3 <- train(Species ~ ., data=entrenamiento,
                  method = "svmPoly", #Cambiar
                  preProcess=c("scale", "center"),
                  trControl = trainControl(method="cv", number=10),
                  tuneGride = data.frame(degree=1, scale=1, C=1) #cambiar
                  )

resultado_entrenamiento3 <-  predict(modelo3, entrenamiento)
resultado_prueba3 <-  predict(modelo3, prueba)

# Matriz de Confusión
# Es una tabla de evaluación que desglosa el rendimiento del modelo de clasificación.

# Matriz de Confusión del Resultado del Entrenamiento
mcre3 <- confusionMatrix(resultado_entrenamiento3, entrenamiento$Species)
mcre3
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         40          0         0
##   versicolor      0         40         4
##   virginica       0          0        36
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9667          
##                  95% CI : (0.9169, 0.9908)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.95            
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            1.0000           0.9000
## Specificity                 1.0000            0.9500           1.0000
## Pos Pred Value              1.0000            0.9091           1.0000
## Neg Pred Value              1.0000            1.0000           0.9524
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3333           0.3000
## Detection Prevalence        0.3333            0.3667           0.3000
## Balanced Accuracy           1.0000            0.9750           0.9500
# Matriz de Confusión del Resultado de la Prueba
mcrp3 <- confusionMatrix(resultado_prueba3, prueba$Species)
mcrp3
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         10          0         0
##   versicolor      0         10         2
##   virginica       0          0         8
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9333          
##                  95% CI : (0.7793, 0.9918)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : 8.747e-12       
##                                           
##                   Kappa : 0.9             
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            1.0000           0.8000
## Specificity                 1.0000            0.9000           1.0000
## Pos Pred Value              1.0000            0.8333           1.0000
## Neg Pred Value              1.0000            1.0000           0.9091
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3333           0.2667
## Detection Prevalence        0.3333            0.4000           0.2667
## Balanced Accuracy           1.0000            0.9500           0.9000

Modelo 4. Árbol de Decisión

modelo4 <- train(Species ~ ., data=entrenamiento,
                  method = "rpart", #Cambiar
                  preProcess=c("scale", "center"),
                  trControl = trainControl(method="cv", number=10),
                  tuneLength = 10 # cambiar
                  )

resultado_entrenamiento4 <-  predict(modelo4, entrenamiento)
resultado_prueba4 <-  predict(modelo4, prueba)

# Matriz de Confusión
# Es una tabla de evaluación que desglosa el rendimiento del modelo de clasificación.

# Matriz de Confusión del Resultado del Entrenamiento
mcre4 <- confusionMatrix(resultado_entrenamiento4, entrenamiento$Species)
mcre4
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         40          0         0
##   versicolor      0         39         3
##   virginica       0          1        37
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9667          
##                  95% CI : (0.9169, 0.9908)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.95            
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            0.9750           0.9250
## Specificity                 1.0000            0.9625           0.9875
## Pos Pred Value              1.0000            0.9286           0.9737
## Neg Pred Value              1.0000            0.9872           0.9634
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3250           0.3083
## Detection Prevalence        0.3333            0.3500           0.3167
## Balanced Accuracy           1.0000            0.9688           0.9563
# Matriz de Confusión del Resultado de la Prueba
mcrp4 <- confusionMatrix(resultado_prueba4, prueba$Species)
mcrp4
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         10          0         0
##   versicolor      0         10         2
##   virginica       0          0         8
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9333          
##                  95% CI : (0.7793, 0.9918)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : 8.747e-12       
##                                           
##                   Kappa : 0.9             
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            1.0000           0.8000
## Specificity                 1.0000            0.9000           1.0000
## Pos Pred Value              1.0000            0.8333           1.0000
## Neg Pred Value              1.0000            1.0000           0.9091
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3333           0.2667
## Detection Prevalence        0.3333            0.4000           0.2667
## Balanced Accuracy           1.0000            0.9500           0.9000

Modelo 5. Redes Neuronales

modelo5 <- train(
  Species ~ .,
  data = entrenamiento,
  method = "nnet",
  preProcess = c("center", "scale"),
  trControl = trainControl(method = "cv", number = 10),
  tuneLength = 5,        # o usa tuneGrid si quieres controlar size/decay
  trace = FALSE,
  MaxNWts = 5000         # por si hay muchas variables/pesos
)

resultado_entrenamiento5 <-  predict(modelo5, entrenamiento)
resultado_prueba5 <-  predict(modelo5, prueba)

# Matriz de Confusión
# Es una tabla de evaluación que desglosa el rendimiento del modelo de clasificación.

# Matriz de Confusión del Resultado del Entrenamiento
mcre5 <- confusionMatrix(resultado_entrenamiento5, entrenamiento$Species)
mcre5
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         40          0         0
##   versicolor      0         36         0
##   virginica       0          4        40
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9667          
##                  95% CI : (0.9169, 0.9908)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.95            
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            0.9000           1.0000
## Specificity                 1.0000            1.0000           0.9500
## Pos Pred Value              1.0000            1.0000           0.9091
## Neg Pred Value              1.0000            0.9524           1.0000
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3000           0.3333
## Detection Prevalence        0.3333            0.3000           0.3667
## Balanced Accuracy           1.0000            0.9500           0.9750
# Matriz de Confusión del Resultado de la Prueba
mcrp5 <- confusionMatrix(resultado_prueba5, prueba$Species)
mcrp5
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         10          0         0
##   versicolor      0          9         0
##   virginica       0          1        10
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9667          
##                  95% CI : (0.8278, 0.9992)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : 2.963e-13       
##                                           
##                   Kappa : 0.95            
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            0.9000           1.0000
## Specificity                 1.0000            1.0000           0.9500
## Pos Pred Value              1.0000            1.0000           0.9091
## Neg Pred Value              1.0000            0.9524           1.0000
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3000           0.3333
## Detection Prevalence        0.3333            0.3000           0.3667
## Balanced Accuracy           1.0000            0.9500           0.9750

Modelo 6. Bosques Aleatorios

modelo6 <- train(Species ~ ., data = entrenamiento,
                 method = "rf", #Cambiar
                 preProcess = c("scale", "center"),
                 trControl = trainControl(method = "cv", number = 10),
                 tuneGrid = expand.grid(mtry = c(2,4,6)) #Cambiar
)
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
## Warning in randomForest.default(x, y, mtry = param$mtry, ...): invalid mtry:
## reset to within valid range
resultado_entrenamiento6 <- predict(modelo6, entrenamiento)
resultado_prueba6 <- predict(modelo6, prueba)

# Matriz de Confusión
# Es una tabla de evaluación que desglosa el rendimiento del modelo de clasificación.

# Matriz de Confusión del Resultado del Entrenamiento
mcre6 <- confusionMatrix(resultado_entrenamiento6, entrenamiento$Species)
mcre6
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         40          0         0
##   versicolor      0         40         0
##   virginica       0          0        40
## 
## Overall Statistics
##                                      
##                Accuracy : 1          
##                  95% CI : (0.9697, 1)
##     No Information Rate : 0.3333     
##     P-Value [Acc > NIR] : < 2.2e-16  
##                                      
##                   Kappa : 1          
##                                      
##  Mcnemar's Test P-Value : NA         
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            1.0000           1.0000
## Specificity                 1.0000            1.0000           1.0000
## Pos Pred Value              1.0000            1.0000           1.0000
## Neg Pred Value              1.0000            1.0000           1.0000
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3333           0.3333
## Detection Prevalence        0.3333            0.3333           0.3333
## Balanced Accuracy           1.0000            1.0000           1.0000
# Matriz de Confusión del Resultado de la Prueba
mcrp6 <- confusionMatrix(resultado_prueba6, prueba$Species)
mcrp6
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   setosa versicolor virginica
##   setosa         10          0         0
##   versicolor      0         10         2
##   virginica       0          0         8
## 
## Overall Statistics
##                                           
##                Accuracy : 0.9333          
##                  95% CI : (0.7793, 0.9918)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : 8.747e-12       
##                                           
##                   Kappa : 0.9             
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: setosa Class: versicolor Class: virginica
## Sensitivity                 1.0000            1.0000           0.8000
## Specificity                 1.0000            0.9000           1.0000
## Pos Pred Value              1.0000            0.8333           1.0000
## Neg Pred Value              1.0000            1.0000           0.9091
## Prevalence                  0.3333            0.3333           0.3333
## Detection Rate              0.3333            0.3333           0.2667
## Detection Prevalence        0.3333            0.4000           0.2667
## Balanced Accuracy           1.0000            0.9500           0.9000

Tabla de Resultados

resultados <- data.frame(
  "svmLinear" = c(mcre1$overall["Accuracy"], mcrp1$overall["Accuracy"]),
  "svmRadial" = c(mcre2$overall["Accuracy"], mcrp2$overall["Accuracy"]),
  "svmPoly"   = c(mcre3$overall["Accuracy"], mcrp3$overall["Accuracy"]),
  "rpart"     = c(mcre4$overall["Accuracy"], mcrp4$overall["Accuracy"]),
  "nnet"      = c(mcre5$overall["Accuracy"], mcrp5$overall["Accuracy"]),
  "rf"        = c(mcre6$overall["Accuracy"], mcrp6$overall["Accuracy"])
)

# Add a third row: difference
diff_row <- resultados[1, ] - resultados[2, ]
resultados <- rbind(resultados, diff_row)

rownames(resultados) <-  c("Precisión de entrenamiento", "Precisión de prueba", "Diferencia")
resultados
##                            svmLinear svmRadial    svmPoly      rpart      nnet
## Precisión de entrenamiento 0.9916667 0.9916667 0.96666667 0.96666667 0.9666667
## Precisión de prueba        0.9666667 0.9666667 0.93333333 0.93333333 0.9666667
## Diferencia                 0.0250000 0.0250000 0.03333333 0.03333333 0.0000000
##                                    rf
## Precisión de entrenamiento 1.00000000
## Precisión de prueba        0.93333333
## Diferencia                 0.06666667

Conclusiones

Acorde a la tabla de resultados, observamos que ningún método presenta sobreajuste. Podemos seleccionar el de svmLinear por su desempeño.

---
title: "Caret"
author: "Karla Mireya Velderrain A00227411"
date: "2025-08-22"
output: 
  html_document:
    toc: true
    toc_float: true
    code_download: true
    theme: simplex
---

# <span style="color:#1874CD"> Teoría </span>
el paquete **Caret (classification and regression training)** es un paquete integral con una amplia variedad de algoritmos para el aprendizaje automático.

# <span style="color:#1874CD"> Instalar paquetes y llamar librerías </span>
ˆ
```{r}
#install.packages("ggplot2")
library("ggplot2")
#install.packages("lattice") # crear gráficos 
library("lattice")
#install.packages("caret") #algoritmos de aprendizaje automatico
library("caret")
#install.packages("datasets") #Usar bd en, en este caso iris
library("datasets")
#install.packages("DataExplorer") #analisis exploratorio
library("DataExplorer")
library(nnet)
```

# <span style="color:#1874CD"> Crear la base de datos </span>

```{r}
df<- data.frame(iris)
```

# <span style="color:#1874CD"> Entender la bd </span>

```{r}
summary(df)
str(df)
#create_report(df)
plot_missing(df)
plot_histogram(df)
plot_correlation(df)
```
**Nota: la variabole que queremos predecir debe tener formato de FACTOR**

# <span style="color:#1874CD"> Partir la base de datos </span>
```{r}
#Normalmente 80-20
set.seed(123) #num aleatorios son los mismos
renglones_entrenamiento<-createDataPartition(df$Species,p=.8,list=FALSE)
entrenamiento<-iris[renglones_entrenamiento,]
prueba<-iris[-renglones_entrenamiento,]
```

# <span style="color:#1874CD"> Distintos tipos de metodos para modelar </span>
Loa métodos  más  utilizados oara modelar aprendizajes automatico son:
* **SV**: *Support vector machine* o máquina de vectores de soporte. Hay varios subtipos: Lineal(svmLinear), Radial (svmRadial), Polinomico (svmPoly), etc.

* **Árbol de Decisión**: rpart
* **Redes Neuronales**: nnet
* **Random Forest** o Bosques Aleatorios: rf

# <span style="color:#1874CD"> Modelo 1. SVM Lineal  </span>
```{r}
modelo1<- train(Species ~ ., data=entrenamiento,
                method = "svmLinear", #cambiar
                preProcess= c("scale","center"),
                trControl=trainControl(method = "cv", number = 10),
                tuneGride=data.frame(c=1))#cambiar
resultado_entrenamiento1<- predict(modelo1,entrenamiento)
resultado_prueba<-predict(modelo1,prueba)
#matriz de confusión 
#es una tabla de evaluación que desgloda el rendimiento del modelo de clasificacion
#matriz de confusion del resultado del entrenamiento
mcre1<- confusionMatrix(resultado_entrenamiento1,entrenamiento$Species)
mcre1

mcrp1<- confusionMatrix(resultado_prueba, prueba$Species)
mcrp1

```

# <span style="color:#1874CD"> Modelo 2. SVM Lineal  </span>

```{r}
modelo2<- train(Species ~ ., data=entrenamiento,
                method = "svmRadial", #cambiar
                preProcess= c("scale","center"),
                trControl=trainControl(method = "cv", number = 10),
                tuneGride=data.frame(sigma=1,C=1)
                ) #cambiar

resultado_entrenamiento2<- predict(modelo1,entrenamiento)
resultado_prueba2<-predict(modelo2,prueba)
#matriz de confusión 
#es una tabla de evaluación que desgloda el rendimiento del modelo de clasificacion
#matriz de confusion del resultado del entrenamiento
mcre2<- confusionMatrix(resultado_entrenamiento2,entrenamiento$Species)
mcre2

mcrp2<- confusionMatrix(resultado_prueba, prueba$Species)
mcrp2
```

# <span style="color:#1874CD"> Modelo 3. SVM Lineal  </span>

```{r}
modelo3 <- train(Species ~ ., data=entrenamiento,
                  method = "svmPoly", #Cambiar
                  preProcess=c("scale", "center"),
                  trControl = trainControl(method="cv", number=10),
                  tuneGride = data.frame(degree=1, scale=1, C=1) #cambiar
                  )

resultado_entrenamiento3 <-  predict(modelo3, entrenamiento)
resultado_prueba3 <-  predict(modelo3, prueba)

# Matriz de Confusión
# Es una tabla de evaluación que desglosa el rendimiento del modelo de clasificación.

# Matriz de Confusión del Resultado del Entrenamiento
mcre3 <- confusionMatrix(resultado_entrenamiento3, entrenamiento$Species)
mcre3

# Matriz de Confusión del Resultado de la Prueba
mcrp3 <- confusionMatrix(resultado_prueba3, prueba$Species)
mcrp3
```

# <span style="color: #1874CD"> Modelo 4. Árbol de Decisión </span>

```{r}
modelo4 <- train(Species ~ ., data=entrenamiento,
                  method = "rpart", #Cambiar
                  preProcess=c("scale", "center"),
                  trControl = trainControl(method="cv", number=10),
                  tuneLength = 10 # cambiar
                  )

resultado_entrenamiento4 <-  predict(modelo4, entrenamiento)
resultado_prueba4 <-  predict(modelo4, prueba)

# Matriz de Confusión
# Es una tabla de evaluación que desglosa el rendimiento del modelo de clasificación.

# Matriz de Confusión del Resultado del Entrenamiento
mcre4 <- confusionMatrix(resultado_entrenamiento4, entrenamiento$Species)
mcre4

# Matriz de Confusión del Resultado de la Prueba
mcrp4 <- confusionMatrix(resultado_prueba4, prueba$Species)
mcrp4
```

# <span style="color: #1874CD"> Modelo 5. Redes Neuronales </span>

```{r}
modelo5 <- train(
  Species ~ .,
  data = entrenamiento,
  method = "nnet",
  preProcess = c("center", "scale"),
  trControl = trainControl(method = "cv", number = 10),
  tuneLength = 5,        # o usa tuneGrid si quieres controlar size/decay
  trace = FALSE,
  MaxNWts = 5000         # por si hay muchas variables/pesos
)

resultado_entrenamiento5 <-  predict(modelo5, entrenamiento)
resultado_prueba5 <-  predict(modelo5, prueba)

# Matriz de Confusión
# Es una tabla de evaluación que desglosa el rendimiento del modelo de clasificación.

# Matriz de Confusión del Resultado del Entrenamiento
mcre5 <- confusionMatrix(resultado_entrenamiento5, entrenamiento$Species)
mcre5

# Matriz de Confusión del Resultado de la Prueba
mcrp5 <- confusionMatrix(resultado_prueba5, prueba$Species)
mcrp5
```

# <span style="color: #1874CD"> Modelo 6. Bosques Aleatorios </span>

```{r}
modelo6 <- train(Species ~ ., data = entrenamiento,
                 method = "rf", #Cambiar
                 preProcess = c("scale", "center"),
                 trControl = trainControl(method = "cv", number = 10),
                 tuneGrid = expand.grid(mtry = c(2,4,6)) #Cambiar
)
resultado_entrenamiento6 <- predict(modelo6, entrenamiento)
resultado_prueba6 <- predict(modelo6, prueba)

# Matriz de Confusión
# Es una tabla de evaluación que desglosa el rendimiento del modelo de clasificación.

# Matriz de Confusión del Resultado del Entrenamiento
mcre6 <- confusionMatrix(resultado_entrenamiento6, entrenamiento$Species)
mcre6

# Matriz de Confusión del Resultado de la Prueba
mcrp6 <- confusionMatrix(resultado_prueba6, prueba$Species)
mcrp6
```

# <span style="color: #1874CD"> Tabla de Resultados </span>

```{r}
resultados <- data.frame(
  "svmLinear" = c(mcre1$overall["Accuracy"], mcrp1$overall["Accuracy"]),
  "svmRadial" = c(mcre2$overall["Accuracy"], mcrp2$overall["Accuracy"]),
  "svmPoly"   = c(mcre3$overall["Accuracy"], mcrp3$overall["Accuracy"]),
  "rpart"     = c(mcre4$overall["Accuracy"], mcrp4$overall["Accuracy"]),
  "nnet"      = c(mcre5$overall["Accuracy"], mcrp5$overall["Accuracy"]),
  "rf"        = c(mcre6$overall["Accuracy"], mcrp6$overall["Accuracy"])
)

# Add a third row: difference
diff_row <- resultados[1, ] - resultados[2, ]
resultados <- rbind(resultados, diff_row)

rownames(resultados) <-  c("Precisión de entrenamiento", "Precisión de prueba", "Diferencia")
resultados
```

# <span style="color: #1874CD"> Conclusiones </span>
Acorde a la tabla de resultados, observamos que ningún método presenta sobreajuste. Podemos seleccionar el de **svmLinear** por su desempeño.



