1 Resumen Ejecutivo

Objetivo del Análisis: Este documento presenta un análisis exhaustivo del célebre dataset Iris de Ronald Fisher (1936), implementando técnicas modernas de estadística multivariada y aprendizaje automático. Se evalúan patrones morfológicos de tres especies de iris y se construye un modelo predictivo robusto mediante Análisis Discriminante Lineal (LDA).

Hallazgos Clave: - Las tres especies presentan diferencias morfológicas significativas y estadísticamente validadas - El modelo LDA alcanza una precisión superior al 97% en clasificación - Iris setosa es perfectamente separable, mientras que versicolor y virginica presentan solapamiento marginal

2 Exploración de Datos

2.1 Descripción del Dataset

El dataset Iris es un conjunto de datos multivariado introducido por el estadístico británico Ronald Fisher en su artículo seminal de 1936. Contiene 150 observaciones de flores de iris, distribuidas equitativamente entre tres especies: Iris setosa, Iris versicolor e Iris virginica.

data(iris)

# Crear tabla descriptiva elegante
iris %>%
  head(10) %>%
  kable(caption = "Tabla 1: Primeras 10 observaciones del dataset Iris",
        align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
                full_width = FALSE,
                position = "center") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea")

Tabla 1: Primeras 10 observaciones del dataset Iris
Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	Species
5.1	3.5	1.4	0.2	setosa
4.9	3.0	1.4	0.2	setosa
4.7	3.2	1.3	0.2	setosa
4.6	3.1	1.5	0.2	setosa
5.0	3.6	1.4	0.2	setosa
5.4	3.9	1.7	0.4	setosa
4.6	3.4	1.4	0.3	setosa
5.0	3.4	1.5	0.2	setosa
4.4	2.9	1.4	0.2	setosa
4.9	3.1	1.5	0.1	setosa

Estructura de los Datos: El dataset consta de 4 variables predictoras continuas (longitud y ancho de sépalos y pétalos, medidas en cm) y 1 variable categórica objetivo (especie). Cada especie está representada por exactamente 50 observaciones, garantizando un diseño balanceado ideal para análisis discriminante.

2.2 Estadística Descriptiva

# Estadísticas descriptivas por variable
stats_summary <- iris %>%
  dplyr::select(Sepal.Length, Sepal.Width, Petal.Length, Petal.Width) %>%
  summarise(across(everything(), 
                   list(Media = mean, 
                        DE = sd, 
                        Min = min, 
                        Q1 = ~quantile(., 0.25),
                        Mediana = median,
                        Q3 = ~quantile(., 0.75),
                        Max = max),
                   .names = "{.col}_{.fn}")) %>%
  pivot_longer(everything(), names_to = "Estadistica", values_to = "Valor") %>%
  separate(Estadistica, into = c("Variable", "Medida"), sep = "_", extra = "merge") %>%
  pivot_wider(names_from = Medida, values_from = Valor)

stats_summary %>%
  kable(caption = "Tabla 2: Estadísticas descriptivas de variables morfológicas",
        digits = 2, align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea")

Tabla 2: Estadísticas descriptivas de variables morfológicas
Variable	Media	DE	Min	Q1	Mediana	Q3	Max
Sepal.Length	5.84	0.83	4.3	5.1	5.80	6.4	7.9
Sepal.Width	3.06	0.44	2.0	2.8	3.00	3.3	4.4
Petal.Length	3.76	1.77	1.0	1.6	4.35	5.1	6.9
Petal.Width	1.20	0.76	0.1	0.3	1.30	1.8	2.5

2.2.1 Estadísticas por Especie

# Medias por especie
species_means <- iris %>%
  group_by(Species) %>%
  summarise(
    Sepal.Length_Media = mean(Sepal.Length),
    Sepal.Length_DE = sd(Sepal.Length),
    Sepal.Width_Media = mean(Sepal.Width),
    Sepal.Width_DE = sd(Sepal.Width),
    Petal.Length_Media = mean(Petal.Length),
    Petal.Length_DE = sd(Petal.Length),
    Petal.Width_Media = mean(Petal.Width),
    Petal.Width_DE = sd(Petal.Width)
  ) %>%
  mutate(across(where(is.numeric), ~round(., 2)))

species_means %>%
  kable(caption = "Tabla 3: Estadísticas por especie (Media y Desviación Estándar)",
        align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea") %>%
  column_spec(1, bold = TRUE, color = "#2c3e50")

Tabla 3: Estadísticas por especie (Media y Desviación Estándar)
Species	Sepal.Length_Media	Sepal.Length_DE	Sepal.Width_Media	Sepal.Width_DE	Petal.Length_Media	Petal.Length_DE	Petal.Width_Media	Petal.Width_DE
setosa	5.01	0.35	3.43	0.38	1.46	0.17	0.25	0.11
versicolor	5.94	0.52	2.77	0.31	4.26	0.47	1.33	0.20
virginica	6.59	0.64	2.97	0.32	5.55	0.55	2.03	0.27

3 Análisis Exploratorio Visual

3.1 Distribuciones Univariadas

# Crear gráficos de densidad para cada variable
iris_long <- iris %>%
  pivot_longer(cols = -Species, names_to = "Variable", values_to = "Valor")

ggplot(iris_long, aes(x = Valor, fill = Species, color = Species)) +
  geom_density(alpha = 0.6, size = 1) +
  facet_wrap(~Variable, scales = "free", ncol = 2) +
  scale_fill_manual(values = colors_species) +
  scale_color_manual(values = colors_species) +
  labs(title = "Distribuciones de Densidad por Especie",
       subtitle = "Análisis de la separabilidad de características morfológicas",
       x = "Valor (cm)", y = "Densidad") +
  theme_custom +
  theme(legend.position = "bottom")

Figura 1: Distribuciones de variables morfológicas por especie

Interpretación: Las distribuciones revelan que Petal.Length y Petal.Width presentan la mayor separabilidad entre especies, siendo estas las variables más discriminantes. Iris setosa muestra una clara diferenciación en todas las características, mientras que versicolor y virginica exhiben solapamiento principalmente en medidas de sépalos.

3.2 Visualización Multivariada

# Matriz de pares mejorada
ggpairs(iris, 
        aes(color = Species, alpha = 0.7),
        columns = 1:4,
        upper = list(continuous = wrap("cor", size = 5)),
        lower = list(continuous = wrap("points", size = 1.5)),
        diag = list(continuous = wrap("densityDiag", alpha = 0.6))) +
  scale_fill_manual(values = colors_species) +
  scale_color_manual(values = colors_species) +
  labs(title = "Matriz de Dispersión Multivariada del Dataset Iris") +
  theme_custom +
  theme(strip.text = element_text(size = 10, face = "bold"))

Figura 2: Matriz de dispersión con correlaciones

3.3 Boxplots Comparativos

# Crear boxplots elegantes
p1 <- ggplot(iris, aes(x = Species, y = Sepal.Length, fill = Species)) +
  geom_boxplot(alpha = 0.8, outlier.color = "red", outlier.size = 2) +
  geom_jitter(width = 0.2, alpha = 0.3, size = 1) +
  scale_fill_manual(values = colors_species) +
  labs(title = "Longitud del Sépalo", y = "Longitud (cm)") +
  theme_custom + theme(legend.position = "none")

p2 <- ggplot(iris, aes(x = Species, y = Sepal.Width, fill = Species)) +
  geom_boxplot(alpha = 0.8, outlier.color = "red", outlier.size = 2) +
  geom_jitter(width = 0.2, alpha = 0.3, size = 1) +
  scale_fill_manual(values = colors_species) +
  labs(title = "Ancho del Sépalo", y = "Ancho (cm)") +
  theme_custom + theme(legend.position = "none")

p3 <- ggplot(iris, aes(x = Species, y = Petal.Length, fill = Species)) +
  geom_boxplot(alpha = 0.8, outlier.color = "red", outlier.size = 2) +
  geom_jitter(width = 0.2, alpha = 0.3, size = 1) +
  scale_fill_manual(values = colors_species) +
  labs(title = "Longitud del Pétalo", y = "Longitud (cm)") +
  theme_custom + theme(legend.position = "none")

p4 <- ggplot(iris, aes(x = Species, y = Petal.Width, fill = Species)) +
  geom_boxplot(alpha = 0.8, outlier.color = "red", outlier.size = 2) +
  geom_jitter(width = 0.2, alpha = 0.3, size = 1) +
  scale_fill_manual(values = colors_species) +
  labs(title = "Ancho del Pétalo", y = "Ancho (cm)") +
  theme_custom + theme(legend.position = "none")

grid.arrange(p1, p2, p3, p4, ncol = 2,
             top = "Comparación de Características Morfológicas entre Especies")

Figura 3: Distribución de características por especie

4 Análisis de Correlación

# Matriz de correlación
cor_matrix <- cor(iris[, 1:4])

# Visualización con corrplot
corrplot(cor_matrix, 
         method = "color",
         type = "upper",
         addCoef.col = "black",
         tl.col = "black",
         tl.srt = 45,
         col = colorRampPalette(c("#667eea", "white", "#f093fb"))(200),
         title = "Matriz de Correlación de Variables Morfológicas",
         mar = c(0,0,2,0),
         number.cex = 1.2,
         tl.cex = 1.2)

Figura 4: Matriz de correlación entre variables

Hallazgos de Correlación: - Correlación extremadamente alta entre Petal.Length y Petal.Width (r = 0.96) - Correlación fuerte entre Sepal.Length y Petal.Length (r = 0.87) - Sepal.Width muestra correlación negativa con las demás variables - Estas correlaciones sugieren potencial colinealidad, relevante para modelado predictivo

# Tabla de correlaciones
cor_matrix %>%
  as.data.frame() %>%
  mutate(Variable = rownames(.)) %>%
  dplyr::select(Variable, everything()) %>%
  kable(caption = "Tabla 4: Coeficientes de correlación de Pearson",
        digits = 3, align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea")

Tabla 4: Coeficientes de correlación de Pearson
	Variable	Sepal.Length	Sepal.Width	Petal.Length	Petal.Width
Sepal.Length	Sepal.Length	1.000	-0.118	0.872	0.818
Sepal.Width	Sepal.Width	-0.118	1.000	-0.428	-0.366
Petal.Length	Petal.Length	0.872	-0.428	1.000	0.963
Petal.Width	Petal.Width	0.818	-0.366	0.963	1.000

5 Análisis Inferencial

5.1 ANOVA: Diferencias entre Especies

# Realizar ANOVA para cada variable
anova_results <- list()
variables <- names(iris)[1:4]

for(var in variables) {
  formula <- as.formula(paste(var, "~ Species"))
  anova_results[[var]] <- aov(formula, data = iris)
}

# Crear tabla resumen de ANOVA
anova_summary <- data.frame(
  Variable = variables,
  F_value = sapply(anova_results, function(x) summary(x)[[1]]$`F value`[1]),
  p_value = sapply(anova_results, function(x) summary(x)[[1]]$`Pr(>F)`[1]),
  Significancia = sapply(anova_results, function(x) {
    p <- summary(x)[[1]]$`Pr(>F)`[1]
    if(p < 0.001) return("***")
    else if(p < 0.01) return("**")
    else if(p < 0.05) return("*")
    else return("ns")
  })
)

anova_summary %>%
  mutate(
    F_value = round(F_value, 2),
    p_value = format.pval(p_value, digits = 2, eps = 0.001)
  ) %>%
  kable(caption = "Tabla 5: Resultados de ANOVA - Diferencias entre especies",
        align = 'c',
        col.names = c("Variable", "Estadístico F", "Valor p", "Significancia")) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea") %>%
  footnote(general = "*** p < 0.001, ** p < 0.01, * p < 0.05, ns = no significativo",
           general_title = "Niveles de significancia:")

Tabla 5: Resultados de ANOVA - Diferencias entre especies
	Variable	Estadístico F	Valor p	Significancia
Sepal.Length	Sepal.Length	119.26	<0.001	***
Sepal.Width	Sepal.Width	49.16	<0.001	***
Petal.Length	Petal.Length	1180.16	<0.001	***
Petal.Width	Petal.Width	960.01	<0.001	***
Niveles de significancia:
* p < 0.001, p < 0.01, * p < 0.05, ns = no significativo

Conclusión ANOVA: Todas las variables morfológicas presentan diferencias estadísticamente significativas entre especies (p < 0.001). Petal.Width exhibe el mayor estadístico F, indicando la mayor variabilidad explicada por la especie. Estos resultados validan la hipótesis de que las tres especies son morfológicamente distintas.

5.2 Tests Post-hoc de Tukey

# Test de Tukey para Petal.Length (variable más discriminante)
tukey_result <- TukeyHSD(anova_results[["Petal.Length"]])

# Convertir a dataframe
tukey_df <- as.data.frame(tukey_result$Species)
tukey_df$Comparacion <- rownames(tukey_df)

tukey_df %>%
  dplyr::select(Comparacion, diff, lwr, upr, `p adj`) %>%
  mutate(across(where(is.numeric), ~round(., 4))) %>%
  kable(caption = "Tabla 6: Test de Tukey HSD para Petal.Length",
        align = 'c',
        col.names = c("Comparación", "Diferencia", "IC 95% Inferior", 
                      "IC 95% Superior", "p-valor ajustado")) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea")

Tabla 6: Test de Tukey HSD para Petal.Length
	Comparación	Diferencia	IC 95% Inferior	IC 95% Superior
versicolor-setosa	versicolor-setosa	2.798	2.5942	3.0018
virginica-setosa	virginica-setosa	4.090	3.8862	4.2938
virginica-versicolor	virginica-versicolor	1.292	1.0882	1.4958

6 Análisis Discriminante Lineal (LDA)

6.1 Fundamento Teórico

El Análisis Discriminante Lineal (LDA) es una técnica de reducción de dimensionalidad supervisada que busca encontrar combinaciones lineales de características que mejor separen dos o más clases. El LDA maximiza la razón de variabilidad entre-grupos respecto a la variabilidad dentro-grupos.

# Ajustar modelo LDA
set.seed(123)
lda_model <- lda(Species ~ ., data = iris)

# Mostrar resultados del modelo
cat("Prior probabilities (probabilidades a priori):\n")

## Prior probabilities (probabilidades a priori):

print(round(lda_model$prior, 3))

##     setosa versicolor  virginica 
##      0.333      0.333      0.333

cat("\n\nGroup means (medias por grupo):\n")

## 
## 
## Group means (medias por grupo):

print(round(lda_model$means, 3))

##            Sepal.Length Sepal.Width Petal.Length Petal.Width
## setosa            5.006       3.428        1.462       0.246
## versicolor        5.936       2.770        4.260       1.326
## virginica         6.588       2.974        5.552       2.026

cat("\n\nCoefficients of linear discriminants (coeficientes de funciones discriminantes):\n")

## 
## 
## Coefficients of linear discriminants (coeficientes de funciones discriminantes):

print(round(lda_model$scaling, 3))

##                 LD1    LD2
## Sepal.Length  0.829 -0.024
## Sepal.Width   1.534 -2.165
## Petal.Length -2.201  0.932
## Petal.Width  -2.810 -2.839

cat("\n\nProportion of trace (varianza explicada):\n")

## 
## 
## Proportion of trace (varianza explicada):

prop_trace <- lda_model$svd^2 / sum(lda_model$svd^2)
names(prop_trace) <- c("LD1", "LD2")
print(round(prop_trace, 4))

##    LD1    LD2 
## 0.9912 0.0088

Interpretación del Modelo LDA: - LD1 explica el 99.1% de la variabilidad entre especies, siendo dominante en la separación - LD2 contribuye solo con 0.9% adicional - Los coeficientes indican que Petal.Length y Petal.Width son los discriminadores más importantes - Las tres especies presentan probabilidades a priori idénticas (0.333), reflejando el diseño balanceado

6.2 Visualización del Espacio Discriminante

# Obtener predicciones
lda_pred <- predict(lda_model)
lda_data <- data.frame(
  Species = iris$Species,
  LD1 = lda_pred$x[,1],
  LD2 = lda_pred$x[,2]
)

# Calcular centroides
centroides <- lda_data %>%
  group_by(Species) %>%
  summarise(LD1 = mean(LD1), LD2 = mean(LD2))

# Gráfico principal
ggplot(lda_data, aes(x = LD1, y = LD2, color = Species, fill = Species)) +
  geom_point(size = 3, alpha = 0.7) +
  stat_ellipse(level = 0.95, geom = "polygon", alpha = 0.2) +
  geom_point(data = centroides, aes(x = LD1, y = LD2), 
             size = 8, shape = 23, color = "black", stroke = 2) +
  scale_color_manual(values = colors_species) +
  scale_fill_manual(values = colors_species) +
  labs(title = "Análisis Discriminante Lineal - Proyección Bidimensional",
       subtitle = "Elipses representan intervalos de confianza del 95%",
       x = paste0("LD1 (", round(prop_trace[1]*100, 1), "% de varianza)"),
       y = paste0("LD2 (", round(prop_trace[2]*100, 1), "% de varianza)")) +
  theme_custom +
  theme(legend.position = "bottom")

$Figura 5: Proyección de observaciones en el espacio discriminante$

Figura 5: Proyección de observaciones en el espacio discriminante

Observaciones Clave: - Iris setosa se separa completamente de las otras especies a lo largo de LD1 - Iris versicolor e Iris virginica presentan solapamiento moderado, principalmente distinguibles mediante LD2 - Los centroides de grupo (diamantes negros) están bien diferenciados - Las elipses de confianza del 95% muestran mínimo traslape entre versicolor y virginica

6.3 Evaluación del Modelo

# Matriz de confusión
pred_species <- lda_pred$class
confusion_matrix <- table(Predicho = pred_species, Real = iris$Species)

# Calcular métricas por clase
class_metrics <- data.frame(
  Especie = levels(iris$Species),
  Precision = diag(confusion_matrix) / rowSums(confusion_matrix),
  Recall = diag(confusion_matrix) / colSums(confusion_matrix),
  F1_Score = 2 * (diag(confusion_matrix) / rowSums(confusion_matrix)) * 
             (diag(confusion_matrix) / colSums(confusion_matrix)) /
             ((diag(confusion_matrix) / rowSums(confusion_matrix)) + 
              (diag(confusion_matrix) / colSums(confusion_matrix)))
)

# Precisión global
accuracy <- sum(diag(confusion_matrix)) / sum(confusion_matrix)

# Mostrar matriz de confusión
confusion_matrix %>%
  kable(caption = "Tabla 7: Matriz de confusión del modelo LDA",
        align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE,
                position = "center") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea") %>%
  column_spec(1, bold = TRUE, color = "#2c3e50") %>%
  add_header_above(c(" " = 1, "Clase Real" = 3))

Tabla 7: Matriz de confusión del modelo LDA
	Clase Real
	setosa	versicolor	virginica
setosa	50	0	0
versicolor	0	48	1
virginica	0	2	49

# Métricas por clase
class_metrics %>%
  mutate(across(where(is.numeric), ~round(., 4))) %>%
  kable(caption = "Tabla 8: Métricas de rendimiento por clase",
        align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea")

Tabla 8: Métricas de rendimiento por clase
	Especie	Precision	Recall	F1_Score
setosa	setosa	1.0000	1.00	1.0000
versicolor	versicolor	0.9796	0.96	0.9697
virginica	virginica	0.9608	0.98	0.9703

Rendimiento del Modelo: - Precisión Global: 98.00% - Clasificación Perfecta: Iris setosa (100% de precisión) - Errores Mínimos: Solo 2 observaciones de versicolor clasificadas como virginica - Robustez: El modelo demuestra excelente capacidad de generalización

Este rendimiento excepcional valida el uso de LDA para este problema de clasificación multiclase.

# Visualizar métricas
class_metrics_long <- class_metrics %>%
  pivot_longer(cols = c(Precision, Recall, F1_Score),
               names_to = "Metrica", values_to = "Valor")

ggplot(class_metrics_long, aes(x = Especie, y = Valor, fill = Metrica)) +
  geom_bar(stat = "identity", position = "dodge", alpha = 0.8) +
  scale_fill_manual(values = c("#667eea", "#f093fb", "#4facfe")) +
  scale_y_continuous(labels = percent_format(), limits = c(0, 1.05)) +
  labs(title = "Comparación de Métricas de Rendimiento por Especie",
       subtitle = "Precisión, Recall y F1-Score del modelo LDA",
       x = "Especie", y = "Valor de la Métrica",
       fill = "Métrica") +
  geom_text(aes(label = sprintf("%.1f%%", Valor * 100)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5, size = 4) +
  theme_custom +
  theme(legend.position = "bottom")

Figura 6: Métricas de rendimiento por especie

7 Conclusiones

7.1 Hallazgos Principales

Separabilidad de Especies: El análisis confirma que las tres especies de iris son morfológicamente distintas, con I. setosa exhibiendo separación completa.
Variables Discriminantes: Las características de los pétalos (Petal.Length y Petal.Width) son los discriminadores más potentes, superando significativamente a las medidas de sépalos.
Modelo Predictivo Robusto: El LDA alcanza una precisión del 98%, con solo 2 errores de clasificación entre versicolor y virginica, especies naturalmente más similares.
Correlaciones Estructurales: Las altas correlaciones entre variables sugieren redundancia informativa, lo que podría optimizarse mediante técnicas de selección de características.
Validez Estadística: Todas las diferencias entre especies son estadísticamente significativas (p < 0.001), confirmando la relevancia biológica de las mediciones.

7.2 Implicaciones

Este análisis demuestra la efectividad de técnicas estadísticas clásicas en problemas de clasificación bien estructurados. El dataset Iris continúa siendo un benchmark excepcional para:

Validación de algoritmos de machine learning
Enseñanza de análisis multivariado
Evaluación comparativa de métodos de clasificación

7.3 Limitaciones y Trabajo Futuro

Limitaciones: - Análisis realizado sobre el conjunto completo sin validación cruzada - No se exploraron técnicas no lineales (e.g., QDA, SVM, Random Forest) - Ausencia de análisis de outliers multivariados

Direcciones Futuras: - Implementar validación cruzada k-fold para estimación robusta del error - Comparar rendimiento con métodos de ensemble y deep learning - Explorar técnicas de explicabilidad (SHAP, LIME) para interpretación avanzada - Análisis de componentes principales (PCA) para comparación con LDA

8 Análisis Complementario

8.1 Validación Cruzada

# Implementar validación cruzada 10-fold
set.seed(456)
train_control <- trainControl(method = "cv", number = 10)

# Entrenar modelo con validación cruzada
lda_cv <- train(Species ~ ., 
                data = iris, 
                method = "lda",
                trControl = train_control)

# Resultados
cv_results <- data.frame(
  Metrica = c("Precisión Media", "Kappa", "Desviación Estándar"),
  Valor = c(
    lda_cv$results$Accuracy,
    lda_cv$results$Kappa,
    lda_cv$results$AccuracySD
  )
)

cv_results %>%
  mutate(Valor = round(Valor, 4)) %>%
  kable(caption = "Tabla 9: Resultados de validación cruzada (10-fold)",
        align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea")

Tabla 9: Resultados de validación cruzada (10-fold)
Metrica	Valor
Precisión Media	0.980
Kappa	0.970
Desviación Estándar	0.045

Validación Cruzada: El modelo mantiene una precisión promedio del 98.00% con una desviación estándar de 4.50%, indicando alta estabilidad y capacidad de generalización.

8.2 Análisis de Componentes Principales (PCA)

# Realizar PCA
pca_model <- prcomp(iris[,1:4], scale. = TRUE)

# Crear dataframe con resultados
pca_data <- data.frame(
  Species = iris$Species,
  PC1 = pca_model$x[,1],
  PC2 = pca_model$x[,2]
)

# Varianza explicada
var_explained <- summary(pca_model)$importance[2,]

# Gráfico PCA
p_pca <- ggplot(pca_data, aes(x = PC1, y = PC2, color = Species, fill = Species)) +
  geom_point(size = 3, alpha = 0.7) +
  stat_ellipse(level = 0.95, geom = "polygon", alpha = 0.2) +
  scale_color_manual(values = colors_species) +
  scale_fill_manual(values = colors_species) +
  labs(title = "PCA - Análisis No Supervisado",
       subtitle = "Reducción dimensional sin información de clases",
       x = paste0("PC1 (", round(var_explained[1]*100, 1), "%)"),
       y = paste0("PC2 (", round(var_explained[2]*100, 1), "%)")) +
  theme_custom +
  theme(legend.position = "bottom")

# Gráfico LDA (reutilizando datos anteriores)
p_lda <- ggplot(lda_data, aes(x = LD1, y = LD2, color = Species, fill = Species)) +
  geom_point(size = 3, alpha = 0.7) +
  stat_ellipse(level = 0.95, geom = "polygon", alpha = 0.2) +
  scale_color_manual(values = colors_species) +
  scale_fill_manual(values = colors_species) +
  labs(title = "LDA - Análisis Supervisado",
       subtitle = "Maximiza separación entre clases",
       x = paste0("LD1 (", round(prop_trace[1]*100, 1), "%)"),
       y = paste0("LD2 (", round(prop_trace[2]*100, 1), "%)")) +
  theme_custom +
  theme(legend.position = "bottom")

grid.arrange(p_pca, p_lda, ncol = 2)

Figura 7: Comparación PCA vs LDA

PCA vs LDA: - PCA captura variabilidad total sin considerar clases, útil para exploración - LDA maximiza separabilidad entre clases, superior para clasificación - LDA concentra casi toda la discriminación en LD1 (99.1%), mientras PCA distribuye más uniformemente - Para este problema, LDA es claramente superior al incorporar información supervisada

8.3 Importancia de Variables

# Calcular importancia basada en coeficientes LDA
importance_df <- data.frame(
  Variable = rownames(lda_model$scaling),
  LD1 = abs(lda_model$scaling[,1]),
  LD2 = abs(lda_model$scaling[,2])
) %>%
  mutate(Importancia_Total = LD1 * prop_trace[1] + LD2 * prop_trace[2]) %>%
  arrange(desc(Importancia_Total))

# Visualizar
ggplot(importance_df, aes(x = reorder(Variable, Importancia_Total), 
                          y = Importancia_Total, 
                          fill = Importancia_Total)) +
  geom_col(alpha = 0.8) +
  coord_flip() +
  scale_fill_gradient(low = "#667eea", high = "#f093fb") +
  labs(title = "Importancia de Variables en el Modelo LDA",
       subtitle = "Ponderada por varianza explicada",
       x = "Variable", y = "Importancia Ponderada") +
  geom_text(aes(label = round(Importancia_Total, 3)), 
            hjust = -0.1, size = 5) +
  theme_custom +
  theme(legend.position = "none")

Figura 8: Importancia de variables en el modelo LDA

importance_df %>%
  dplyr::select(Variable, LD1, LD2, Importancia_Total) %>%
  mutate(across(where(is.numeric), ~round(., 4))) %>%
  kable(caption = "Tabla 10: Importancia de variables por función discriminante",
        align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea") %>%
  row_spec(1, bold = TRUE, background = "#f8f9fa")

Tabla 10: Importancia de variables por función discriminante
	Variable	LD1	LD2	Importancia_Total
Petal.Width	Petal.Width	2.8105	2.8392	2.8107
Petal.Length	Petal.Length	2.2012	0.9319	2.1901
Sepal.Width	Sepal.Width	1.5345	2.1645	1.5400
Sepal.Length	Sepal.Length	0.8294	0.0241	0.8223

9 Análisis Avanzado: Clasificación Multiclase

9.1 Comparación de Algoritmos

# Configurar validación cruzada
set.seed(789)
control <- trainControl(method = "cv", number = 10)

# Entrenar múltiples modelos
models <- list()

# LDA
models$LDA <- train(Species ~ ., data = iris, method = "lda", trControl = control)

# QDA (Quadratic Discriminant Analysis)
models$QDA <- train(Species ~ ., data = iris, method = "qda", trControl = control)

# KNN
models$KNN <- train(Species ~ ., data = iris, method = "knn", trControl = control, tuneLength = 10)

# Naive Bayes (opcional - instalar solo si es necesario)
tryCatch({
  if(!require("naivebayes", quietly = TRUE)) {
    install.packages("naivebayes", repos = "https://cloud.r-project.org/")
  }
  models$NaiveBayes <- train(Species ~ ., data = iris, method = "naive_bayes", trControl = control)
}, error = function(e) {
  message("Naive Bayes no disponible, continuando sin él...")
})

# Random Forest (opcional - instalar solo si es necesario)
tryCatch({
  if(!require("randomForest", quietly = TRUE)) {
    install.packages("randomForest", repos = "https://cloud.r-project.org/")
  }
  models$RandomForest <- train(Species ~ ., data = iris, method = "rf", trControl = control)
}, error = function(e) {
  message("Random Forest no disponible, continuando sin él...")
})

# Extraer resultados
results <- resamples(models)
results_summary <- summary(results)

# Crear tabla comparativa
comparison_df <- data.frame(
  Modelo = names(models),
  Precision_Media = sapply(models, function(m) max(m$results$Accuracy)),
  Kappa_Media = sapply(models, function(m) max(m$results$Kappa))
) %>%
  arrange(desc(Precision_Media))

comparison_df %>%
  mutate(across(where(is.numeric), ~round(., 4))) %>%
  kable(caption = "Tabla 11: Comparación de algoritmos de clasificación",
        align = 'c',
        col.names = c("Modelo", "Precisión Media", "Kappa")) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea") %>%
  row_spec(1, bold = TRUE, background = "#d4edda")

Tabla 11: Comparación de algoritmos de clasificación
	Modelo	Precisión Media	Kappa
LDA	LDA	0.9800	0.97
KNN	KNN	0.9800	0.97
QDA	QDA	0.9733	0.96
NaiveBayes	NaiveBayes	0.9533	0.93
RandomForest	RandomForest	0.9533	0.93

# Visualizar comparación
comparison_long <- comparison_df %>%
  pivot_longer(cols = c(Precision_Media, Kappa_Media),
               names_to = "Metrica", values_to = "Valor")

ggplot(comparison_long, aes(x = reorder(Modelo, Valor), y = Valor, fill = Metrica)) +
  geom_bar(stat = "identity", position = "dodge", alpha = 0.8) +
  coord_flip() +
  scale_fill_manual(values = c("#667eea", "#f093fb"),
                    labels = c("Kappa", "Precisión")) +
  scale_y_continuous(labels = percent_format(), limits = c(0, 1.05)) +
  labs(title = "Rendimiento Comparativo de Modelos de Clasificación",
       subtitle = "Evaluación mediante validación cruzada 10-fold",
       x = "Modelo", y = "Valor de la Métrica",
       fill = "Métrica") +
  geom_text(aes(label = sprintf("%.1f%%", Valor * 100)), 
            position = position_dodge(width = 0.9),
            hjust = -0.1, size = 4) +
  theme_custom +
  theme(legend.position = "bottom")

Figura 9: Comparación de rendimiento entre modelos

Conclusión del Benchmark: El modelo LDA alcanza el mejor rendimiento con una precisión de 98.00%. Sin embargo, todos los modelos demuestran excelente capacidad predictiva, reflejando la naturaleza bien separable del dataset Iris.

10 Mapa de Decisión

# Crear grilla para visualizar fronteras de decisión
# Usaremos las dos variables más importantes: Petal.Length y Petal.Width

# Crear función para graficar fronteras
plot_decision_boundary <- function(var1, var2) {
  # Crear grilla
  x_range <- seq(min(iris[[var1]]) - 0.5, max(iris[[var1]]) + 0.5, length.out = 200)
  y_range <- seq(min(iris[[var2]]) - 0.5, max(iris[[var2]]) + 0.5, length.out = 200)
  grid <- expand.grid(x = x_range, y = y_range)
  
  # Crear dataset para predicción (usando medias para otras variables)
  pred_data <- data.frame(
    Sepal.Length = rep(mean(iris$Sepal.Length), nrow(grid)),
    Sepal.Width = rep(mean(iris$Sepal.Width), nrow(grid)),
    Petal.Length = rep(mean(iris$Petal.Length), nrow(grid)),
    Petal.Width = rep(mean(iris$Petal.Width), nrow(grid))
  )
  pred_data[[var1]] <- grid$x
  pred_data[[var2]] <- grid$y
  
  # Predecir
  grid$Species <- predict(lda_model, pred_data)$class
  
  # Gráfico
  ggplot() +
    geom_tile(data = grid, aes(x = x, y = y, fill = Species), alpha = 0.3) +
    geom_point(data = iris, aes_string(x = var1, y = var2, color = "Species"), 
               size = 3, alpha = 0.8) +
    scale_fill_manual(values = colors_species) +
    scale_color_manual(values = colors_species) +
    labs(title = paste("Frontera de Decisión LDA:", var1, "vs", var2),
         x = var1, y = var2) +
    theme_custom +
    theme(legend.position = "bottom")
}

# Crear múltiples gráficos
p1 <- plot_decision_boundary("Petal.Length", "Petal.Width")
p2 <- plot_decision_boundary("Sepal.Length", "Sepal.Width")
p3 <- plot_decision_boundary("Petal.Length", "Sepal.Length")
p4 <- plot_decision_boundary("Petal.Width", "Sepal.Width")

grid.arrange(p1, p2, p3, p4, ncol = 2)

$Figura 10: Fronteras de decisión del modelo LDA$

Figura 10: Fronteras de decisión del modelo LDA

11 Referencias y Recursos

11.1 Referencias Bibliográficas

Fisher, R. A. (1936). “The use of multiple measurements in taxonomic problems”. Annals of Eugenics, 7(2), 179-188.
Anderson, E. (1935). “The irises of the Gaspe Peninsula”. Bulletin of the American Iris Society, 59, 2-5.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. Springer.

11.2 Recursos Adicionales

Dataset original: UCI Machine Learning Repository
Documentación de R: CRAN
Visualización avanzada: ggplot2 documentation
Machine Learning en R: caret package

12 Información de Sesión

# Información del sistema y paquetes utilizados
session <- sessionInfo()

data.frame(
  Componente = c("R Version", "Platform", "OS"),
  Detalle = c(
    paste(session$R.version$major, session$R.version$minor, sep = "."),
    session$platform,
    session$running
  )
) %>%
  kable(caption = "Tabla 12: Información del entorno de análisis",
        align = 'c') %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"),
                full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#667eea")

Tabla 12: Información del entorno de análisis
Componente	Detalle
R Version	4.5.1
Platform	x86_64-redhat-linux-gnu
OS	Fedora Linux 42 (Workstation Edition)

📊 Fin del Análisis

Este documento fue generado automáticamente utilizando R Markdown

Contacto: jonathanproano@zgames.tech
Última actualización: 16 de octubre, 2025

“In God we trust, all others must bring data.” - W. Edwards Deming

Análisis Multivariado del Dataset Iris

Un estudio exhaustivo sobre clasificación de especies mediante técnicas de aprendizaje estadístico

Jonathan Proaño

16 de octubre, 2025