Introducción al dataset iris

El conjunto de datos iris es uno de los más utilizados en estadística y aprendizaje automático para ilustrar técnicas de clasificación y visualización. Contiene 150 observaciones de flores de tres especies de iris: setosa, versicolor y virginica.

Cada registro incluye cuatro medidas numéricas:

Estas variables permiten explorar relaciones morfológicas entre especies y aplicar técnicas de análisis multivariado. Su estructura limpia y balanceada lo convierte en un excelente punto de partida para gráficos con ggplot2, modelos supervisados y cápsulas pedagógicas interactivas.

library(ggplot2)

# 2. Creamos el gráfico.
ggplot(iris, aes(x = Sepal.Length, y = Petal.Length, color = Species)) +
  geom_point(size = 3, alpha = 0.7) + # Dibuja los puntos, con tamaño y transparencia
  labs(
    title = "Longitud del Sépalo vs. Longitud del Pétalo",
    subtitle = "Datos del dataset Iris, coloreados por Especie",
    x = "Longitud del Sépalo (cm)",
    y = "Longitud del Pétalo (cm)",
    color = "Especies"
  ) +
  theme_minimal() # Un tema visual limpio y moderno para el gráfico

¿Qué hace este código?

  1. library(ggplot2): Carga el paquete necesario para crear el gráfico.
  2. ggplot(...): Inicia el gráfico, especificando el dataset (iris) y las variables para los ejes X, Y y el color.
  3. geom_point(): Le dice a ggplot2 que dibuje los datos como puntos (un gráfico de dispersión).
  4. labs(...): Permite personalizar todos los títulos y etiquetas de los ejes para que el gráfico sea fácil de entender.
  5. theme_minimal(): Aplica un estilo visual simple y elegante.