1. Introducción

Este reporte es un análisis exploratorio del conjunto de datos de sépalos y pétalos.
Se emplean visualizaciones que permiten observar patrones mprofundos y relaciones entre las medidas de sépalos y pétalos de tres variedades de iris.


2. Carga y descripción de los datos

library(tidyverse)
library(readr)
library(skimr)
library(ggthemes)
library(GGally)
skim(iris_data)
Data summary
Name iris_data
Number of rows 150
Number of columns 5
_______________________
Column type frequency:
character 1
numeric 4
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Variedad 0 1 6 10 0 3 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Sepalo_largo 0 1 5.84 0.83 4.3 5.1 5.80 6.4 7.9 ▆▇▇▅▂
Sepalo_ancho 0 1 3.06 0.44 2.0 2.8 3.00 3.3 4.4 ▁▆▇▂▁
Petalo_largo 0 1 3.76 1.77 1.0 1.6 4.35 5.1 6.9 ▇▁▆▇▂
Petalo_ancho 0 1 1.20 0.76 0.1 0.3 1.30 1.8 2.5 ▇▁▇▅▃

Descripción general:
El conjunto contiene 150 observaciones correspondientes a tres variedades distintas de iris y cinco variables: cuatro numéricas (Sepalo_largo, Sepalo_ancho, Petalo_largo, Petalo_ancho) y una categórica (Variedad).


3. Distribuciones comparadas

Histograma + Curva de densidad de Petalo_largo

ggplot(iris_data, aes(x = Petalo_largo, fill = Variedad)) +
  geom_histogram(aes(y = ..density..), bins = 20, alpha = 0.5, color = "black") +
  geom_density(alpha = 0.3) +
  labs(title = "Distribución y densidad de la longitud del pétalo",
       x = "Longitud del pétalo", y = "Densidad") +
  theme_minimal()
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Interpretación:
Se observa una separación clara entre las variedades. Setosa se concentra en valores bajos, Versicolor en la zona media y Virginica en la parte alta de la distribución.


4. Relaciones entre variables

Dispersión entre Sepalo_ancho y Petalo_ancho

ggplot(iris_data, aes(x = Sepalo_ancho, y = Petalo_ancho, color = Variedad)) +
  geom_point(size = 3, alpha = 0.8) +
  geom_smooth(method = "lm", se = FALSE, linetype = "dashed") +
  labs(title = "Relación entre ancho del sépalo y ancho del pétalo",
       x = "Ancho del sépalo", y = "Ancho del pétalo") +
  theme_light()
## `geom_smooth()` using formula = 'y ~ x'

Interpretación:
Existe una relación positiva entre el ancho del sépalo y el ancho del pétalo, aunque con variaciones según la especie. Setosa mantiene valores más dispersos.


Relación entre Sepalo_largo y Petalo_largo (faceteado por Variedad)

ggplot(iris_data, aes(x = Sepalo_largo, y = Petalo_largo, color = Variedad)) +
  geom_point(size = 2, alpha = 0.8) +
  facet_wrap(~ Variedad) +
  labs(title = "Relación longitud sépalo–pétalo por variedad",
       x = "Longitud del sépalo", y = "Longitud del pétalo") +
  theme_bw()

Interpretación:
Cada variedad presenta un patrón distinto. Las pendientes difieren, indicando que el crecimiento proporcional entre sépalo y pétalo no es igual en todas las especies.


5. Comparaciones y correlaciones globales

Matriz de correlaciones entre variables numéricas

iris_data %>% 
  select(Sepalo_largo, Sepalo_ancho, Petalo_largo, Petalo_ancho) %>% 
  ggpairs(title = "Matriz de correlación entre variables numéricas")

Interpretación:
La matriz muestra correlaciones altas entre la longitud del sépalo y la del pétalo, y también entre las medidas de pétalos entre sí.
Las correlaciones entre los anchos son más débiles, lo cual sugiere una menor relación estructural entre estas dimensiones.


6. Distribuciones cruzadas

Boxplot del ancho del pétalo según el ancho del sépalo agrupado

iris_data %>%
  mutate(grupo_ancho = cut(Sepalo_ancho, breaks = 3, labels = c("Estrecho", "Medio", "Ancho"))) %>%
  ggplot(aes(x = grupo_ancho, y = Petalo_ancho, fill = grupo_ancho)) +
  geom_boxplot(alpha = 0.8) +
  labs(title = "Ancho del pétalo según grupo de ancho del sépalo",
       x = "Grupo de ancho del sépalo", y = "Ancho del pétalo") +
  theme_minimal()

Interpretación:
A medida que el sépalo es más ancho, se observa una tendencia a mayores valores promedio de ancho de pétalo, aunque con solapamientos entre grupos.


7. Conclusiones