1. Introducción

Este reporte presenta un análisis exploratorio del conjunto de datos a4_iris_limpia.csv, el cual contiene observaciones de tres variedades de iris con mediciones de sépalos y pétalos.
El objetivo es explorar las características generales del conjunto, sus distribuciones y las relaciones entre variables.


2. Carga de datos y descripción general

library(tidyverse)
library(readr)
library(skimr)
library(ggthemes)

# Cargar los datos
iris_data <- read_csv("/Users/rafaelpg/Downloads/a4_iris_limpia.csv")

# Vista general
glimpse(iris_data)
## Rows: 150
## Columns: 5
## $ Sepal_length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
## $ Sepal_width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
## $ Petal_length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
## $ Petal_width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
## $ Variety      <chr> "Setosa", "Setosa", "Setosa", "Setosa", "Setosa", "Setosa…
# Resumen estadístico general
skim(iris_data)
Data summary
Name iris_data
Number of rows 150
Number of columns 5
_______________________
Column type frequency:
character 1
numeric 4
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Variety 0 1 6 10 0 3 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Sepal_length 0 1 5.84 0.83 4.3 5.1 5.80 6.4 7.9 ▆▇▇▅▂
Sepal_width 0 1 3.06 0.44 2.0 2.8 3.00 3.3 4.4 ▁▆▇▂▁
Petal_length 0 1 3.76 1.77 1.0 1.6 4.35 5.1 6.9 ▇▁▆▇▂
Petal_width 0 1 1.20 0.76 0.1 0.3 1.30 1.8 2.5 ▇▁▇▅▃

Interpretación:
El conjunto contiene 150 observaciones y 5 variables:
- Sepal_length, Sepal_width, Petal_length, Petal_width (numéricas).
- Variety (categórica, representa la especie).


3. Distribución de variables numéricas

Histograma de la longitud del sépalo

ggplot(iris_data, aes(x = Sepal_length, fill = Variety)) +
  geom_histogram(bins = 20, alpha = 0.7, color = "black") +
  labs(title = "Distribución de la longitud del sépalo",
       x = "Longitud del sépalo",
       y = "Frecuencia") +
  theme_minimal()

Interpretación:
Las variedades muestran distribuciones diferentes:
- Setosa presenta valores más bajos.
- Versicolor tiene valores intermedios.
- Virginica muestra las mayores longitudes.


4. Comparaciones entre variedades

Boxplot de la longitud del pétalo por variedad

ggplot(iris_data, aes(x = Variety, y = Petal_length, fill = Variety)) +
  geom_boxplot(alpha = 0.8) +
  labs(title = "Comparación de la longitud del pétalo por variedad",
       x = "Variedad",
       y = "Longitud del pétalo") +
  theme_classic()

Interpretación:
Setosa tiene pétalos más cortos, Versicolor intermedios y Virginica los más largos.
Esto evidencia una diferenciación clara entre variedades.


5. Relación entre variables numéricas

Dispersión entre la longitud del sépalo y la longitud del pétalo

ggplot(iris_data, aes(x = Sepal_length, y = Petal_length, color = Variety)) +
  geom_point(size = 3, alpha = 0.8) +
  labs(title = "Relación entre longitud de sépalo y longitud de pétalo",
       x = "Longitud del sépalo",
       y = "Longitud del pétalo") +
  theme_light()

Interpretación:
Existe una relación positiva entre la longitud del sépalo y la del pétalo.
Las especies se agrupan de forma diferenciada, indicando que ambas medidas son útiles para clasificar las variedades.


6. Frecuencia por categoría

Conteo de observaciones por variedad

ggplot(iris_data, aes(x = Variety, fill = Variety)) +
  geom_bar(alpha = 0.8) +
  labs(title = "Frecuencia de observaciones por variedad",
       x = "Variedad",
       y = "Conteo") +
  scale_fill_brewer(palette = "Set2") +
  theme_minimal()

Interpretación:
Cada variedad cuenta con el mismo número de observaciones, lo que sugiere un diseño de datos balanceado.


7. Conclusiones