Este reporte presenta un análisis exploratorio del conjunto de datos
a4_iris_limpia.csv, el cual contiene observaciones de
tres variedades de iris con mediciones de sépalos y
pétalos.
El objetivo es explorar las características generales del conjunto, sus
distribuciones y las relaciones entre variables.
library(tidyverse)
library(readr)
library(skimr)
library(ggthemes)
# Cargar los datos
iris_data <- read_csv("/Users/rafaelpg/Downloads/a4_iris_limpia.csv")
# Vista general
glimpse(iris_data)
## Rows: 150
## Columns: 5
## $ Sepal_length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
## $ Sepal_width <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
## $ Petal_length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
## $ Petal_width <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
## $ Variety <chr> "Setosa", "Setosa", "Setosa", "Setosa", "Setosa", "Setosa…
# Resumen estadístico general
skim(iris_data)
| Name | iris_data |
| Number of rows | 150 |
| Number of columns | 5 |
| _______________________ | |
| Column type frequency: | |
| character | 1 |
| numeric | 4 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| Variety | 0 | 1 | 6 | 10 | 0 | 3 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| Sepal_length | 0 | 1 | 5.84 | 0.83 | 4.3 | 5.1 | 5.80 | 6.4 | 7.9 | ▆▇▇▅▂ |
| Sepal_width | 0 | 1 | 3.06 | 0.44 | 2.0 | 2.8 | 3.00 | 3.3 | 4.4 | ▁▆▇▂▁ |
| Petal_length | 0 | 1 | 3.76 | 1.77 | 1.0 | 1.6 | 4.35 | 5.1 | 6.9 | ▇▁▆▇▂ |
| Petal_width | 0 | 1 | 1.20 | 0.76 | 0.1 | 0.3 | 1.30 | 1.8 | 2.5 | ▇▁▇▅▃ |
Interpretación:
El conjunto contiene 150 observaciones y 5 variables:
- Sepal_length, Sepal_width,
Petal_length, Petal_width
(numéricas).
- Variety (categórica, representa la especie).
ggplot(iris_data, aes(x = Sepal_length, fill = Variety)) +
geom_histogram(bins = 20, alpha = 0.7, color = "black") +
labs(title = "Distribución de la longitud del sépalo",
x = "Longitud del sépalo",
y = "Frecuencia") +
theme_minimal()
Interpretación:
Las variedades muestran distribuciones diferentes:
- Setosa presenta valores más bajos.
- Versicolor tiene valores intermedios.
- Virginica muestra las mayores longitudes.
ggplot(iris_data, aes(x = Variety, y = Petal_length, fill = Variety)) +
geom_boxplot(alpha = 0.8) +
labs(title = "Comparación de la longitud del pétalo por variedad",
x = "Variedad",
y = "Longitud del pétalo") +
theme_classic()
Interpretación:
Setosa tiene pétalos más cortos, Versicolor
intermedios y Virginica los más largos.
Esto evidencia una diferenciación clara entre variedades.
ggplot(iris_data, aes(x = Sepal_length, y = Petal_length, color = Variety)) +
geom_point(size = 3, alpha = 0.8) +
labs(title = "Relación entre longitud de sépalo y longitud de pétalo",
x = "Longitud del sépalo",
y = "Longitud del pétalo") +
theme_light()
Interpretación:
Existe una relación positiva entre la longitud del sépalo y la del
pétalo.
Las especies se agrupan de forma diferenciada, indicando que ambas
medidas son útiles para clasificar las variedades.
ggplot(iris_data, aes(x = Variety, fill = Variety)) +
geom_bar(alpha = 0.8) +
labs(title = "Frecuencia de observaciones por variedad",
x = "Variedad",
y = "Conteo") +
scale_fill_brewer(palette = "Set2") +
theme_minimal()
Interpretación:
Cada variedad cuenta con el mismo número de observaciones, lo que
sugiere un diseño de datos balanceado.