Analitica de datos y programación basica en R Studio

Respuestas Actividad 02

Author

-Mery An Rojas Barreto

Published

April 26, 2025

Preparación de la maquina

Descripción del dataset

El set de datos iris contiene las mediciones en centímetros de las variables longitud (Length) y ancho (Width) de los pétalos (Petal) y sépalos (Sepal) de 50 flores de cada una de las 3 especies (Species) del género Iris: Iris setosa, Iris versicolor e Iris virginica. Para obtener más información acerca de la base de datos iris tipea ?iris en la línea de comando de R.

summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                
iris$id <- row.names(iris)
kable(head(iris))
Sepal.Length Sepal.Width Petal.Length Petal.Width Species id
5.1 3.5 1.4 0.2 setosa 1
4.9 3.0 1.4 0.2 setosa 2
4.7 3.2 1.3 0.2 setosa 3
4.6 3.1 1.5 0.2 setosa 4
5.0 3.6 1.4 0.2 setosa 5
5.4 3.9 1.7 0.4 setosa 6
str(iris)
'data.frame':   150 obs. of  6 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ id          : chr  "1" "2" "3" "4" ...
iris[!complete.cases(iris), ]
[1] Sepal.Length Sepal.Width  Petal.Length Petal.Width  Species     
[6] id          
<0 rows> (o 0- extensión row.names)
iris2 <- iris[, !(names(iris) %in% c("id"))]

1. De las tres especies, en promedio cual tiene los petalos más largos, para ello construya una tabla en donde muestre la media del largo de los petalos agrupados por especie.

media_petalos <- aggregate( Petal.Length  ~ Species, data = iris2, FUN = mean)

print(head(media_petalos))
     Species Petal.Length
1     setosa        1.462
2 versicolor        4.260
3  virginica        5.552

Interpretación

La especie Iris Setosa tiene en promedio el tamaño de sus petalos 1.46 cm, es decir, los petalos más pequeños, en comparación con la especie Iris Verticolor con un premio de 4.26 cm y la especie Iris Virginica siendo la mayor con un promedio de 5.55 cm, siendo esta ultima la que tiene los petalos más largos.

2. Tu cliente solo está interesado en las flores cuyo pétalos sean mayores o iguales a 3.2 cm, para ello filtre el df y organice por grupo mostrando el promedio del ancho de sépalo

iris_filtrado <- subset(iris2, Petal.Length >= 3.2)
print( head(iris_filtrado))
   Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
51          7.0         3.2          4.7         1.4 versicolor
52          6.4         3.2          4.5         1.5 versicolor
53          6.9         3.1          4.9         1.5 versicolor
54          5.5         2.3          4.0         1.3 versicolor
55          6.5         2.8          4.6         1.5 versicolor
56          5.7         2.8          4.5         1.3 versicolor
promedio_sepalo <- aggregate(Sepal.Width ~ Species, data = iris_filtrado, FUN = mean)
promedio_petalo <- aggregate(Petal.Length ~ Species, data = iris_filtrado, FUN = mean)

promedios_combinados <- merge(promedio_sepalo, promedio_petalo, by = "Species")

print(head(promedios_combinados))
     Species Sepal.Width Petal.Length
1 versicolor     2.77551     4.285714
2  virginica     2.97400     5.552000

Interpretación

Basados en las preferencias del cliente, se infiere que las dos especies que cumplen con el tamaño del petalo mayor o igual a 3.2 cm son la Iris Versicolor y la Iris Virginica, las cuales cuentan con un ancho promedio del sepalo entre 2.76 en la versicolor, y 2.97 en la virginica.

3. Por alguna extraña razón que desconecemos, tu cliente quiere saber la altura del sépalo en metros, para ello cree una nueva variable nueva donde muestre el resultados en metro, luego organice la base de datos en mayor a menor y muestre los primero 5 resultados de cada grupo

iris_ordenado <- iris2 %>%
  mutate(Sepal.Length.m = Sepal.Length / 100)

primeros_5 <- iris_ordenado %>%
 group_by(Species) %>%
 slice(1:5) %>%
 select(Species, Sepal.Length.m, Sepal.Width, Petal.Length, Petal.Width)

print(head(primeros_5))
# A tibble: 6 × 5
# Groups:   Species [2]
  Species    Sepal.Length.m Sepal.Width Petal.Length Petal.Width
  <fct>               <dbl>       <dbl>        <dbl>       <dbl>
1 setosa              0.051         3.5          1.4         0.2
2 setosa              0.049         3            1.4         0.2
3 setosa              0.047         3.2          1.3         0.2
4 setosa              0.046         3.1          1.5         0.2
5 setosa              0.05          3.6          1.4         0.2
6 versicolor          0.07          3.2          4.7         1.4

En esta area, sin aplicar los filtros anteriores, se destaca que la Iris Setosa tiene las caracteristicas de menor tamaño en todos los segmentos, luego le sigue versicolor con una diferencia sustancial, y por ultimo la virginica con mayor tamaño.

iris_filtrado <- subset(iris, Petal.Length >= 3.2)

primeros_5 <- iris_ordenado %>%
 group_by(Species) %>%
 slice(1:5) %>%
 select(Species, Sepal.Length.m, Sepal.Width, Petal.Length, Petal.Width)

print(head(primeros_5))
# A tibble: 6 × 5
# Groups:   Species [2]
  Species    Sepal.Length.m Sepal.Width Petal.Length Petal.Width
  <fct>               <dbl>       <dbl>        <dbl>       <dbl>
1 setosa              0.051         3.5          1.4         0.2
2 setosa              0.049         3            1.4         0.2
3 setosa              0.047         3.2          1.3         0.2
4 setosa              0.046         3.1          1.5         0.2
5 setosa              0.05          3.6          1.4         0.2
6 versicolor          0.07          3.2          4.7         1.4

Interpretación

Ya con los datos filtrados por tamaño de petalo, es visible que solo dos especies cumplen con el item especificado, y en promedio el versicolor tiene un tamaño del sepalo en 0.069 m y la virginica de 0.078 m; tomando como referencia los 5 primeros valores por grupo.

4. Realice un gráfico de dispersión Petal.Length vs Sepal.Length

plot(iris_filtrado$Petal.Length, iris_filtrado$Sepal.Length,
     xlab = "Largo de los Pétalos (cm)",
     ylab = "Largo de los Sépalos (cm)",
     main = "Gráfico de Dispersión: Petal.Length vs Sepal.Length",
     pch = 19, col = "magenta")

abline(lm(Sepal.Length ~ Petal.Length, data = iris_filtrado), col = "purple", lwd = 3)

Interpretación

Se encuentra que hay una relación directamente proporcional, es decir, a mayor tamaño del pétalo, mayor es largo de los sépalos; con un valor minimo en largo de sépalo de 5.2 cm y 3.2 cm de pétalo y un maximo de 7.5 cm de largo de sépalo y 6.8 cm de pétalo. Ademas de que hay una gran concentración entre 4 y 6 centimetros de pétalos y 5.5 cm a 7 cm de largo del sépalo; indicando que enntre esos valores se encuentra el promedio de las especies.

5. Realice un boxplot del largo de los petalos agrupados.

boxplot(Petal.Length ~ Species, data = iris_filtrado,
        xlab = "Especie",
        ylab = "Largo de los Pétalos (cm)",
        main = "Boxplot del Largo de los Pétalos Agrupados por Especie",
        col = c("lightblue", "lightgreen", "lightpink"))

Interpretación

Dentro de los filtros, es visible que solo acceden las dos especies filtradas, la virginica tiene un valor representativo mientras que versicolor tiene mayor inclinación a su valor superior que inferior, no obstante, la media de versicolor es de 4.4 cm aproximadamente con un minimo inferior a 3.5 cm y un maximo superior a 5cm. Mientras que la virginica tiene una media de 5.5 cm con un minimo de 4.8 cm y un maximo de 7 cm; mostrtando que las medidas de los petalos del virginica en promedio con los del versicolor son más grandes.