Analitica de datos y programación basica en R Studio
Respuestas Actividad 02
Author
-Mery An Rojas Barreto
Published
April 26, 2025
Preparación de la maquina
Descripción del dataset
El set de datos iris contiene las mediciones en centímetros de las variables longitud (Length) y ancho (Width) de los pétalos (Petal) y sépalos (Sepal) de 50 flores de cada una de las 3 especies (Species) del género Iris: Iris setosa, Iris versicolor e Iris virginica. Para obtener más información acerca de la base de datos iris tipea ?iris en la línea de comando de R.
summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median :5.800 Median :3.000 Median :4.350 Median :1.300
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Species
setosa :50
versicolor:50
virginica :50
[1] Sepal.Length Sepal.Width Petal.Length Petal.Width Species
[6] id
<0 rows> (o 0- extensión row.names)
iris2 <- iris[, !(names(iris) %in%c("id"))]
1. De las tres especies, en promedio cual tiene los petalos más largos, para ello construya una tabla en donde muestre la media del largo de los petalos agrupados por especie.
media_petalos <-aggregate( Petal.Length ~ Species, data = iris2, FUN = mean)print(head(media_petalos))
La especie Iris Setosa tiene en promedio el tamaño de sus petalos 1.46 cm, es decir, los petalos más pequeños, en comparación con la especie Iris Verticolor con un premio de 4.26 cm y la especie Iris Virginica siendo la mayor con un promedio de 5.55 cm, siendo esta ultima la que tiene los petalos más largos.
2. Tu cliente solo está interesado en las flores cuyo pétalos sean mayores o iguales a 3.2 cm, para ello filtre el df y organice por grupo mostrando el promedio del ancho de sépalo
promedio_sepalo <-aggregate(Sepal.Width ~ Species, data = iris_filtrado, FUN = mean)promedio_petalo <-aggregate(Petal.Length ~ Species, data = iris_filtrado, FUN = mean)promedios_combinados <-merge(promedio_sepalo, promedio_petalo, by ="Species")print(head(promedios_combinados))
Basados en las preferencias del cliente, se infiere que las dos especies que cumplen con el tamaño del petalo mayor o igual a 3.2 cm son la Iris Versicolor y la Iris Virginica, las cuales cuentan con un ancho promedio del sepalo entre 2.76 en la versicolor, y 2.97 en la virginica.
3. Por alguna extraña razón que desconecemos, tu cliente quiere saber la altura del sépalo en metros, para ello cree una nueva variable nueva donde muestre el resultados en metro, luego organice la base de datos en mayor a menor y muestre los primero 5 resultados de cada grupo
En esta area, sin aplicar los filtros anteriores, se destaca que la Iris Setosa tiene las caracteristicas de menor tamaño en todos los segmentos, luego le sigue versicolor con una diferencia sustancial, y por ultimo la virginica con mayor tamaño.
Ya con los datos filtrados por tamaño de petalo, es visible que solo dos especies cumplen con el item especificado, y en promedio el versicolor tiene un tamaño del sepalo en 0.069 m y la virginica de 0.078 m; tomando como referencia los 5 primeros valores por grupo.
4. Realice un gráfico de dispersión Petal.Length vs Sepal.Length
plot(iris_filtrado$Petal.Length, iris_filtrado$Sepal.Length,xlab ="Largo de los Pétalos (cm)",ylab ="Largo de los Sépalos (cm)",main ="Gráfico de Dispersión: Petal.Length vs Sepal.Length",pch =19, col ="magenta")abline(lm(Sepal.Length ~ Petal.Length, data = iris_filtrado), col ="purple", lwd =3)
Interpretación
Se encuentra que hay una relación directamente proporcional, es decir, a mayor tamaño del pétalo, mayor es largo de los sépalos; con un valor minimo en largo de sépalo de 5.2 cm y 3.2 cm de pétalo y un maximo de 7.5 cm de largo de sépalo y 6.8 cm de pétalo. Ademas de que hay una gran concentración entre 4 y 6 centimetros de pétalos y 5.5 cm a 7 cm de largo del sépalo; indicando que enntre esos valores se encuentra el promedio de las especies.
5. Realice un boxplot del largo de los petalos agrupados.
boxplot(Petal.Length ~ Species, data = iris_filtrado,xlab ="Especie",ylab ="Largo de los Pétalos (cm)",main ="Boxplot del Largo de los Pétalos Agrupados por Especie",col =c("lightblue", "lightgreen", "lightpink"))
Interpretación
Dentro de los filtros, es visible que solo acceden las dos especies filtradas, la virginica tiene un valor representativo mientras que versicolor tiene mayor inclinación a su valor superior que inferior, no obstante, la media de versicolor es de 4.4 cm aproximadamente con un minimo inferior a 3.5 cm y un maximo superior a 5cm. Mientras que la virginica tiene una media de 5.5 cm con un minimo de 4.8 cm y un maximo de 7 cm; mostrtando que las medidas de los petalos del virginica en promedio con los del versicolor son más grandes.