La base de datos Iris es un conjunto de datos ampliamente conocido y utilizado en el campo de la estadística y el aprendizaje automático. Introducida por el biólogo y estadístico británico Ronald A. Fisher en 1936, esta base de datos proporciona mediciones detalladas de cuatro características botánicas de flores pertenecientes a tres especies diferentes de iris: setosa, versicolor y virginica. Las características medidas incluyen la longitud y el ancho del sépalo, así como la longitud y el ancho del pétalo, todas expresadas en milímetros.
La base de datos Iris abarca tres especies diferentes de iris. Estas especies son:
Iris setosa: También conocida como lirio de Siberia, es una de las especies de iris. Se caracteriza por sus flores pequeñas y distintivas.
Iris versicolor: Esta especie es conocida como lirio versicolor o lirio azul. Sus flores son más grandes que las de Iris setosa y tienen un color violeta a azul.
Iris virginica: También conocida como lirio de Virginia, es otra especie de iris incluida en la base de datos. Sus flores son similares a las de Iris versicolor pero tienden a ser más grandes y de color más claro.
Existen 3 especies diferentes
df %>% tabyl(Species) %>%
adorn_totals("row") %>%
adorn_pct_formatting() %>%
flextable() %>%
fontsize(size=14) %>%
autofit() %>%
theme_box()
Species | n | percent |
---|---|---|
Iris-setosa | 50 | 33.3% |
Iris-versicolor | 50 | 33.3% |
Iris-virginica | 50 | 33.3% |
Total | 150 | 100.0% |
df %>% tabyl(Species) %>%
ggplot(aes(x=Species,y=n,fill=Species)) +
geom_col() +
labs(x="Especies", y="Frecuencia",title="Especies de Iris") +
geom_text(aes(label=n),vjust=1.5,col="black",fontface="bold")
df %>% tabyl(PetalWidthCm) %>%
ggplot(aes(x=PetalWidthCm,y=n,fill=PetalWidthCm)) +
geom_col() +
labs(x="Anchura de los pétalos", y="Frecuencia",title="Anchura de los pétalos") +
geom_text(aes(label=n),vjust=1.5,col="red4",fontface="bold")
Para diferenciar los tipos de Iris se debe identificar la longitud del sepalo de la flor de iris
df %>% tabyl(SepalLengthCm) %>%
ggplot(aes(x=SepalLengthCm,y=n,fill=SepalLengthCm)) +
geom_col() +
labs(x="Longitud del Sépalo", y="Frecuencia",title="Especies de Iris") +
geom_text(aes(label=n),vjust=1.5,col="black",fontface="bold")
Caracteristica que sirve de apoyo para la identificación de Iris
df %>% tabyl(SepalWidthCm) %>%
ggplot(aes(x=SepalWidthCm,y=n,fill=SepalWidthCm)) +
geom_col() +
labs(x="Ancho Del Sepalo", y="Frecuencia",title="Anchura del sepalo") +
geom_text(aes(label= sprintf("%.2f%%",100*percent) ),vjust=1.5,col="white",fontface="bold")
n=100000
Petallenghtcm= rnorm(n=n,mean=20,sd=1)
df1=data.frame(Petallenghtcm)
df1 %>%
ggplot(aes(x=Petallenghtcm)) + geom_histogram(color=600,fill="purple4") +
labs(x="Longitud de los pétalos",y="Frecuencia",title = "Longitud de los pétalos")