DataFrame Iris

La base de datos Iris es un conjunto de datos ampliamente conocido y utilizado en el campo de la estadística y el aprendizaje automático. Introducida por el biólogo y estadístico británico Ronald A. Fisher en 1936, esta base de datos proporciona mediciones detalladas de cuatro características botánicas de flores pertenecientes a tres especies diferentes de iris: setosa, versicolor y virginica. Las características medidas incluyen la longitud y el ancho del sépalo, así como la longitud y el ancho del pétalo, todas expresadas en milímetros.

Información de las Iris

La base de datos Iris abarca tres especies diferentes de iris. Estas especies son:

Iris setosa: También conocida como lirio de Siberia, es una de las especies de iris. Se caracteriza por sus flores pequeñas y distintivas.

Iris versicolor: Esta especie es conocida como lirio versicolor o lirio azul. Sus flores son más grandes que las de Iris setosa y tienen un color violeta a azul.

Iris virginica: También conocida como lirio de Virginia, es otra especie de iris incluida en la base de datos. Sus flores son similares a las de Iris versicolor pero tienden a ser más grandes y de color más claro.

Tabla de especies de flores de Iris

Existen 3 especies diferentes

df %>% tabyl(Species) %>%
  adorn_totals("row") %>%
  adorn_pct_formatting() %>%
  flextable() %>%
  fontsize(size=14) %>%
  autofit() %>%
  theme_box()

Species

n

percent

Iris-setosa

50

33.3%

Iris-versicolor

50

33.3%

Iris-virginica

50

33.3%

Total

150

100.0%

Gráfica

df %>% tabyl(Species) %>%
  ggplot(aes(x=Species,y=n,fill=Species)) + 
  geom_col() +
  labs(x="Especies", y="Frecuencia",title="Especies de Iris") +
  geom_text(aes(label=n),vjust=1.5,col="black",fontface="bold")

df %>% tabyl(PetalWidthCm) %>%
  ggplot(aes(x=PetalWidthCm,y=n,fill=PetalWidthCm)) + 
  geom_col() +
  labs(x="Anchura de los pétalos", y="Frecuencia",title="Anchura de los pétalos") +
  geom_text(aes(label=n),vjust=1.5,col="red4",fontface="bold")

Longitud del sepalo de la flor de Iris (Gráfica)

Para diferenciar los tipos de Iris se debe identificar la longitud del sepalo de la flor de iris

df %>% tabyl(SepalLengthCm) %>%
  ggplot(aes(x=SepalLengthCm,y=n,fill=SepalLengthCm)) + 
  geom_col() +
  labs(x="Longitud del Sépalo", y="Frecuencia",title="Especies de Iris") +
  geom_text(aes(label=n),vjust=1.5,col="black",fontface="bold")

Anchura de los sepalos

Caracteristica que sirve de apoyo para la identificación de Iris

df %>% tabyl(SepalWidthCm) %>%
  ggplot(aes(x=SepalWidthCm,y=n,fill=SepalWidthCm)) + 
  geom_col() +
  labs(x="Ancho Del Sepalo", y="Frecuencia",title="Anchura del sepalo") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)  ),vjust=1.5,col="white",fontface="bold")

n=100000
Petallenghtcm= rnorm(n=n,mean=20,sd=1)
df1=data.frame(Petallenghtcm)
df1 %>% 
  ggplot(aes(x=Petallenghtcm)) + geom_histogram(color=600,fill="purple4") +
  labs(x="Longitud de los pétalos",y="Frecuencia",title = "Longitud de los pétalos")