Utilizando el conjunto de datos conocido como “IRIS DATASET”
El conjunto de datos de iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es una clasificación multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository. (https://archive.ics.uci.edu/ml/datasets/Iris )
El conjunto de datos de Iris se toma de Sir R.A. Papel Fisher para literatura de reconocimiento de patrones. También se conoce como conjunto de datos de iris de Anderson, ya que Edge Anderson recopiló originalmente los datos para cuantificar la variación de las flores de iris de su clase diferente. Estas clases son clase Iris-Setosa, Iris-Versicolor, Iris-Virginica con atributos como Longitud del sépalo, Ancho del sépalo, Longitud del pétalo y Ancho del pétalo en centímetros.
library(pacman)
p_load("datasets","DT","fdth")
data("iris")
dim(iris)
## [1] 150 5
datatable(iris)
table(iris$Species)
##
## setosa versicolor virginica
## 50 50 50
summary(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
boxplot(iris)
# Para dibujar una linea roja de la media del largo del pétalo
abline(h = mean(iris$Petal.Length), col = "red")
## Medidas de dispersión
Varianza
var(iris$Sepal.Length)
## [1] 0.6856935
Desviación estándar
sd(iris$Sepal.Length)
## [1] 0.8280661
tabla <- fdt(iris$Sepal.Length, breaks = "Sturges")
tabla
## Class limits f rf rf(%) cf cf(%)
## [4.257,4.671) 9 0.06 6.00 9 6.00
## [4.671,5.084) 23 0.15 15.33 32 21.33
## [5.084,5.498) 20 0.13 13.33 52 34.67
## [5.498,5.911) 31 0.21 20.67 83 55.33
## [5.911,6.325) 25 0.17 16.67 108 72.00
## [6.325,6.738) 22 0.15 14.67 130 86.67
## [6.738,7.152) 9 0.06 6.00 139 92.67
## [7.152,7.565) 5 0.03 3.33 144 96.00
## [7.565,7.979) 6 0.04 4.00 150 100.00
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual
plot(tabla, type="fh")
plot(tabla, type="rfh")
plot(tabla, type="cfh")
plot(tabla, type="fp")
plot(tabla, type="rfp")
plot(tabla, type="cfp")