En el siguiente documento vamos a estudiar el conjunto de datos Iris para comprobar si existe correlación entre las distintas variables.
Iris es un género de plantas de la familia Iridaceae, cuyo nombre deriva del latín arcoiris, refiriéndose a la extensa variedad de colores florales que poseen sus muchas especies.
Dento del conjunto contamos con 50 flores dentro cada una de las tres subespecies (setosa, versicolor y virginica).
## setosa versicolor virginica
## 50 50 50
Usando el comando summary(iris)
podemos ver un resumen del conjunto completo, siendo posible observar las medias de cada una de las variables.
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Para el lector que no conozca el término sépalo, el siguiente link puede ser de ayuda.
Cruzando las distintas variables en un gráfico de dispersión, se observa que existe una correlación positiva entre el ancho y el largo del pétalo, cuanto mayor es el ancho del pétalo mayor es el largo. Se observa también que una de las subespecies se encuentra alejada de las otras dos (a la izquierda del gráfico) diferenciándose así de estas.