Introducción

En el siguiente documento vamos a estudiar el conjunto de datos Iris para comprobar si existe correlación entre las distintas variables.

Iris es un género de plantas de la familia Iridaceae, cuyo nombre deriva del latín arcoiris, refiriéndose a la extensa variedad de colores florales que poseen sus muchas especies.

Resumen del conjunto y variables

Dento del conjunto contamos con 50 flores dentro cada una de las tres subespecies (setosa, versicolor y virginica).

##     setosa versicolor  virginica 
##         50         50         50

Usando el comando summary(iris) podemos ver un resumen del conjunto completo, siendo posible observar las medias de cada una de las variables.

  • Largo del sépalo: 5.8
  • Ancho del sépalo: 3.1
  • Largo del pétalo: 3.8
  • Ancho del pétalo: 1.2
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Para el lector que no conozca el término sépalo, el siguiente link puede ser de ayuda.

¿Qué es el sépalo de la flor?

Correlación

Cruzando las distintas variables en un gráfico de dispersión, se observa que existe una correlación positiva entre el ancho y el largo del pétalo, cuanto mayor es el ancho del pétalo mayor es el largo. Se observa también que una de las subespecies se encuentra alejada de las otras dos (a la izquierda del gráfico) diferenciándose así de estas.