Utilizando los datos de la base “Iris” de R:
| Sepal.Length | Sepal.Width | Petal.Length | Petal.Width | Species |
|---|---|---|---|---|
| 5.1 | 3.5 | 1.4 | 0.2 | setosa |
| 4.9 | 3.0 | 1.4 | 0.2 | setosa |
| 4.7 | 3.2 | 1.3 | 0.2 | setosa |
| 4.6 | 3.1 | 1.5 | 0.2 | setosa |
| 5.0 | 3.6 | 1.4 | 0.2 | setosa |
| 5.4 | 3.9 | 1.7 | 0.4 | setosa |
| 4.6 | 3.4 | 1.4 | 0.3 | setosa |
| 5.0 | 3.4 | 1.5 | 0.2 | setosa |
| 4.4 | 2.9 | 1.4 | 0.2 | setosa |
| 4.9 | 3.1 | 1.5 | 0.1 | setosa |
| Sepal.Length | Sepal.Width | Petal.Length | Petal.Width | Species | |
|---|---|---|---|---|---|
| 141 | 6.7 | 3.1 | 5.6 | 2.4 | virginica |
| 142 | 6.9 | 3.1 | 5.1 | 2.3 | virginica |
| 143 | 5.8 | 2.7 | 5.1 | 1.9 | virginica |
| 144 | 6.8 | 3.2 | 5.9 | 2.3 | virginica |
| 145 | 6.7 | 3.3 | 5.7 | 2.5 | virginica |
| 146 | 6.7 | 3.0 | 5.2 | 2.3 | virginica |
| 147 | 6.3 | 2.5 | 5.0 | 1.9 | virginica |
| 148 | 6.5 | 3.0 | 5.2 | 2.0 | virginica |
| 149 | 6.2 | 3.4 | 5.4 | 2.3 | virginica |
| 150 | 5.9 | 3.0 | 5.1 | 1.8 | virginica |
El número y tipo de variables y datos se observa en:
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
El resumen para la especie “Setosa”:
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.300 Min. :1.000 Min. :0.100
## 1st Qu.:4.800 1st Qu.:3.200 1st Qu.:1.400 1st Qu.:0.200
## Median :5.000 Median :3.400 Median :1.500 Median :0.200
## Mean :5.006 Mean :3.428 Mean :1.462 Mean :0.246
## 3rd Qu.:5.200 3rd Qu.:3.675 3rd Qu.:1.575 3rd Qu.:0.300
## Max. :5.800 Max. :4.400 Max. :1.900 Max. :0.600
## Species
## setosa :50
## versicolor: 0
## virginica : 0
##
##
##
El resumen para la especie “Versicolor”:
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## Min. :4.900 Min. :2.000 Min. :3.00 Min. :1.000 setosa : 0
## 1st Qu.:5.600 1st Qu.:2.525 1st Qu.:4.00 1st Qu.:1.200 versicolor:50
## Median :5.900 Median :2.800 Median :4.35 Median :1.300 virginica : 0
## Mean :5.936 Mean :2.770 Mean :4.26 Mean :1.326
## 3rd Qu.:6.300 3rd Qu.:3.000 3rd Qu.:4.60 3rd Qu.:1.500
## Max. :7.000 Max. :3.400 Max. :5.10 Max. :1.800
El resumen para la especie “Virginica”
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.900 Min. :2.200 Min. :4.500 Min. :1.400
## 1st Qu.:6.225 1st Qu.:2.800 1st Qu.:5.100 1st Qu.:1.800
## Median :6.500 Median :3.000 Median :5.550 Median :2.000
## Mean :6.588 Mean :2.974 Mean :5.552 Mean :2.026
## 3rd Qu.:6.900 3rd Qu.:3.175 3rd Qu.:5.875 3rd Qu.:2.300
## Max. :7.900 Max. :3.800 Max. :6.900 Max. :2.500
## Species
## setosa : 0
## versicolor: 0
## virginica :50
##
##
##
A cotinuación, se muestran diagaramas de caja y bigotes para cada variable, separados por especie:
A cotinuación, se muestran los histogramas para cada variable, separados por especie:
En la matriz a continuación, con un color distintivo para cada especie, las diagonales muestran la densidad de cada variable,
las celdas inferiores enseñan gráficos de dispersión comparándolas, y las celdas superiores indican los coeficientes de correlación entre variables (Schloerke, 2021):
El análisis de los datos muestra diferencias notables entre las tres especies de flores estudiadas: setosa, versicolor y virginica. Para empezar, las medidas de los pétalos (Petal.Length y Petal.Width) presentan una variación mucho mayor que la de los sépalos (Sepal.Length y Sepal.Width); mientras la longitud del sépalo varía entre 4.3 y 7.9 cm, la longitud del pétalo se extiende desde 1.0 hasta 6.9 cm. Esto demuestra que los pétalos son las variables que más contribuyen a la distinción entre especies, pues muestran contrastes fáciles de reconocer. En setosa, los pétalos son muy pequeños y similares; en versicolor, estos aumentan sus dimensiones y presentan mayor variabilidad; y en virginica, alcanzan los tamaños más grandes del conjunto de datos. Asimismo, debido a que los valores mínimos y máximos de las medidas coinciden mínimamente entre especies, se puede afirmar que con solo observar la longitud o el ancho de los pétalos es posible distinguirlas con gran precisión.
Por otro lado, los diagramas de caja y bigote permiten concluir que la dispersión de los datos ofrece información relevante sobre la variabilidad interna de cada especie. Setosa presenta cajas compactas en todas las variables, lo que sugiere que sus flores, a diferencia de las otras especies, son más uniformes en sus dimensiones. Esta homogeneidad muestra que existe una variación mínima en la forma de las flores y que sus proporciones se mantienen estables entre los organismos de la especie. En contraste, versicolor y virginica muestran cajas más amplias, principalmente en las variables de pétalo, lo que refleja una mayor diversidad dentro de sus grupos, posiblemente debido a diferencias genéticas o a la influencia de factores ambientales.
Estas observaciones se refuerzan al analizar la tabla de desviaciones estándar previamente obtenida. En esta se evidencia que virginica presenta los valores más altos de desviación en la mayoría de las variables, mientras que setosa presenta los valores más bajos. Esto corrobora las conclusiones visuales de los diagramas. Tanto los boxplots como la tabla numérica demuestran que el grado de dispersión y uniformidad cambian de manera consistente entre las especies, evidenciando las variaciones en la forma y tamaño de las flores.
En cuanto a los coeficientes de correlación, se puede apreciar una relación positiva y fuerte entre las variables de pétalos (Petal.Length y Petal.Width), que es la más alta del conjunto (0.963); esto indica que a medida que aumenta su longitud, su ancho también lo hace de forma proporcional. Por otro lado, las correlaciones entre variables de sépalo son más bajas, lo que sugiere que su tamaño no sigue el mismo patrón de crecimiento que el de los pétalos, dando a entender que ambos órganos se desarrollan de maneras distintas. Estos resultados evidencian que el crecimiento y proporciones de los pétalos están directamente vinculados, lo que explica por qué estas variables son más útiles para distinguir a las especies de las flores del conjunto de datos.
Para la prueba de normalidad se empleó la función “shapiro.test” y se asumió un nivel de significancia de 0,05. En este caso, la hipótesis nula corresponde a que los datos provienen de una distribución normal. Si el valor p obtenido es mayor a 0,05 (el nivel de significancia asumido), entonces se acepta la hipótesis nula. Este nivel se utiliza porque representa un límite aceptable que permite considerar un pequeño margen de error (5 %) al rechazar por equivocación una hipótesis verdadera, a la vez que mantiene un equilibrio entre el riesgo de error y la confianza en los resultados, convirtiéndose en un estándar común en las pruebas estadísticas (Tenny & Abdelgawad, 2023).Las gráficas presentadas a continuación muestran la densidad estimada de los datos reales (azul) y la curva teórica (rojo) de distribución normal con la media y desviación estándar de la variable respectiva.
## [1] "El valor p < 0.05. Por lo tanto, la variable no puede ser considerada normal"
## [1] "El valor p < 0.05. Por lo tanto, la variable no puede ser considerada normal"
Schloerke, B. (2021). Pairs plot with ggpairs. R Charts. https://r-charts.com/correlation/ggpairs/
Tenny, S., & Abdelgawad, I. (2023). Statistical Significance. StatPearls Publishing. http://www.ncbi.nlm.nih.gov/books/NBK459346/