Utilizando los datos de la base “Iris” de R:

Pregunta 1

  • Presente los 10 primeros y 10 últimos resultados de la información obtenida en una tabla.
Table 1: Primeros 10 registros del dataset Iris
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa
4.6 3.4 1.4 0.3 setosa
5.0 3.4 1.5 0.2 setosa
4.4 2.9 1.4 0.2 setosa
4.9 3.1 1.5 0.1 setosa
Table 2: Últimos 10 registros del dataset Iris
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
141 6.7 3.1 5.6 2.4 virginica
142 6.9 3.1 5.1 2.3 virginica
143 5.8 2.7 5.1 1.9 virginica
144 6.8 3.2 5.9 2.3 virginica
145 6.7 3.3 5.7 2.5 virginica
146 6.7 3.0 5.2 2.3 virginica
147 6.3 2.5 5.0 1.9 virginica
148 6.5 3.0 5.2 2.0 virginica
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3.0 5.1 1.8 virginica

Pregunta 2

  • Realice un análisis exploratorio de datos de la información obtenida.

El número y tipo de variables y datos se observa en:

## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

El resumen para la especie “Setosa”:

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.300   Min.   :1.000   Min.   :0.100  
##  1st Qu.:4.800   1st Qu.:3.200   1st Qu.:1.400   1st Qu.:0.200  
##  Median :5.000   Median :3.400   Median :1.500   Median :0.200  
##  Mean   :5.006   Mean   :3.428   Mean   :1.462   Mean   :0.246  
##  3rd Qu.:5.200   3rd Qu.:3.675   3rd Qu.:1.575   3rd Qu.:0.300  
##  Max.   :5.800   Max.   :4.400   Max.   :1.900   Max.   :0.600  
##        Species  
##  setosa    :50  
##  versicolor: 0  
##  virginica : 0  
##                 
##                 
## 

El resumen para la especie “Versicolor”:

##   Sepal.Length    Sepal.Width     Petal.Length   Petal.Width          Species  
##  Min.   :4.900   Min.   :2.000   Min.   :3.00   Min.   :1.000   setosa    : 0  
##  1st Qu.:5.600   1st Qu.:2.525   1st Qu.:4.00   1st Qu.:1.200   versicolor:50  
##  Median :5.900   Median :2.800   Median :4.35   Median :1.300   virginica : 0  
##  Mean   :5.936   Mean   :2.770   Mean   :4.26   Mean   :1.326                  
##  3rd Qu.:6.300   3rd Qu.:3.000   3rd Qu.:4.60   3rd Qu.:1.500                  
##  Max.   :7.000   Max.   :3.400   Max.   :5.10   Max.   :1.800

El resumen para la especie “Virginica”

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.900   Min.   :2.200   Min.   :4.500   Min.   :1.400  
##  1st Qu.:6.225   1st Qu.:2.800   1st Qu.:5.100   1st Qu.:1.800  
##  Median :6.500   Median :3.000   Median :5.550   Median :2.000  
##  Mean   :6.588   Mean   :2.974   Mean   :5.552   Mean   :2.026  
##  3rd Qu.:6.900   3rd Qu.:3.175   3rd Qu.:5.875   3rd Qu.:2.300  
##  Max.   :7.900   Max.   :3.800   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    : 0  
##  versicolor: 0  
##  virginica :50  
##                 
##                 
## 

A cotinuación, se muestran diagaramas de caja y bigotes para cada variable, separados por especie:

A cotinuación, se muestran los histogramas para cada variable, separados por especie:

En la matriz a continuación, con un color distintivo para cada especie, las diagonales muestran la densidad de cada variable, las celdas inferiores enseñan gráficos de dispersión comparándolas, y las celdas superiores indican los coeficientes de correlación entre variables (Schloerke, 2021):

La siguiente tabla muestra el sesgo de cada variable, separado por especie:

Pregunta 3

  • ¿Qué conclusiones se pueden obtener de los resultados del análisis en el numeral previo (al menos dos conclusiones)?

El análisis de los datos muestra diferencias notables entre las tres especies de flores estudiadas: setosa, versicolor y virginica. Para empezar, las medidas de los pétalos (Petal.Length y Petal.Width) presentan una variación mucho mayor que la de los sépalos (Sepal.Length y Sepal.Width); mientras la longitud del sépalo varía entre 4.3 y 7.9 cm, la longitud del pétalo se extiende desde 1.0 hasta 6.9 cm. Esto demuestra que los pétalos son las variables que más contribuyen a la distinción entre especies, pues muestran contrastes fáciles de reconocer. En setosa, los pétalos son muy pequeños y similares; en versicolor, estos aumentan sus dimensiones y presentan mayor variabilidad; y en virginica, alcanzan los tamaños más grandes del conjunto de datos. Asimismo, debido a que los valores mínimos y máximos de las medidas coinciden mínimamente entre especies, se puede afirmar que con solo observar la longitud o el ancho de los pétalos es posible distinguirlas con gran precisión.

Por otro lado, los diagramas de caja y bigote permiten concluir que la dispersión de los datos ofrece información relevante sobre la variabilidad interna de cada especie. Setosa presenta cajas compactas en todas las variables, lo que sugiere que sus flores, a diferencia de las otras especies, son más uniformes en sus dimensiones. Esta homogeneidad muestra que existe una variación mínima en la forma de las flores y que sus proporciones se mantienen estables entre los organismos de la especie. En contraste, versicolor y virginica muestran cajas más amplias, principalmente en las variables de pétalo, lo que refleja una mayor diversidad dentro de sus grupos, posiblemente debido a diferencias genéticas o a la influencia de factores ambientales.

Estas observaciones se refuerzan al analizar la tabla de desviaciones estándar previamente obtenida. En esta se evidencia que virginica presenta los valores más altos de desviación en la mayoría de las variables, mientras que setosa presenta los valores más bajos. Esto corrobora las conclusiones visuales de los diagramas. Tanto los boxplots como la tabla numérica demuestran que el grado de dispersión y uniformidad cambian de manera consistente entre las especies, evidenciando las variaciones en la forma y tamaño de las flores.

En cuanto a los coeficientes de correlación, se puede apreciar una relación positiva y fuerte entre las variables de pétalos (Petal.Length y Petal.Width), que es la más alta del conjunto (0.963); esto indica que a medida que aumenta su longitud, su ancho también lo hace de forma proporcional. Por otro lado, las correlaciones entre variables de sépalo son más bajas, lo que sugiere que su tamaño no sigue el mismo patrón de crecimiento que el de los pétalos, dando a entender que ambos órganos se desarrollan de maneras distintas. Estos resultados evidencian que el crecimiento y proporciones de los pétalos están directamente vinculados, lo que explica por qué estas variables son más útiles para distinguir a las especies de las flores del conjunto de datos.

Pregunta 4

  • Realice una prueba de normalidad para las variables “Sepal.Length” y “Petal.Length”.

Para la prueba de normalidad se empleó la función “shapiro.test” y se asumió un nivel de significancia de 0,05. En este caso, la hipótesis nula corresponde a que los datos provienen de una distribución normal. Si el valor p obtenido es mayor a 0,05 (el nivel de significancia asumido), entonces se acepta la hipótesis nula. Este nivel se utiliza porque representa un límite aceptable que permite considerar un pequeño margen de error (5 %) al rechazar por equivocación una hipótesis verdadera, a la vez que mantiene un equilibrio entre el riesgo de error y la confianza en los resultados, convirtiéndose en un estándar común en las pruebas estadísticas (Tenny & Abdelgawad, 2023).Las gráficas presentadas a continuación muestran la densidad estimada de los datos reales (azul) y la curva teórica (rojo) de distribución normal con la media y desviación estándar de la variable respectiva.

Sepal.Length:

## [1] "El valor p < 0.05. Por lo tanto, la variable no puede ser considerada normal"

Petal.Length:

## [1] "El valor p < 0.05. Por lo tanto, la variable no puede ser considerada normal"

Referencias

Schloerke, B. (2021). Pairs plot with ggpairs. R Charts. https://r-charts.com/correlation/ggpairs/

Tenny, S., & Abdelgawad, I. (2023). Statistical Significance. StatPearls Publishing. http://www.ncbi.nlm.nih.gov/books/NBK459346/