Proposito: El propósito de este informe es aprender a usar R para analizar datos de manera sencilla y reproducible. Para ello se estudia el conjunto de datos iris, revisando la relación entre la longitud y el ancho del pétalo mediante gráficos, medidas descriptivas, correlación y regresión. La idea es mostrar cómo se interpretan estos resultados y cómo pueden presentarse en un informe básico.
El presente informe tiene como objetivo explorar el conjunto de datos iris, que contiene mediciones de tres especies de flores: setosa, versicolor y virginica. Se estudiará la relación entre la longitud del pétalo (Petal.Length) y su ancho (Petal.Width), incluyendo correlación, regresión lineal simple y análisis por grupos.
Para comenzar el análisis se cargó el conjunto de datos iris, que viene incluido por defecto en R. Este conjunto contiene 150 observaciones de flores y cinco variables que describen medidas de los sépalos y los pétalos, además de la especie a la que pertenece cada flor. Al cargar los datos se puede ver la estructura básica del conjunto y verificar que está listo para usar en los análisis posteriores.
Para que el lector pueda familiarizarse con la información que se va a analizar, se muestra una vista parcial del conjunto de datos. Esta visualización inicial ayuda a entender la estructura de los datos antes de realizar el análisis completo.
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
| Nombre de la variable | Descripción de la variable | Unidades |
|---|---|---|
| Sepal.Length | Longitud del sépalo de la Flor | cm |
| Sepal.Width | Ancho del sépalo de la flor | cm |
| Petal.Length | Longitud del pétalo de la flor | cm |
| Petal.Width | Ancho del pétalo de la flor | cm |
| Species | Especie a la que pertenece cada observación | – |
El análisis exploratorio ofrece una primera mirada al comportamiento de las variables, mostrando sus valores mínimos, máximos y medidas centrales. Esto permite entender la distribución general de los sépalos y pétalos y tener una base clara antes de continuar con análisis más específicos.
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
En esta sección se analiza cómo se relacionan la longitud y el ancho del pétalo dentro del conjunto de datos iris. La idea es observar si, a medida que el pétalo es más ancho, también tiende a ser más largo. Esta relación permite identificar patrones generales en las flores y entender mejor cómo estas dos características están conectadas entre sí.
En el gráfico se observa que, a medida que el ancho del pétalo aumenta, también lo hace la longitud del pétalo. Los puntos siguen una tendencia ascendente muy marcada, lo que muestra una relación positiva clara entre ambas variables. La línea azul de regresión confirma esta tendencia, indicando que el crecimiento de la longitud es consistente conforme aumenta el ancho. Además, para cuantificar esta relación se calcula el coeficiente de correlación, el cual permite medir qué tan fuerte es la asociación observada en el gráfico.
## Correlación = 0.9628654
##
## Pearson's product-moment correlation
##
## data: iris$Petal.Width and iris$Petal.Length
## t = 43.387, df = 148, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9490525 0.9729853
## sample estimates:
## cor
## 0.9628654
El valor p obtenido en la prueba de correlación (p-value < 2.2e-16) muestra que la relación entre el ancho y la longitud del pétalo es altamente significativa desde el punto de vista estadístico. Esto significa que es prácticamente imposible que se observe una correlación tan fuerte solo por azar si en realidad no existiera relación en la población. En consecuencia, podemos afirmar con mucha confianza que ambas variables están verdaderamente asociadas.
##
## Call:
## lm(formula = Petal.Length ~ Petal.Width, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.33542 -0.30347 -0.02955 0.25776 1.39453
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.08356 0.07297 14.85 <2e-16 ***
## Petal.Width 2.22994 0.05140 43.39 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4782 on 148 degrees of freedom
## Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
## F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
El coeficiente estimado para Petal.Width es aproximadamente 2.23, lo que indica que, por cada incremento de una unidad en el ancho del pétalo, la longitud promedio del pétalo aumenta en alrededor de 2.23 centímetros. Este efecto positivo es claro y consistente dentro del modelo.
El p-valor asociado a este coeficiente (p < 2.2e-16) muestra que la relación es altamente significativa, lo que significa que existe evidencia estadística suficiente para afirmar que el ancho del pétalo realmente influye en su longitud dentro de la población de flores.
Aun así, que el resultado sea significativo no implica que sea absolutamente seguro. Siempre existe una probabilidad de cometer un error al concluir que existe una relación cuando en realidad no la hay. En este caso, esa probabilidad es extremadamente baja, menor al 0.1%, lo que en términos prácticos significa que la posibilidad de interpretar una relación inexistente es muy pequeña.
## Petal.Width Petal.Length_predicho
## 1 1.0 3.313499
## 2 1.5 4.428469
## 3 2.0 5.543439
Antes de examinar los datos por separado, agrupamos las observaciones según la especie de la flor. Esto permite visualizar cómo se comportan la longitud y el ancho del pétalo dentro de cada grupo y comparar sus patrones internos de manera más clara.
Al separar los datos por especie se observa que cada grupo presenta un patrón distinto en la relación entre el ancho y la longitud del pétalo. Setosa reúne valores pequeños y poco dispersos, versicolor muestra un comportamiento intermedio con una tendencia más clara, y virginica presenta los pétalos más grandes y una mayor variación. Aunque los rangos cambian entre especies, en las tres se aprecia una relación positiva entre ambas variables. Para cuantificar estas diferencias, se calcularon las correlaciones por grupo, lo que permite medir de manera más precisa la fuerza de la relación dentro de cada especie.
| Especies | Correlación |
|---|---|
| setosa | Correlación = 0.33 |
| versicolor | Correlación = 0.79 |
| virginica | Correlación = 0.32 |
| Especies | Correlación | IC Bajo | IC Alto | p-valor |
|---|---|---|---|---|
| setosa | 0.332 | 0.059 | 0.558 | 0.019 |
| versicolor | 0.787 | 0.651 | 0.874 | 0.000 |
| virginica | 0.322 | 0.048 | 0.551 | 0.023 |
El estudio mostró que existe una relación clara entre el ancho y la longitud del pétalo en el conjunto de datos iris. A medida que el pétalo es más ancho, su longitud también tiende a aumentar, lo que evidencia una asociación positiva entre ambas medidas.
El modelo de regresión confirmó que este vínculo no es casual: el coeficiente obtenido fue significativo y explicó una proporción alta de la variabilidad observada, indicando que el ancho del pétalo aporta información relevante para anticipar su longitud.
Al dividir los datos por especie, se identificaron diferencias en los patrones internos. Aunque las tres especies mantienen la relación positiva, la intensidad del vínculo cambia. Versicolor presentó la correlación más notable, mientras que setosa y virginica mostraron asociaciones más suaves, lo que sugiere que la relación depende en parte de características propias de cada especie.
Este análisis se realizó a partir de una muestra específica de flores, por lo que las conclusiones describen el comportamiento dentro de este conjunto de datos. Aunque la evidencia estadística respalda la existencia de una relación real entre el ancho y la longitud del pétalo, siempre existe un margen de incertidumbre. Un resultado significativo no elimina la posibilidad de cometer un error de tipo I, es decir, afirmar que hay una relación cuando no la hay; del mismo modo, un error de tipo II podría llevar a no detectar una relación que sí existe.
Estos riesgos forman parte natural del trabajo estadístico. Más que ofrecer certezas absolutas, los métodos aplicados permiten evaluar cuán probable es que las relaciones observadas reflejen un patrón real. En ese sentido, los resultados deben interpretarse como una aproximación informada, útil para describir y comprender el comportamiento de las variables, pero siempre considerando los límites de cualquier análisis basado en datos.