Proposito: El propósito de este informe es aprender a usar R para analizar datos de manera sencilla y reproducible. Para ello se estudia el conjunto de datos iris, revisando la relación entre la longitud y el ancho del pétalo mediante gráficos, medidas descriptivas, correlación y regresión. La idea es mostrar cómo se interpretan estos resultados y cómo pueden presentarse en un informe básico.

Introducción

El presente informe tiene como objetivo explorar el conjunto de datos iris, que contiene mediciones de tres especies de flores: setosa, versicolor y virginica. Se estudiará la relación entre la longitud del pétalo (Petal.Length) y su ancho (Petal.Width), incluyendo correlación, regresión lineal simple y análisis por grupos.

Carga de Datos

Para comenzar el análisis se cargó el conjunto de datos iris, que viene incluido por defecto en R. Este conjunto contiene 150 observaciones de flores y cinco variables que describen medidas de los sépalos y los pétalos, además de la especie a la que pertenece cada flor. Al cargar los datos se puede ver la estructura básica del conjunto y verificar que está listo para usar en los análisis posteriores.

Para que el lector pueda familiarizarse con la información que se va a analizar, se muestra una vista parcial del conjunto de datos. Esta visualización inicial ayuda a entender la estructura de los datos antes de realizar el análisis completo.

##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa
Nombre de la variable Descripción de la variable Unidades
Sepal.Length Longitud del sépalo de la Flor cm
Sepal.Width Ancho del sépalo de la flor cm
Petal.Length Longitud del pétalo de la flor cm
Petal.Width Ancho del pétalo de la flor cm
Species Especie a la que pertenece cada observación

Análisis Exploratorio

El análisis exploratorio ofrece una primera mirada al comportamiento de las variables, mostrando sus valores mínimos, máximos y medidas centrales. Esto permite entender la distribución general de los sépalos y pétalos y tener una base clara antes de continuar con análisis más específicos.

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Relacion entre la longitud y ancho del pétalo

En esta sección se analiza cómo se relacionan la longitud y el ancho del pétalo dentro del conjunto de datos iris. La idea es observar si, a medida que el pétalo es más ancho, también tiende a ser más largo. Esta relación permite identificar patrones generales en las flores y entender mejor cómo estas dos características están conectadas entre sí.

En el gráfico se observa que, a medida que el ancho del pétalo aumenta, también lo hace la longitud del pétalo. Los puntos siguen una tendencia ascendente muy marcada, lo que muestra una relación positiva clara entre ambas variables. La línea azul de regresión confirma esta tendencia, indicando que el crecimiento de la longitud es consistente conforme aumenta el ancho. Además, para cuantificar esta relación se calcula el coeficiente de correlación, el cual permite medir qué tan fuerte es la asociación observada en el gráfico.

## Correlación =  0.9628654
## 
##  Pearson's product-moment correlation
## 
## data:  iris$Petal.Width and iris$Petal.Length
## t = 43.387, df = 148, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9490525 0.9729853
## sample estimates:
##       cor 
## 0.9628654

El valor p obtenido en la prueba de correlación (p-value < 2.2e-16) muestra que la relación entre el ancho y la longitud del pétalo es altamente significativa desde el punto de vista estadístico. Esto significa que es prácticamente imposible que se observe una correlación tan fuerte solo por azar si en realidad no existiera relación en la población. En consecuencia, podemos afirmar con mucha confianza que ambas variables están verdaderamente asociadas.

Regresión Lineal

## 
## Call:
## lm(formula = Petal.Length ~ Petal.Width, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.33542 -0.30347 -0.02955  0.25776  1.39453 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.08356    0.07297   14.85   <2e-16 ***
## Petal.Width  2.22994    0.05140   43.39   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4782 on 148 degrees of freedom
## Multiple R-squared:  0.9271, Adjusted R-squared:  0.9266 
## F-statistic:  1882 on 1 and 148 DF,  p-value: < 2.2e-16

El coeficiente estimado para Petal.Width es aproximadamente 2.23, lo que indica que, por cada incremento de una unidad en el ancho del pétalo, la longitud promedio del pétalo aumenta en alrededor de 2.23 centímetros. Este efecto positivo es claro y consistente dentro del modelo.

El p-valor asociado a este coeficiente (p < 2.2e-16) muestra que la relación es altamente significativa, lo que significa que existe evidencia estadística suficiente para afirmar que el ancho del pétalo realmente influye en su longitud dentro de la población de flores.

Aun así, que el resultado sea significativo no implica que sea absolutamente seguro. Siempre existe una probabilidad de cometer un error al concluir que existe una relación cuando en realidad no la hay. En este caso, esa probabilidad es extremadamente baja, menor al 0.1%, lo que en términos prácticos significa que la posibilidad de interpretar una relación inexistente es muy pequeña.

Predicciones

##   Petal.Width Petal.Length_predicho
## 1         1.0              3.313499
## 2         1.5              4.428469
## 3         2.0              5.543439

Análisis por agrupamiento

Antes de examinar los datos por separado, agrupamos las observaciones según la especie de la flor. Esto permite visualizar cómo se comportan la longitud y el ancho del pétalo dentro de cada grupo y comparar sus patrones internos de manera más clara.

Al separar los datos por especie se observa que cada grupo presenta un patrón distinto en la relación entre el ancho y la longitud del pétalo. Setosa reúne valores pequeños y poco dispersos, versicolor muestra un comportamiento intermedio con una tendencia más clara, y virginica presenta los pétalos más grandes y una mayor variación. Aunque los rangos cambian entre especies, en las tres se aprecia una relación positiva entre ambas variables. Para cuantificar estas diferencias, se calcularon las correlaciones por grupo, lo que permite medir de manera más precisa la fuerza de la relación dentro de cada especie.

Especies Correlación
setosa Correlación = 0.33
versicolor Correlación = 0.79
virginica Correlación = 0.32
Especies Correlación IC Bajo IC Alto p-valor
setosa 0.332 0.059 0.558 0.019
versicolor 0.787 0.651 0.874 0.000
virginica 0.322 0.048 0.551 0.023

Conclusiones

El estudio mostró que existe una relación clara entre el ancho y la longitud del pétalo en el conjunto de datos iris. A medida que el pétalo es más ancho, su longitud también tiende a aumentar, lo que evidencia una asociación positiva entre ambas medidas.

El modelo de regresión confirmó que este vínculo no es casual: el coeficiente obtenido fue significativo y explicó una proporción alta de la variabilidad observada, indicando que el ancho del pétalo aporta información relevante para anticipar su longitud.

Al dividir los datos por especie, se identificaron diferencias en los patrones internos. Aunque las tres especies mantienen la relación positiva, la intensidad del vínculo cambia. Versicolor presentó la correlación más notable, mientras que setosa y virginica mostraron asociaciones más suaves, lo que sugiere que la relación depende en parte de características propias de cada especie.

Reflexión Final

Este análisis se realizó a partir de una muestra específica de flores, por lo que las conclusiones describen el comportamiento dentro de este conjunto de datos. Aunque la evidencia estadística respalda la existencia de una relación real entre el ancho y la longitud del pétalo, siempre existe un margen de incertidumbre. Un resultado significativo no elimina la posibilidad de cometer un error de tipo I, es decir, afirmar que hay una relación cuando no la hay; del mismo modo, un error de tipo II podría llevar a no detectar una relación que sí existe.

Estos riesgos forman parte natural del trabajo estadístico. Más que ofrecer certezas absolutas, los métodos aplicados permiten evaluar cuán probable es que las relaciones observadas reflejen un patrón real. En ese sentido, los resultados deben interpretarse como una aproximación informada, útil para describir y comprender el comportamiento de las variables, pero siempre considerando los límites de cualquier análisis basado en datos.