#Introducción

#El análisis de la relación entre variables es una herramienta fundamental en la estadística aplicada, ya que permite comprender cómo ciertos factores influyen en el comportamiento de una variable de interés. En el ámbito de la botánica y la ciencia de datos, el conjunto de datos Iris se ha convertido en un referente clásico para el estudio de técnicas estadísticas, debido a la variedad de características morfológicas que contiene de tres especies de flores.

#Este conjunto de datos incluye mediciones del largo y ancho de sépalos y pétalos, lo que brinda una oportunidad valiosa para explorar patrones de asociación entre variables. En particular, la longitud del pétalo es una característica clave, ya que puede reflejar diferencias estructurales entre especies y estar relacionada con otras dimensiones de la flor. Analizar estas relaciones no solo contribuye a una mejor comprensión de las características morfológicas de las plantas, sino que también permite aplicar y evaluar modelos estadísticos de ajuste y predicción.

#En este contexto, el presente trabajo se enfoca en analizar la relación existente entre la longitud de los pétalos y otras variables morfológicas, mediante el ajuste de modelos estadísticos que permitan explicar y cuantificar dichas asociaciones.

#La pregunta de investigación, en la que gira este trabajo es la siguiente: ¿qué relación existe entre la longitud del pétalo y las demás variables morfológicas (largo y ancho del sépalo, así como el ancho del pétalo) en las flores del conjunto de datos Iris?

Se trabajará nuevamente con los datos de iris.

x<-"C:/Users/aacad/OneDrive/Documents/ADRIANA/FCPYS/R COMO INSTRUMENTO DE INVESTIGACION/a4_iris.csv"
y<-read.csv(x,as.is = TRUE)
str(y)
## 'data.frame':    150 obs. of  5 variables:
##  $ sepal.length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ sepal.width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ petal.length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ petal.width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ variety     : chr  "Setosa" "Setosa" "Setosa" "Setosa" ...
summary(y)
##   sepal.length    sepal.width     petal.length    petal.width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##    variety         
##  Length:150        
##  Class :character  
##  Mode  :character  
##                    
##                    
## 

A continuación se revisan correlaciones entre las variables

library(ggplot2)
library(GGally)
## Warning: package 'GGally' was built under R version 4.5.2
y<-data.frame(y)

ggpairs(y, aes(color = variety, alpha = 0.5))
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.

#Después de revisar las correlaciones de las variables con la longitud del pétalo, destaca que el ancho del pétalo tiene una correlación de 0.96, mientras que la longitud del sépalo de 0.87, la correlación entre estas últimas es de 0.82, por lo que sólo una de ellas sería adecuada para ajustar un modelo

#Se ajustarán tres modelos: uno donde se utiliza el ancho del pétalo para predecir el largo del sépalo, otro, con el largo del ´sepalo y finalmente uno que combine ambas variables predictoras.

A continuación, se ajustan los modelos.

modelo1<-lm(y$petal.length~y$petal.width)
modelo2<-lm(y$petal.length~y$sepal.length)
modelo3<-lm(y$petal.length~y$petal.width+y$sepal.length)
anova(modelo1)
## Analysis of Variance Table
## 
## Response: y$petal.length
##                Df Sum Sq Mean Sq F value    Pr(>F)    
## y$petal.width   1 430.48  430.48  1882.5 < 2.2e-16 ***
## Residuals     148  33.84    0.23                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo1)
## 
## Call:
## lm(formula = y$petal.length ~ y$petal.width)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.33542 -0.30347 -0.02955  0.25776  1.39453 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.08356    0.07297   14.85   <2e-16 ***
## y$petal.width  2.22994    0.05140   43.39   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4782 on 148 degrees of freedom
## Multiple R-squared:  0.9271, Adjusted R-squared:  0.9266 
## F-statistic:  1882 on 1 and 148 DF,  p-value: < 2.2e-16
plot(modelo1, las = 1) 

anova(modelo2)
## Analysis of Variance Table
## 
## Response: y$petal.length
##                 Df Sum Sq Mean Sq F value    Pr(>F)    
## y$sepal.length   1 352.87  352.87  468.55 < 2.2e-16 ***
## Residuals      148 111.46    0.75                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo2)
## 
## Call:
## lm(formula = y$petal.length ~ y$sepal.length)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.47747 -0.59072 -0.00668  0.60484  2.49512 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -7.10144    0.50666  -14.02   <2e-16 ***
## y$sepal.length  1.85843    0.08586   21.65   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8678 on 148 degrees of freedom
## Multiple R-squared:   0.76,  Adjusted R-squared:  0.7583 
## F-statistic: 468.6 on 1 and 148 DF,  p-value: < 2.2e-16
plot(modelo2, las = 1) 

anova(modelo3)
## Analysis of Variance Table
## 
## Response: y$petal.length
##                 Df Sum Sq Mean Sq  F value    Pr(>F)    
## y$petal.width    1 430.48  430.48 2647.529 < 2.2e-16 ***
## y$sepal.length   1   9.94    9.94   61.151 9.414e-13 ***
## Residuals      147  23.90    0.16                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo3)
## 
## Call:
## lm(formula = y$petal.length ~ y$petal.width + y$sepal.length)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.15506 -0.21920 -0.02115  0.25986  1.35204 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -1.50714    0.33696  -4.473 1.54e-05 ***
## y$petal.width   1.74810    0.07533  23.205  < 2e-16 ***
## y$sepal.length  0.54226    0.06934   7.820 9.41e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4032 on 147 degrees of freedom
## Multiple R-squared:  0.9485, Adjusted R-squared:  0.9478 
## F-statistic:  1354 on 2 and 147 DF,  p-value: < 2.2e-16
plot(modelo3, las = 1) 

##La revisión de los modelos muestra que cualquiera de los tres da una explicación relevante a la longitud del pétalo, pero una revisión detallada, muestra que el modelo 2 explica en menor grado la variabilidad de los datos (R2=0.76), por lo que se descarta. Al comparar el modelo 1 contra el 3, se observa que aunque la R2 del modelo 3 es mayor, el intercepto es negativo, por lo que no es ofrece una región “operativa factible” por lo que el modelo que se elige es el 1, con el ancho del pétalo como variable explicativa.

Este modelo establece que por cada unidad que se incrementa el ancho del pétalo, el largo aumenta en 2.23

El modelo seleccionado tiene como principal fortaleza que permite explicar el comportamiento de la variable de interés a partir del valor de una sola variable explicativa. No obstante, puede señalarse como limitación que el análisis se centra únicamente en una parte de la planta, dejando de lado otras características que podrían aportar información relevante. El criterio final de selección no se basó únicamente en el intercepto —el cual incluso podría haberse omitido en el análisis—, sino principalmente en la alta correlación observada entre la longitud del sépalo y el ancho del pétalo, lo que sugiere que es suficiente conocer el valor de una de estas variables para explicar el comportamiento de la variable dependiente. Además, uno de los supuestos del modelo de regresión lineal múltiple es que las variables explicativas sean independientes o, al menos, que no presenten una alta correlación entre sí. Finalmente, se reconoce que futuras investigaciones podrían incorporar un mayor número de variables con el fin de lograr una comprensión más integral de las características morfológicas de las plantas.

Después de analizar el conjunto de datos, puede concluirse que la longitud del pétalo guarda una relación prácticamente de 2 a 1.