#Introducción
#El análisis de la relación entre variables es una herramienta fundamental en la estadística aplicada, ya que permite comprender cómo ciertos factores influyen en el comportamiento de una variable de interés. En el ámbito de la botánica y la ciencia de datos, el conjunto de datos Iris se ha convertido en un referente clásico para el estudio de técnicas estadísticas, debido a la variedad de características morfológicas que contiene de tres especies de flores.
#Este conjunto de datos incluye mediciones del largo y ancho de sépalos y pétalos, lo que brinda una oportunidad valiosa para explorar patrones de asociación entre variables. En particular, la longitud del pétalo es una característica clave, ya que puede reflejar diferencias estructurales entre especies y estar relacionada con otras dimensiones de la flor. Analizar estas relaciones no solo contribuye a una mejor comprensión de las características morfológicas de las plantas, sino que también permite aplicar y evaluar modelos estadísticos de ajuste y predicción.
#En este contexto, el presente trabajo se enfoca en analizar la relación existente entre la longitud de los pétalos y otras variables morfológicas, mediante el ajuste de modelos estadísticos que permitan explicar y cuantificar dichas asociaciones.
#La pregunta de investigación, en la que gira este trabajo es la siguiente: ¿qué relación existe entre la longitud del pétalo y las demás variables morfológicas (largo y ancho del sépalo, así como el ancho del pétalo) en las flores del conjunto de datos Iris?
x<-"C:/Users/aacad/OneDrive/Documents/ADRIANA/FCPYS/R COMO INSTRUMENTO DE INVESTIGACION/a4_iris.csv"
y<-read.csv(x,as.is = TRUE)
str(y)
## 'data.frame': 150 obs. of 5 variables:
## $ sepal.length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ sepal.width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ petal.length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ petal.width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ variety : chr "Setosa" "Setosa" "Setosa" "Setosa" ...
summary(y)
## sepal.length sepal.width petal.length petal.width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## variety
## Length:150
## Class :character
## Mode :character
##
##
##
library(ggplot2)
library(GGally)
## Warning: package 'GGally' was built under R version 4.5.2
y<-data.frame(y)
ggpairs(y, aes(color = variety, alpha = 0.5))
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
#Después de revisar las correlaciones de las variables con la longitud del pétalo, destaca que el ancho del pétalo tiene una correlación de 0.96, mientras que la longitud del sépalo de 0.87, la correlación entre estas últimas es de 0.82, por lo que sólo una de ellas sería adecuada para ajustar un modelo
#Se ajustarán tres modelos: uno donde se utiliza el ancho del pétalo para predecir el largo del sépalo, otro, con el largo del ´sepalo y finalmente uno que combine ambas variables predictoras.
modelo1<-lm(y$petal.length~y$petal.width)
modelo2<-lm(y$petal.length~y$sepal.length)
modelo3<-lm(y$petal.length~y$petal.width+y$sepal.length)
anova(modelo1)
## Analysis of Variance Table
##
## Response: y$petal.length
## Df Sum Sq Mean Sq F value Pr(>F)
## y$petal.width 1 430.48 430.48 1882.5 < 2.2e-16 ***
## Residuals 148 33.84 0.23
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo1)
##
## Call:
## lm(formula = y$petal.length ~ y$petal.width)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.33542 -0.30347 -0.02955 0.25776 1.39453
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.08356 0.07297 14.85 <2e-16 ***
## y$petal.width 2.22994 0.05140 43.39 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4782 on 148 degrees of freedom
## Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
## F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
plot(modelo1, las = 1)
anova(modelo2)
## Analysis of Variance Table
##
## Response: y$petal.length
## Df Sum Sq Mean Sq F value Pr(>F)
## y$sepal.length 1 352.87 352.87 468.55 < 2.2e-16 ***
## Residuals 148 111.46 0.75
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo2)
##
## Call:
## lm(formula = y$petal.length ~ y$sepal.length)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.47747 -0.59072 -0.00668 0.60484 2.49512
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.10144 0.50666 -14.02 <2e-16 ***
## y$sepal.length 1.85843 0.08586 21.65 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8678 on 148 degrees of freedom
## Multiple R-squared: 0.76, Adjusted R-squared: 0.7583
## F-statistic: 468.6 on 1 and 148 DF, p-value: < 2.2e-16
plot(modelo2, las = 1)
anova(modelo3)
## Analysis of Variance Table
##
## Response: y$petal.length
## Df Sum Sq Mean Sq F value Pr(>F)
## y$petal.width 1 430.48 430.48 2647.529 < 2.2e-16 ***
## y$sepal.length 1 9.94 9.94 61.151 9.414e-13 ***
## Residuals 147 23.90 0.16
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo3)
##
## Call:
## lm(formula = y$petal.length ~ y$petal.width + y$sepal.length)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.15506 -0.21920 -0.02115 0.25986 1.35204
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.50714 0.33696 -4.473 1.54e-05 ***
## y$petal.width 1.74810 0.07533 23.205 < 2e-16 ***
## y$sepal.length 0.54226 0.06934 7.820 9.41e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4032 on 147 degrees of freedom
## Multiple R-squared: 0.9485, Adjusted R-squared: 0.9478
## F-statistic: 1354 on 2 and 147 DF, p-value: < 2.2e-16
plot(modelo3, las = 1)
##La revisión de los modelos muestra que cualquiera de los tres da una explicación relevante a la longitud del pétalo, pero una revisión detallada, muestra que el modelo 2 explica en menor grado la variabilidad de los datos (R2=0.76), por lo que se descarta. Al comparar el modelo 1 contra el 3, se observa que aunque la R2 del modelo 3 es mayor, el intercepto es negativo, por lo que no es ofrece una región “operativa factible” por lo que el modelo que se elige es el 1, con el ancho del pétalo como variable explicativa.