Logo FCA Logo UNCA

Cátedra de Biometría y Técnica Experimental

_______________________________________________________________________________________________________

Trabajo Práctico N° 10: Correlación y Regresión Lineal Simple


Motivación

El análisis de correlación y regresión lineal constituye una herramienta estadística fundamental en la Ingeniería Agronómica, debido a su amplia aplicación en el estudio de variables vinculadas a la producción agropecuaria, los recursos naturales y los sistemas biológicos.

Estas metodologías permiten analizar y cuantificar la relación existente entre variables de interés agronómico, como rendimiento de cultivos, fertilización, disponibilidad hídrica, características del suelo, crecimiento vegetal, parámetros climáticos, sanidad vegetal y productividad animal. A través de su aplicación es posible identificar asociaciones entre variables y desarrollar modelos predictivos que contribuyan a una mejor comprensión de los fenómenos productivos y ambientales.

El análisis de correlación posibilita medir la fuerza y dirección de la relación entre dos variables cuantitativas, mientras que la regresión lineal permite construir modelos matemáticos para explicar y estimar el comportamiento de una variable respuesta en función de una o más variables independientes.

En Ingeniería Agronómica, estas herramientas resultan esenciales para la investigación, el diseño experimental, la interpretación de datos de campo y laboratorio, la agricultura de precisión y la toma de decisiones técnicas basadas en evidencia científica, contribuyendo a optimizar la productividad, la eficiencia en el uso de recursos y la sustentabilidad de los sistemas agropecuarios.

Resumen Teórico

El análisis de correlación y regresión lineal simple permite estudiar la relación entre dos variables cuantitativas, siendo herramientas estadísticas ampliamente utilizadas en Ingeniería Agronómica para analizar fenómenos productivos, biológicos y ambientales.

La correlación lineal simple mide el grado y dirección de asociación entre dos variables, sin diferenciar variable dependiente e independiente. Para ello se utiliza el coeficiente de correlación de Pearson (r), cuyos valores oscilan entre −1 y +1. Valores cercanos a +1 indican asociación positiva fuerte, valores cercanos a −1 indican asociación negativa fuerte y valores próximos a 0 señalan ausencia de relación lineal.

Rango de valores de r Grado de asociación Características
0,80 a 1,00 Muy alta Relación lineal muy fuerte entre las variables.
0,60 a 0,79 Alta Asociación fuerte entre las variables.
0,40 a 0,59 Moderada Relación apreciable, de intensidad intermedia.
0,20 a 0,39 Baja Asociación débil entre las variables.
0,00 a 0,19 Muy baja o nula Relación lineal muy débil o inexistente.

La regresión lineal simple estudia la relación funcional entre una variable independiente (X) y una variable dependiente (Y), permitiendo explicar y predecir el comportamiento de una variable a partir de otra. El modelo se expresa mediante una ecuación lineal:

Modelo de Regresión Lineal Simple

El modelo de regresión lineal simple se expresa como:

\[ Y_{ij}=\alpha+\beta X_i+\varepsilon_{ij} \]

donde:

  • \(Y_{ij}\): observación de la variable dependiente bajo el i-ésimo nivel de X, \(i=1,\ldots,K\), en la j-ésima unidad experimental, \(j=1,\ldots,m\).

  • \(X_i\): i-ésimo valor de la variable independiente, \(i=1,\ldots,K\).

  • \(\alpha\): parámetro que representa la ordenada al origen de la recta (valor esperado de Y cuando \(X=0\)).

  • \(\beta\): parámetro que representa la pendiente de la recta (tasa de cambio en Y frente al cambio unitario en X).

  • \(\varepsilon_{ij}\): variación aleatoria (o no explicada por el modelo) asociada a la j-ésima observación de Y bajo el nivel \(X_i\).

Los errores \(\varepsilon_{ij}\) se suponen normales e independientemente distribuidos, con esperanza 0 y varianza constante \(\sigma^2\) para todo X en un intervalo donde el modelo se considera válido. Es decir:

\[ \varepsilon_{ij} \sim NID(0,\sigma^2) \]

Ecuacion estimada

y^​=a+bx

donde a representa el intercepto u ordenada al origen y b la pendiente de la recta, indicando cuánto cambia la variable respuesta ante una unidad de cambio en la variable explicativa.

Para interpretar correctamente los resultados del análisis también se considera el coeficiente de determinación (R²), que indica qué proporción de la variabilidad de la variable respuesta es explicada por el modelo, además de verificar supuestos como linealidad, normalidad, homocedasticidad e independencia de los errores.

Actividades

Ejercicio 1. Se ha estudiado la relación existente entre la altitud (msnm) y el número de especies de aves presentes en un departamento de la Provincia de Catamarca. Los resultados obtenidos fueron:

Altitud (msnm) 310 650 789 892 1102 1540 2550 3500
Número de especies 32 21 20 11 10 6 3 1

Responder:

  1. Efectuar un diagrama de dispersión. Indicar las características más sobresalientes del mismo.

  2. ¿Está asociada la altitud con la cantidad de especies presentes en un área determinada?

Ejercicio 2. Considere un estudio realizado en un bosque abierto de la región del Chaco Árido, en la zona este de la Provincia de Catamarca, donde se midió el diámetro a nivel del pecho (DAP) y la altura de las plantas (metros).

Los datos fueron los siguientes:

DAP (cm) 15.6 14.8 15.5 12.5 14.2 15.7 12.3 14.2 8.8 11.9
Altura (m) 17.4 18.4 16.5 15.2 19.9 22.2 14.8 17.3 10.3 14.6

Responder:

  1. Represente la información obtenida mediante un gráfico y realice el análisis del mismo.

  2. ¿Está asociado el DAP con la altura de las plantas?

Ejecicio 3. En el marco de una investigación sobre la fertilidad del suelo, se realizó un experimento para evaluar los efectos de la aplicación de compost de olivo sobre las propiedades químicas del suelo (contenido de Nitrógeno). Para ello, dentro de un campo experimental fueron seleccionadas 12 parcelas de 400 metros cuadrados de suelo y se le aplicaron, aleatoriamente, distintas dosis de compost (0, 6 12 y 18 ton/ha). Al cabo de un año, en cada parcela se midió el contenido de Nitrógeno inorgánico (kilogramos de Nitrógeno/ha) en los primeros 20 cm del suelo.

Los datos generados se presentan en el siguiente cuadro:

Parcela
1 2 3 4 5 6 7 8 9 10 11 12
Compost (t/ha) 0 0 0 6 6 6 12 12 12 18 18 18
N inorg. (k/ha) 173 166 155 164 188 177 170 185 198 200 192 206

Responder:

  1. Indique el tipo de investigación realizada.

  2. Identificar la variable de respuesta e independiente.

  3. Elabora un diagrama de dispersión y describir la relación estadística entre las variables.

  4. ¿Las variables del estudio se encuentran correlacionadas? Interprete.

  5. Formule el modelo de regresión lineal ajustada e intérprete en términos agronómicos los estimadores de los parámetros (a y b).

  6. Realice la prueba de hipótesis adecuada para la investigación e interprete.

  7. Según la ecuación propuesta en e), ¿cuál es el contenido de Nitrógeno esperado si se decide aplicar 15 t/ha de compost?

  8. ¿Se cumplen los supuestos?

  9. Calcular e interpretar el coeficiente de determinación.

Ejercicio 4. Para estudiar el efecto de la temperatura sobre el vigor de la germinación, se dispusieron semillas de alfalfa en germinadores y se colocaron en cámaras a distintas temperaturas (10, 15,20 y 25 °C), midiéndose la longitud de las plántulas (expresada en mm) a los 6 días. Los datos obtenidos fueron:

Temperatura °C mm
10 13 16 15 12 11 17
15 20 21 15 17 20 19
20 22 27 30 21 21 26
25 28 20 23 29 25 28

Responder:

  1. Efectúe el diagrama de dispersión y describa ¿Es razonable proponer un ajuste lineal?

  2. Escriba el modelo que se supone relaciona las vos variables consideradas.

  3. Especifique los supuestos

  4. Estime los parámetros del modelo ¿Qué indica “a” y “b”?

  5. ¿Se verifican los supuestos?

  6. ¿La temperatura explica parte de la variación de la longitud de las plantas?

  7. Una medida muestral de la capacidad predictora del modelo es R2 ¿Qué valor asume? ¿Cómo lo interpreta?

  8. ¿Cuál es la longitud promedio esperada para una temperatura de 22 °C?

Ejercicio 5. En colaboración con los integrantes de sus respectivos equipos de trabajo conformados para realizar el Proyecto Integrador N° 2, analizar las variables “Peso del fruto” y “Diámetro” para cada variedad, obtenida por su grupo en el muestreo de campo, respondiendo las siguientes consignas:

  1. Represente los datos adecuadamente en un gráfico de dispersión e interprete.

  2. Calcular el Coeficiente de Correlación de Pearson ¿Qué diferencias encuentra entre las variedades?¿ Es significativo el coeficiente encontrado?

  3. Indique cual es la variable dependiente y cuál es la variable independiente.

  4. Escriba el modelo que se supone relaciona las variables consideradas.

  5. Especifique los supuestos del modelo

  6. Estime los parámetros del modelo. ¿Qué indica “a” y “b”?

  7. Obtenga un intervalo de confianza para alfa y beta. Interprete para cada variedad.

  8. ¿Se verifican los supuestos?

  9. Una medida muestral de la capacidad predictora del modelo es R2 ¿Qué valor asume? ¿Cómo lo interpreta?

  10. ¿Cuál es el diámetro promedio que se espera obtener si el peso de la mandarina es de 100 gramos?