Van a utilizar como referencia para los datos el artículo de Lukaszkiewicz y col., 2005
Responde:
A partir de las estadísticas reportadas en la Tabla 1 del artículo de referencia, vamos a reproducir estadísticamente los datos originales, usando una distribución normal para las mediciones del dbh a una misma edad. Esto significa que es poco probable que ustedes tengan datos idénticos.
# VECTORES
# edad 7
dbh7 <- rnorm(10,1.2,0.009)
edad7 <- rep(7,10)
# edad 18
dbh18 <- rnorm(8,6.8,0.027)
edad18 <- rep(18,8)
# edad 25
dbh25 <- rnorm(17,8.4,0.025)
edad25 <- rep(25,17)
# edad 34
dbh34 <- rnorm(40,10.8,0.049)
edad34 <- rep(34,40)
# edad 36
dbh36 <- rnorm(10,12.4,0.034)
edad36 <- rep(36,10)
# edad 43
dbh43 <- rnorm(2,10,0.000)
edad43 <- rep(43,2)
# edad 45
dbh45 <- 11.6
edad45 <- rep(45,1)
# edad 53
dbh53 <- rnorm(20,15.2,0.059)
edad53 <- rep(53,20)
# edad 58
dbh58 <- rnorm(23,19.2,0.064)
edad58 <- rep(58,23)
# edad 63
dbh63 <- rnorm(4,18.4,0.020)
edad63 <- rep(63,4)
# edad 85
dbh85 <- rnorm(15,24.4,0.028)
edad85 <- rep(85,15)
# edad 95
dbh95 <- rnorm(25,28.8,0.102)
edad95 <- rep(95,25)
# edad 110
dbh110 <- rnorm(14,33.2,0.081)
edad110 <- rep(110,14)
# DATA FRAME
edad.tilia <- c(edad7,edad18,edad25,edad34,edad36,edad43,edad45,edad53,edad58,edad63,edad85,edad95,edad110)
dbh.tilia <- c(dbh7,dbh18,dbh25,dbh34,dbh36,dbh43,dbh45,dbh53,dbh58,dbh63,dbh85,dbh95,dbh110)
calib.tilia <- data.frame(dbh.tilia,edad.tilia)
Utilizando el data frame calib.tilia creado anteriormente:
Construye una gráfica de puntos (“scatterplot”), usando el dbh para el eje Y y la edad en el eje X.
Escribe una leyenda apropiada para la gráfica.
Describe la gráfica obtenida (¿se observa alguna relación entre la edad y el dbh?).
Ahora debes encontrar un modelo de regresión lineal, \(Y = \alpha + \beta * X\), que relacione la edad conocida con el dbh medido en los árboles.
Escribe el modelo encontrado usando el comando lm.
Reporta los valores de \(R^2-ajustado\) y significancia (p-value).
Explica el significado de los dos estadísticos, en relación al modelo obtenido.
Vuelvan a construir la gráfica, utilizando ahora el comando geom_smooth de ggplot2 para obtener la línea de regresión del modelo y el intervalo de confianza (95%). Escribir una leyenda apropiada para la gráfica.
Cambiar el color de los puntos y la línea.
Contestar: ¿en cuáles edades los valores de dbh están completamente fuera del intervalo de confianza?
Para cada uno de los procedimientos de evaluación del modelo, indicar si se cumplen los supuestos esperados para un buen modelo o si hay puntos (¿cuáles?) que se encuentran fuera de lo esperado según la evaluación.
La linealidad significa que la(s) variable(s) predictora(s) de la regresión tiene(n) una relación lineal con la variable de resultado. Una manera de probar este supuesto es mediante una gráfica de los valores residuales versus los valores predichos (\(Y\)) por el modelo. Los puntos deben distribuirse simétricamente alrededor de una línea horizontal.
Responder: En general, ¿se cumple con la prueba de linealidad?
Indicar cuáles puntos se desvían de la linealidad (aparecen con su número indicado). ¿A cuáles grupos de edades corresponden?
Homocedasticidad significa una situación en la que la varianza de la variable dependiente es la misma para todos los datos. Se puede probar mediante una gráfica de la raíz cuadrada de los residuales estandarizados versus los valores predichos. Deben distribuirse simétricamente alrededor de una línea horizontal y no ser mayores de 2.
Responder: En general, ¿se cumple con la prueba de homocedasticidad?
Indicar cuáles puntos se desvían de la homocedasticidad. ¿A cuáles grupos de edades corresponden?
Se puede utilizar una gráfica de residuales estandarizados versus los valores según el modelo teórico de distribución normal. Una línea diagonal recta significa que tiene datos distribuidos normalmente. Si la línea está sesgada hacia la izquierda o hacia la derecha, significa que no tiene datos distribuidos normalmente. Una gráfica de probabilidad normal sesgada significa que su distribución de datos no es normal.
Responder: En general, ¿se cumple con la prueba de normalidad?
Indicar cuáles puntos se desvían de la normalidad. ¿A cuáles grupos de edades corresponden?
Si las pruebas anteriores muestran consistentemente la existencia de puntos de uno o más grupos de edades que afectan especialmente las mismas (aparecen con el número del punto indicado), debes construye un nuevo modelo eliminando los puntos anteriores.
Obtén los nuevos estadísticos del nuevo modelo (\(\alpha, \beta, R^2-ajustado, valor-p\)). Construir la nueva gráfica del modelo.
Realiza las pruebas (linealidad, homocedasticidad, normalidad) al nuevo modelo.
Discute si el nuevo modelo es mejor al primero.
Utilizando el modelo seleccionado, calcula la edad de árboles de Tilia de 1.75, 12.5, y 21.7 pulgadas de diámetro.
Responde: ¿se puede utilizar el modelo para estimar la edad de un árbol de 40 pulgadas de diámetro (dbh)? ¿Explica tu respuesta?