Evaluación de la robustez de un modelo

Contextualización

Se presenta una base de datos de los municipios de Montería, Cordoba y Saldaña, Tolima en los cuales hay datos de simulación y experimentación de biomasa para tres ciclos de cultivo(A,B,C) en cada localidad. En el presente trabajo se evaluan métodos estadísticos y gráficos para detrminar la robustez de los los datos simulados y experimentales.

Liberías utilizadas

library(ggplot2)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Configuración del entorno de trabajo

# Muestra el directorio de trabajo
getwd()

## [1] "C:/Users/Penny/Desktop/2022-1/Modelacion de cultivos"

#Configurar el directorio de trabajo
setwd("C:/Users/Penny/Desktop/2022-1/Modelacion de cultivos") 

#Cargar la base de datos necesaria
datos1 = read.table("Base_de_datos_Produccion_de_biomasa_total.csv", header = TRUE, sep = ",")
DT::datatable(datos1)

Evaluación gráfica de los datos simulados y observados

Evaluación gráfica para Montería

#Biomasa observada vs simulada para Montería en tratamientos A, B, C

#Se selecciona la sección de la base de datos correspondiente a Montería
Monteria = datos1[1:33,]
DT::datatable(Monteria)

#Se grafican los tres tratamientos (Ciclos A,B,C) con sus respectivos intervalos de confianza al 85% o con error del 15%
G1monteria = ggplot(data = Monteria)+
  aes(x=Biomasa.Total_Obs, y=Biomasa.Total_Sim, color=Ciclo.Cultivo)+
  geom_point()+ geom_abline(intercept = 0, linetype="dashed", size=0.0)+
  labs(title = "Producción de biomasa observada vs simulada en Montería", x="Biomasa observada",
       y="Biomasa simulada")+xlim(0,20000)+ylim(0,20000)+geom_abline(intercept = 0, linetype="dashed", size=0.6)+
  geom_abline(intercept=-0.0000000000000030000000000000002, slope=1.15, linetype="dashed",size=0.6, color="red")+
  geom_abline(intercept=0, slope=0.85, linetype="dashed",size=0.6, color="red")

G1monteria

## Warning: Removed 1 rows containing missing values (geom_point).

#Gráfico de residuales entre simulados y observados
G2monteria = ggplot(data=Monteria)+
  aes(x=Biomasa.Total_Obs, y=(Biomasa.Total_Sim - Biomasa.Total_Obs))+
  geom_point()+xlim(0,22000)+ylim(-10000,10000)+geom_abline(intercept = 0, slope = 0)+
  geom_text(data=NULL, x=1000, y=-1000, label="-10961.35")+labs(title = "Residuales vs observados", x="Biomasa observada",
  y="Residual")
G2monteria

#Valor residual 
Promresidual = mean(Monteria$Biomasa.Total_Sim - Monteria$Biomasa.Total_Obs)

Evaluación gráfica para Saldaña

#Biomasa observada vs simulada para Saldaña en tratamientos A, B, C

#Se selecciona la sección de la base de datos correspondiente a Montería
Saldana = datos1[34:63,]
DT::datatable(Saldana)

#Se grafican los tres tratamientos (Ciclos A,B,C) con sus respectivos intervalos de confianza al 85% o con error del 15%
G1saldana = ggplot(data = Saldana)+
  aes(x=Biomasa.Total_Obs, y=Biomasa.Total_Sim, color=Ciclo.Cultivo)+
  geom_point()+ geom_abline(intercept = 0, linetype="dashed", size=0.0)+
  labs(title = "Producción de biomasa observada vs simulada en Saldaña", x="Biomasa observada",
       y="Biomasa simulada")+xlim(0,20000)+ylim(0,20000)+geom_abline(intercept = 0, linetype="dashed", size=0.6)+
  geom_abline(intercept=-0.0000000000000030000000000000002, slope=1.15, linetype="dashed",size=0.6, color="red")+
  geom_abline(intercept=0, slope=0.85, linetype="dashed",size=0.6, color="red")
G1saldana

#Gráfico de residuales entre simulados y observados
G2saldana = ggplot(data=Saldana)+
  aes(x=Biomasa.Total_Obs, y=(Biomasa.Total_Sim - Biomasa.Total_Obs))+
  geom_point()+xlim(0,18000)+ylim(-7500,7500)+geom_abline(intercept = 0, slope = 0)+
  geom_text(data=NULL, x=1000, y=-1000, label="540.67")+labs(title = "Residuales vs observados", x="Biomasa observada", y="Residual")
G2saldana

#Valor residual 
Promresidual1 = mean(Saldana$Biomasa.Total_Sim - Saldana$Biomasa.Total_Obs)

Evaluación estadistica de los datos observados y simulados

Coeficiente de correlación

### COEFICIENTES DE CORRELACION PARA MONTERIA ### 
#Coeficiente de correlación TA
TAmonteriaobs = Monteria[1:7, 3]
TAmonteriasim = Monteria[1:7, 4]
cor(TAmonteriaobs, TAmonteriasim)

## [1] 0.9977477

#Coeficiente de correlación TB
TBmonteriaobs = Monteria[8:19, 3]
TBmonteriasim = Monteria[8:19, 4]
cor(TBmonteriaobs, TBmonteriasim)

## [1] 0.9905208

#Coeficiente de correlación TC
TCmonteriaobs = Monteria[20:33, 3]
TCmonteriasim = Monteria[20:33, 4]
cor(TCmonteriaobs, TCmonteriasim)

## [1] 0.9859327

### COEFICIENTES DE CORRELACION PARA SALDAÑA ###
#Coeficiente de correlación TA
TAsaldanaobs = Saldana[1:7, 3]
TAsaldanasim = Saldana[1:7, 4]
cor(TAsaldanaobs, TAsaldanasim)

## [1] 0.9784384

#Coeficiente de correlación TB
TBsaldanaobs = Saldana[8:17, 3]
TBsaldanasim = Saldana[8:17, 4]
cor(TBsaldanaobs, TBsaldanasim)

## [1] 0.9925802

#Coeficiente de correlación TC
TCsaldanaobs = Saldana[18:30, 3]
TCsaldanasim = Saldana[18:30, 4]
cor(TCsaldanaobs, TCsaldanasim)

## [1] 0.9857811

Sesgo

### SESGO PARA MONTERIA ###
#Sesgo tratamiento A monteria
TAmonteriaobs = Monteria[1:7, 3]
TAmonteriasim = Monteria[1:7, 4]

BIAS_TA = sum(TAmonteriasim-TAmonteriaobs)/(33)
BIAS_TA

## [1] -799.483

#Sesgo tratamiento B monteria
TBmonteriaobs = Monteria[8:19, 3]
TBmonteriasim = Monteria[8:19, 4]

BIAS_TB = sum(TBmonteriasim-TBmonteriaobs)/(33)
BIAS_TB

## [1] -464.8864

#Sesgo tratamiento C monteria
TCmonteriaobs = Monteria[20:33, 3]
TCmonteriasim = Monteria[20:33, 4]

BIAS_TC = sum(TCmonteriasim-TCmonteriaobs)/(33)
BIAS_TC

## [1] 173.0125

### SESGO PARA SALDAÑA ###
#Sesgo tratamiento A Saldaña
TAsaldanaobs = Saldana[1:7, 3]
TAsaldanasim = Saldana[1:7, 4]

BIAS_TA = sum(TAsaldanasim-TAsaldanaobs)/(30)
BIAS_TA

## [1] -190.6507

#Sesgo tratamiento B Saldaña
TBsaldanaobs = Saldana[8:17, 3]
TBsaldanasim = Saldana[8:17, 4]

BIAS_TB = sum(TBsaldanasim-TBsaldanaobs)/(30)
BIAS_TB

## [1] 352.945

#Sesgo tratamiento C Saldaña
TCsaldanaobs = Saldana[18:30, 3]
TCsaldanasim = Saldana[18:30, 4]

BIAS_TC = sum(TCsaldanasim-TCsaldanaobs)/(30)
BIAS_TC

## [1] 378.383

Error cuadrático medio de la desviación (RMSD)

#RMSD para Montería tratamiento A
TAmonteriaobs = Monteria[1:7, 3]
TAmonteriasim = Monteria[1:7, 4]

RMSD = (sum(TAmonteriaobs-TAmonteriasim)^2/6)^0.5 
RMSD

## [1] 10770.79

#RMSD para Montería tratamiento B
TBmonteriaobs = Monteria[8:19, 3]
TBmonteriasim = Monteria[8:19, 4]

RMSD = (sum(TBmonteriaobs-TBmonteriasim)^2/11)^0.5 
RMSD

## [1] 4625.561

#RMSD para Montería tratamiento C
TCmonteriaobs = Monteria[20:33, 3]
TCmonteriasim = Monteria[20:33, 4]

RMSD = (sum(TCmonteriaobs-TCmonteriasim)^2/13)^0.5 
RMSD

## [1] 1583.506

#RMSD para Saldaña tratamiento A
TAsaldanaobs = Saldana[1:7, 3]
TAsaldanasim = Saldana[1:7, 4]
  
RMSD = (sum(TAsaldanaobs-TAsaldanasim)^2/6)^0.5 
RMSD

## [1] 2334.984

#RMSD para Saldaña tratamiento B
TBsaldanaobs = Saldana[8:17, 3]
TBsaldanasim = Saldana[8:17, 4]
  
RMSD = (sum(TBsaldanaobs-TBsaldanasim)^2/9)^0.5 
RMSD

## [1] 3529.45

#RMSD para Saldaña tratamiento C
TCsaldanaobs = Saldana[18:30, 3]
TCsaldanasim = Saldana[18:30, 4]

RMSD = (sum(TCsaldanaobs-TCsaldanasim)^2/12)^0.5 
RMSD

## [1] 3276.893

Conclusiones

Medidas gráficas

El modelo presenta un comportamiento menos robusto en la localidad de Montería, Se determinó que el modelo de simulación realizado en esta localidad es el menos robusto ya que presenta un 50% de datos por fuera de los intervalos de confianza, mientras que el modelo de Saldaña presenta tan solo un poco más del 33%.

En Montería, se presentan un total de 17 datos por fuera de los intervalos de confianza, de estos 17 datos 5 son del ciclo A, 4 del ciclo B y por último 8 del ciclo C, este último evidentemente fue el ciclo que presentó la mayor cantidad de datos por fuera del intervalo de confianza, 8 de 14, que representa más un 50% de los datos, mucho más respecto a los otros dos ciclos. Esto evidencia que hubo menor correlación entre los observados y los simulados para ese ciclo de cultivo en Montería.

Medidas estadísticas

Algo muy curioso que presentan estos datos es que mientras podemos observar y concluir ciertas cosas a partir de los gráficos, y las tablas, las cuales nos muestran datos un poco dispersos, los datos estadísticos que se calculan nos dicen algo totalmente contrario por ejemplo el coeficiente de correlación nos muestra valores casi de uno para cada uno de los ciclos en ambos municipios, queriendo decir que todos los datos tienen una estrecha correlación.

A pesar de los altos valores en el RMSD y siguiendo el concepto de este, el ciclo A de Montería es aquel que tiene mayor error respecto a los otros 5 ciclos. Sin embargo, como se analizó en la conclusión anterior no hay coincidencia entre las gráficas y los resultados estadísiticos obtenidos.

Evaluación de la robustez de un modelo

Andrés Zabala, Jose Miguel Uribe

2022-03-01

Contextualización