Los insumos del siguiente trabajo pueden ser localizados en:Datos Modelo

1 Base de datos Industrial

library(knitr)
kable(head(UNION[,c(1,2,3,4,5,6)]))
OFERTA VALOR_HA ÁREA_DE_TERRENO_HA ÁREA_CONSTRUCCIÓN PENDIENTE USO_ACTUAL geometry
1 IND 2880000000 2.7000 0,0 a PASTIZALES POINT (-73.9344 4.949024)
2 IND 5760000000 2.5000 0,0 a PASTIZALES Y ZONAS INDUSTRIALES O COMERCIALES POINT (-73.94809 4.958957)
3 IND 3360000000 6.6971 0,0000 a PASTIZALES POINT (-73.92551 4.956326)
4 IND 2016000000 1.0000 0 a PASTIZALES Y ZONAS INDUSTRIALES O COMERCIALES POINT (-73.96451 4.9696)
5 IND 4800000000 2.0000 7850 a ZONAS INDUSTRIALES O COMERCIALES POINT (-73.92017 4.95914)
6 IND 4562175482 2.2726 0 a ZONAS INDUSTRIALES O COMERCIALES POINT (-73.92621 4.95339)

La descarga para la base de datos Industrial se puede realizar en el siguiente Link Base Industrial

El cálculo de las variables de distancia hacia la cabecera municipal y las industrías anclas se realizo mediante las vías del municipio, además de que se optimizará el tiempo de viaje, el código de ejecución se encuentra a continuación. La descarga de los predios de tocancipá se encuentra a continuación, con el calculo respectivo de las distancias calculadas Predios

import geopandas
import pandas as pd
import osmnx as ox
import networkx as nx
toca = geopandas.read_file('~/TOCANCIPA/Predios/TocancipaQGIS.shp')
s = geopandas.GeoSeries(toca['geometry'])
gdf = geopandas.GeoDataFrame(s.centroid)
gdf['String'] = gdf[0].astype(str)
gdf = gdf['String'].replace('POINT','', regex=True).str.extract('\((.*)\)', expand=False).str.split(" ", expand = True)
result = pd.merge(toca, gdf, left_index=True, right_index=True)
ox.config(log_console=True, use_cache=True)
#N: 4.964416, W: -73.910969
distancias = []
end_latlng = (4.964416,-73.910969) #Coordenada de la cabecera municipal
#end_latlng = (4.947120, -73.932289) #Coordenada Industria Ancla 1
#end_latlng = (4.954442, -73.931603) #Coordenada Industria Ancla 2
mode = 'drive'
optimizer = 'time'
place     = 'Tocancipá, Cundinamarca, Colombia'
graph = ox.graph_from_place(place, network_type = mode)
dest_node = ox.distance.nearest_nodes(graph, end_latlng[1],end_latlng[0])
for index, row in result.iterrows():
    start_latlng = (float(row[1]),float(row[0]))
    #start_latlng = (4.96495055897153,-73.91997220824027)
    try:
        orig_node = ox.distance.nearest_nodes(graph, start_latlng[1],start_latlng[0])
        shortest_route = nx.shortest_path(graph, orig_node, dest_node, weight=optimizer)
        route1_length = int(sum(ox.utils_graph.get_route_edge_attributes(graph, shortest_route, "length")))
        distancias.append(route1_length)
        print('Hecho')
        print(start_latlng)
    except:
        distancias.append(None)
        print('\tNo realizado')
        pass

result['distancias'] = distancias
result = result.rename(columns ={1:'Lat_centroid',0:'Lon_centroid'})
result.to_file('~/TOCANCIPA/Predios/Predios.shp', driver='ESRI Shapefile')

1.1 Estadísticas Descriptivas

Primero se realiza un análisis de las covariables (variables independientes) las cuales tratarán de dar respuesta a la variable dependiente, también se observará la relación de las variables continuas con la variable respuesta dado que esto es determinante para establecer la forma funcional a elegir para el modelo, las variables discretas y dummies no serán determinantes para la elección de la forma funcional.

De acuerdo con la figura anterior, el tipo de pendiente que predomina sobre los predios de la muestra, se encuentra para la pendiente de tipo a, correspondiente a pendientes a nivel que se encuentran dentro del intervalo de 0 y 3%, además se tienen muestras asociadas a pendientes de tipo b la cual corresponde a una pendiente ligeramente inclinada entre el 3 y 7% y por último una pendiente de tipo e que es ligeramente empinada con un intervalo de 25 y 50%.

El uso actual de la muestra se encuentra concentrado en mayor cantidad para pastizales, además se tiene una muestra de asentamientos humanos, estos son conflictos de uso que se tienen con la muestra, dado que, las ofertas buscadas y seleccionadas para realizar el presente estudio se centra en el uso industrial.

Si se interpreta el gráfico de torta anterior, se observa que la muestra se encuentra determinada por la mayor cantidad de predios fuera de parques industriales, esto se puede dar dado que la zona no se encuentra totalmente desarrollada de acuerdo con los usos establecidos en el plan de ordenamiento, por lo tanto encontramos los conflictos de uso anteriormente mencionados, en dónde la mayoría de la muestra se encuentra en pastizales.

1.2 Análisis de Normalidad de la variable respuesta

Se procede con el análisis univariante para la variable, mediante estadísticas descriptivas y métodos gráficos como el histograma y diagrama de cajas y bigotes para observar el comportamiento de la variable objeto de estudio.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  170467  274971  441540  466658  676926 1234330

Si se observa el resumen de la variable respuesta, esta tiene un valor mínimo asociado a 170.467 ciento setenta mil cuatroscientos sesenta y siete de pesos (COP) y un valor máximo asociado a 1.234.330 un millon doscientos treinta y cuatro mil trescientos treinta de pesos (COP), donde podemos apreciar una gran diferencia entre los valores de la muestra que pueden estar condicionados a partir de las demás variables que se tuvieron en cuenta para el desarrollo del modelo.

Además, como se puede inferir inicialmente, la variable objeto de estudio puede que se encuentre distribuida de forma normal, dado que su media es cercana a la mediana, con una diferencia entre estas de 25 mil pesos

De acuerdo con el histograma de la variable respuesta Valor m², se observa que el histograma, es asimétrico positivo, corroborando lo que las estadísticas descriptivas inicialmente descritas, donde la media es superior a la mediana. La mayor concentración de las ofertas está por debajo de los 500.000 quinientos mil pesos (COP). Sin embaro, existen muestras mayores a 1.000.000 un millón de pesos (COP), por lo que podemos tener valores muy extremos que se pueden indentificar como atípicos.

ggplot(data=UNION, aes(x=factor(0),UNION$VALOR_M2))+geom_boxplot(coef =1.5 ,fill='#99FEFF')+coord_flip()

Al verificar la gráfica de cajas y bigotes previa, se puede observar, que dentro de la muestra no se encuentran valores atipicos que puedan estar influyendo dentro del comportamiento de la variable, por lo tanto se procede a realizar un test estadístico que nos permita corroborar si la variable en cuestión se comporta bajo una distribución normal.

ggplot(UNION, aes(sample = (UNION$VALOR_M2))) + stat_qq() + stat_qq_line()

Como se muestra en la figura anterior, la variable Valor m², se encuentra muy alejada de los valores teoricos de la distribución normal, se puede identiifcar que son los valores externos quienes mayor impacto tienen en la no normalidad de la variable, aproximadamente son 13 las observaciones que hacen parte de este fenomeno, por la poca cantidad de observaciones dentro de la muestra, por el dinamismo inmobiliario en el municipio se encuentra imposible el retirar estas muestras para poder medir el impacto sobre el modelo.

shapiro.test((UNION$VALOR_M2))
## 
##  Shapiro-Wilk normality test
## 
## data:  (UNION$VALOR_M2)
## W = 0.88472, p-value = 0.0003814

Como el (P_value) es menor al 5%, se rechaza la hipótesis nula, por lo tanto, corroboramos que la variable de estudio NO se comporta bajo una distribución normal. Por tal motivo se procede a transformar la variable objeto de estudo Valor m² para que cumpla con el supuesto de normalidad.

Se evaluan distintas transformaciones, inicialmente se realiza una transformación box-cox de la familia exponencial, para tratar de transformar la variable objeto de estudio como se muestra en la ecuación a continuación. Además, se transforma la variable respuesta a partir de la función logartimica.

\[z\_trans=\frac{z^{\lambda-1}}{\lambda}\]

Para la primera transformación se optimiza el valor de lambda. Y se agrega la variable transformadad al conjunto de datos inicial.

lambda <- l$x[which.max(l$y)]

new_z_exact <- (UNION$VALOR_M2 ^ lambda - 1) / (lambda-1)
UNION$VALOR_M2_TRANS <- new_z_exact

df <- data.frame(PF = new_z_exact)
g1<-ggplot(df, aes(x = PF)) + 
  geom_histogram(aes(y =..density..), 
                 colour = "black", 
                 fill = "#fdf9c4") +
  stat_function(fun = dnorm, args = list(mean = mean(df$PF), sd = sd(df$PF)))

g2<-ggplot(UNION, aes(x = log(UNION$VALOR_M2))) + 
  geom_histogram(aes(y =..density..), 
                 colour = "black", 
                 fill = "#fdf9c4") +
  stat_function(fun = dnorm, args = list(mean = mean(log(UNION$VALOR_M2)), sd = sd(log(UNION$VALOR_M2))))
g1+g2

Posterior a la transformación de la variable por ambos métodos, se realiza el gráfico asociado al histograma de la variable transformada, y se muestra su función de distribución de probabilidad, en donde se aprecia que hay un mejor ajuste de esta, en comparativa con el histograma inicial. Se corre posteriormente un test de shapiro para esclarecer si la variable sigue una distribución normal.

#shapiro.test((UNION$VALOR_M2_TRANS))
shapiro.test(log(UNION$VALOR_M2))
## 
##  Shapiro-Wilk normality test
## 
## data:  log(UNION$VALOR_M2)
## W = 0.94949, p-value = 0.05265

Como el (P_value) en ambas transformaciones es mayor al 5%, se acepta la hipótesis nula, por lo tanto, corroboramos que la variable de estudio transformada por box cox y por la función logaritmica se comporta bajo una distribución normal. Para efectos de interpretación, se opta por usar la función logaritmica como la transformación de la variable objeto de estudio, por lo tanto se procede con el análisis de la forma funcional de la misma.

1.3 Análisis de la forma funcional

Se realizan diagramas de dispersión en donde se tiene la variable respuesta valor metro cuadrado de terreno Valor m² (la variable transformada) y se confronta con las demás variables continuas a considerar dentro del modelo.

p2 <-ggplot(UNION,aes(log(UNION$ÁREA_DE_TERRENO_M2),log(UNION$VALOR_M2))) + geom_point() + geom_smooth(method = "lm", se = FALSE) + labs(y = "Logarítmo del valor Área de terreno m²", x = "Logarítmo Área de terreno m²")
p1 <- ggplot(UNION,aes((UNION$ÁREA_DE_TERRENO_M2),log(UNION$VALOR_M2))) + geom_point()+ geom_smooth(method = "lm", se = FALSE)+ labs(y = "Logarítmo del valor Área de terreno m²", x = "Área de terreno m²")
p1+p2

Como se puede apreciar en la imagen anterior, se confronta la variable de estudio transformada con la variable continua área de terreno Área de terreno m², allí podemos observar en la figura izquierda que existe una relación inversa entre ambas variables, sin embargo, no existe la linealidad entre las dos, es por esto que se utiliza la forma funcional Log-Log, para determinar la linealidad entre las mismas, por lo tanto esta sería la ideal para poder representar a la variable de estudio transformada, teniendo en cuenta la variable de Área de terreno m².

p1<-ggplot(UNION,aes((UNION$Industria_),log(UNION$VALOR_M2))) + geom_point() + geom_smooth(method = "lm", se = FALSE) + labs(y = "Logarítmo del valor Área de terreno m²", x = "Distancia a industria ancla 1")
p2<-ggplot(UNION,aes((UNION$Industri_1),log(UNION$VALOR_M2))) + geom_point() + geom_smooth(method = "lm", se = FALSE) + labs(y = "Logarítmo del valor Área de terreno m²", x = "Distancia a industria ancla 2")
p1+p2

Cuando se observa el diagrama de dispersión de las variables asociadas a las distancias sobre las vías de cada una de las ofertas a las industrias anclas, se puede apreciar una correlación positiva, dado que a mayor aumento de las distancias, la variable transformada aumenta su valor, sin embargo, existe una gran dispersión desde la recta de ajuste con respecto a las observaciones de la muestra, por lo que seste comportamiento correlacional positivo puede estar sobre estimado.

p1<-ggplot(UNION,aes((UNION$Porcentaje),log(UNION$VALOR_M2))) + geom_point() + geom_smooth(method = "lm", se = FALSE) + labs(y = "Logarítmo del valor Área de terreno m²", x = "Porcentaje promedio de pendiente")
p2<-ggplot(UNION,aes(log(UNION$Porcentaje),log(UNION$VALOR_M2))) + geom_point() + geom_smooth(method = "lm", se = FALSE) + labs(y = "Logarítmo del valor Área de terreno m²", x = "Logarítmo del Porcentaje promedio de pendiente")
p1+p2

Si se observa la variable continua correspondiente al porcentaje medio de la pendiente se observa que el porcentaje de la pendiente resulta ser un valor que se localiza entre 0 y 10 %, asociada a las pendientes de tipo a, además, existen valores muy superiores con pendientes mayores al 20 %, por lo cual deprecia el valor de la variable transformada, a partir de esto, se experimenta la forma funcional Log-Log, en donde se transforma la covariable de Porcentaje de pendiente con la función logarítmica, esta resulta ser más adecuada a la recta de ajuste de acuerdo con el diagrama de dispersión, por lo tanto se procese a usar en la ecuación inicial para el ajuste del modelo.

p1<-ggplot(UNION,aes((UNION$distancias),(UNION$VALOR_M2))) + geom_point() + geom_smooth(method = "lm", se = FALSE) + labs(y = "Logarítmo del valor Área de terreno m²", x = "Distancia a la cabecera municipal (m)")
p2<-ggplot(UNION,aes((UNION$BOGOTA),log(UNION$VALOR_M2))) + geom_point() + geom_smooth(method = "lm", se = FALSE)+ labs(y = "Logarítmo del valor Área de terreno m²", x = "Distancia a Bogotá (m)") + theme(axis.text.x=element_blank(), axis.ticks.x=element_blank())
p1+p2

Al observar el comportamiento de la variable continua correspondiente a la distancia de cada uno de los predios a la cabecera municipal, se observa que la relación es directamente proporcional entre esta y la variable objeto de estudio transformada, esto quiere decir que el aumento de la distancia, aumentaría la variable transformada, no obstante, la dispersión sobre la curva de ajuste entre ambas, se observa que es una variable totalmente aleatoria que no representa la linealidad, por lo tanto al ejecutar el modelo, se esperaría como una variable poco significativa.

Otra de las variables que se considerarón para el estudio, es la distancia a la capital Bogotá D.C., al confrontarla contra la variable de estudio transformada por la función logarítmica, se observa una dependencia funcional inversamente proporcional, esto indica que el aumento de la industria a la capital, corresponde a una disminución del valor de m² de terreno transformado, lo que se esperaría dentro del modelo.

p2 <-ggplot(UNION,aes((UNION$X_mean),log(UNION$VALOR_M2))) + geom_point() + geom_smooth(method = "lm", se = FALSE) + labs(y = "Logarítmo del valor Área de terreno m²", x = "Altura promedio")
p1 <- ggplot(UNION,aes((UNION$ÁREA_CONSTRUCCIÓN),log(UNION$VALOR_M2))) + geom_point()+ geom_smooth(method = "lm", se = FALSE)+ labs(y = "Logarítmo del valor Área de terreno m²", x = "Área de construcción")
p1+p2

Las variables continuas a tener en cuenta para determinar la forma funcional faltantes corresponden al área de construcción y la altura media, como se muestra en la figura anterior, dada la homogeneidad de la muestra, tienen a ser poco significativas, por ejemplo, dentro de la muestra se tienen muchas muestras que no tienen construcciones dentro del predio, por lo tanto el área construida es igual a cero. Además, la altura promedio tiene el mismo probelma dado que la mayor frecuencia de sus valores se encuentran entre 2560 y 2565, por lo tanto no tendrían un nivel de significancia dentro del modelo.

1.4 Modelamiento

Relación de las variables
VAR ANTIGUO NUEVO
1 OFERTA OFERTA
2 VALOR_HA VALOR_HA
3 ÁREA_DE_TERRENO_HA ÁREA_DE_TERRENO_HA
4 ÁREA_CONSTRUCCIÓN AREA_CONS
5 ÁREA_DE_TERRENO_M2 ÁREA_DE_TERRENO_M2
6 VALOR_M2 VALOR_M2
7 distancias DISTANCIA_CM
8 X_mean ALTURA
9 Industria_ DISTANCIA_IND1
10 Industri_1 DISTANCIA_IND2
11 Porcentaje PROCENTAJE_PENDIENTE
12 BOGOTA BOGOTA
13 VALOR_M2_TRANS VALOR_M2_TRANS
14 PENDIENTE_a y b PEND_A_B
15 PENDIENTE_b y e PEND_B_E
16 PENDIENTE_e PEND_E
17 USO_ACTUAL_PASTIZALES Y ASENTAMIENTOS HUMANOS UA_PAS_ASEN_HUM
18 USO_ACTUAL_PASTIZALES Y ZONAS INDUSTRIALES O COMERCIALES UA_PAS_ZONIND_COME
19 USO_ACTUAL_ZONAS INDUSTRIALES O COMERCIALES UA_ZONIND_COME
20 TIPO_VÍA_2 TIPO_VÍA_2
21 TIPO_VÍA_5 TIPO_VÍA_5
22 ESTADO_VÍA_MALA VIA_MALA
23 ESTADO_VÍA_REGULAR VIA_REGULAR
24 CLASIFICACION_INDUSTRIAL_CANAVITA SUR INDUSTRIAL_CANAVITA
25 CLASIFICACION_INDUSTRIAL_TIBITOC SUR INDUSTRIAL_TIBITOC
26 PARQUE_IND_NO PARQUE_IND_NO

De acuerdo con el análisis de las variables realizado previamente, el comportamiento de la variable respuesta Valor de la Hectarea transformada, en relación con las variables explicativas se tendrá en cuenta como log-lineal y log-log para la variable área de terreno, teniendo en cuenta esto, la forma funcional seleccionada es la de un modelo lineal como se puede apreciar en la siguiente ecuación.

\[\begin{equation*} \begin{split} log(VALOR\_M2)=\beta_{0}+\beta_{1}log(AREA\_DE\_TERRENO\_M2)+\\ \beta_{2}DISTANCIA\_CM+\beta_{3}BOGOTA+\beta_{4}ALTURA+\\ \beta_{5}DISTANCIA\_IND1+\beta_{6}DISTANCIA\_IND2+\\ \beta_{7}log(PROCENTAJE\_PENDIENTE)+\beta_{8}PEND\_A\_B+\\ \beta_{9}PEND\_B\_E+\beta_{10}PEND\_E+\beta_{11}UA\_PAS\_ASEN\_HUM+\\ \beta_{12}UA\_PAS\_ZONIND\_COME+\beta_{13}UA\_ZONIND\_COME+\\ \beta_{14}TIPO\_VIA\_2+\beta_{15}TIPO\_VIA\_5+\beta_{16}VIA\_MALA+\\ \beta_{17}VIA\_REGULAR+\beta_{18}INDUSTRIAL\_CANAVITA+\\ \beta_{19}INDUSTRIAL\_TIBITOC+\beta_{20}PARQUE\_IND\_NO+\epsilon \end{split} \end{equation*}\]

library(MASS)
library(xtable) ##Tablas a LaTEX

# modelo<-lm(log(VALOR_HA)~log(ÁREA_DE_TERRENO_HA)+(DISTANCIA_CM)+ALTURA
#              +UA_PAS_ASEN_HUM+UA_PAS_ZONIND_COME+UA_ZONIND_COME+ZR_ASI_EH_RM_MA+
#              ZR_ASI_EX_INDUS_A+TIPO_VÍA_2+TIPO_VÍA_5+VIA_MALA+VIA_REGULAR+
#              PARQUE_IND_NO+DISTANCIA_IND1+DISTANCIA_IND2+INDUSTRIAL_CANAVITA+INDUSTRIAL_TIBITOC+
#              log(PROCENTAJE_PENDIENTE),data = UNION)
modelo <- lm(log(VALOR_M2)~log(ÁREA_DE_TERRENO_M2)+DISTANCIA_CM+BOGOTA+ALTURA+DISTANCIA_IND1+DISTANCIA_IND2+log(PROCENTAJE_PENDIENTE)+PEND_A_B+PEND_B_E+PEND_E+UA_PAS_ASEN_HUM+UA_PAS_ZONIND_COME+UA_ZONIND_COME+TIPO_VÍA_2+TIPO_VÍA_5+VIA_MALA+VIA_REGULAR+INDUSTRIAL_CANAVITA+INDUSTRIAL_TIBITOC+PARQUE_IND_NO,data = UNION)
summary(modelo)
## 
## Call:
## lm(formula = log(VALOR_M2) ~ log(ÁREA_DE_TERRENO_M2) + DISTANCIA_CM + 
##     BOGOTA + ALTURA + DISTANCIA_IND1 + DISTANCIA_IND2 + log(PROCENTAJE_PENDIENTE) + 
##     PEND_A_B + PEND_B_E + PEND_E + UA_PAS_ASEN_HUM + UA_PAS_ZONIND_COME + 
##     UA_ZONIND_COME + TIPO_VÍA_2 + TIPO_VÍA_5 + VIA_MALA + VIA_REGULAR + 
##     INDUSTRIAL_CANAVITA + INDUSTRIAL_TIBITOC + PARQUE_IND_NO, 
##     data = UNION)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64526 -0.13613 -0.01733  0.10980  0.48390 
## 
## Coefficients: (1 not defined because of singularities)
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                7.494e+01  6.723e+01   1.115  0.27603    
## log(ÁREA_DE_TERRENO_M2)   -1.672e-01  5.322e-02  -3.142  0.00442 ** 
## DISTANCIA_CM              -8.444e-05  8.341e-05  -1.012  0.32145    
## BOGOTA                    -1.882e-04  3.895e-05  -4.833 6.36e-05 ***
## ALTURA                    -2.170e-02  2.612e-02  -0.831  0.41427    
## DISTANCIA_IND1            -9.345e-05  4.496e-05  -2.079  0.04851 *  
## DISTANCIA_IND2             3.917e-05  9.416e-05   0.416  0.68114    
## log(PROCENTAJE_PENDIENTE) -1.291e-01  8.777e-02  -1.471  0.15423    
## PEND_A_B                  -4.241e-01  2.345e-01  -1.809  0.08307 .  
## PEND_B_E                   7.543e-01  7.582e-01   0.995  0.32971    
## PEND_E                     6.697e-01  6.686e-01   1.002  0.32650    
## UA_PAS_ASEN_HUM            7.347e-03  3.232e-01   0.023  0.98205    
## UA_PAS_ZONIND_COME         6.889e-02  2.690e-01   0.256  0.80004    
## UA_ZONIND_COME             1.241e-01  1.622e-01   0.765  0.45169    
## TIPO_VÍA_2                 1.444e-01  1.812e-01   0.797  0.43321    
## TIPO_VÍA_5                 1.315e-01  2.596e-01   0.507  0.61707    
## VIA_MALA                  -1.511e-01  3.261e-01  -0.463  0.64740    
## VIA_REGULAR                       NA         NA      NA       NA    
## INDUSTRIAL_CANAVITA        6.938e-02  2.389e-01   0.290  0.77397    
## INDUSTRIAL_TIBITOC         3.042e-02  3.275e-01   0.093  0.92677    
## PARQUE_IND_NO             -2.811e-01  2.155e-01  -1.304  0.20445    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2748 on 24 degrees of freedom
## Multiple R-squared:  0.8486, Adjusted R-squared:  0.7288 
## F-statistic: 7.083 on 19 and 24 DF,  p-value: 7.84e-06

\[ \begin{equation*} \begin{split} log(VALOR\_M2)=15.2981484-0.1160513*log(AREA\_DE\_TERRENO\_M2)-0.0035225*BOGOTA\\ -0.0001134*DISTANCIA\_IND1-0.0980662*log(PROCENTAJE\_PENDIENTE)\\ -0.5470511*PEND\_A\_B-0.4172517*PARQUE\_IND\_NO \end{split} \end{equation*} \]

#xtable(modelo)
step.model <- stepAIC(modelo, direction = "both", 
                      trace = FALSE)
summary(step.model)
## 
## Call:
## lm(formula = log(VALOR_M2) ~ log(ÁREA_DE_TERRENO_M2) + BOGOTA + 
##     DISTANCIA_IND1 + log(PROCENTAJE_PENDIENTE) + PEND_A_B + PARQUE_IND_NO, 
##     data = UNION)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.55677 -0.17242 -0.01856  0.14225  0.67503 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                1.821e+01  6.817e-01  26.720  < 2e-16 ***
## log(ÁREA_DE_TERRENO_M2)   -1.250e-01  3.326e-02  -3.760 0.000588 ***
## BOGOTA                    -1.542e-04  2.889e-05  -5.336 4.98e-06 ***
## DISTANCIA_IND1            -1.030e-04  2.379e-05  -4.331 0.000109 ***
## log(PROCENTAJE_PENDIENTE) -1.131e-01  4.312e-02  -2.622 0.012604 *  
## PEND_A_B                  -4.478e-01  1.549e-01  -2.890 0.006405 ** 
## PARQUE_IND_NO             -3.828e-01  1.031e-01  -3.713 0.000673 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.242 on 37 degrees of freedom
## Multiple R-squared:  0.819,  Adjusted R-squared:  0.7897 
## F-statistic: 27.91 on 6 and 37 DF,  p-value: 2.533e-12

\[ \begin{equation*} \begin{split} \beta_0=8.221.347.812, valor\quad de\quad referencia\\ \beta_1=-0.1514, si\quad el\quad area\quad de\quad terreno\quad aumenta\quad en\quad un\quad 1\% \\ \beta_2=-0.00005093,Si,\quad se\quad aumenta\quad 1\quad metro\quad en\quad la\quad distancia\quad \\ a\quad la\quad industria\quad ancla\quad 1,\quad se\quad disminuye\quad el\quad valor\quad de\quad la\quad Ha\quad en\quad 0.005093\%\\ \beta_3=-0.1908,si\quad el\quad porcentaje\quad de\quad la\quad pendiente\quad aumenta\quad en\quad un\quad 1\% \\ \beta_4=-0.4214,Si\quad NO\quad pertenece\quad a\quad un\quad PI,\quad Disminuye\quad en\quad 42.14\% \\ \end{split} \end{equation*}\]

Al validar los supuestos de un modelo econométrico, se valida la fiabilidad del modelo, por lo tanto, a continuación, se verifican a partir de test estadísticos para corroborar el ajuste del mejor modelo, cumpla con los supuestos descritos a continuación.

#8221347812-(4.22)*(0.1514*8221347812)-(1867)*(0.00005093*8221347812)-(0.58)*(0.1908*8221347812)-(0.4214*8221347812)*(1)
library(olsrr)
# H0 : Los residuos siguen una distribución normal
# Ha : Los residuos NO siguen una distribución normal
ols_test_normality((step.model)) #Es normal por Kolmogorov
## -----------------------------------------------
##        Test             Statistic       pvalue  
## -----------------------------------------------
## Shapiro-Wilk              0.9765         0.5005 
## Kolmogorov-Smirnov        0.0806         0.9155 
## Cramer-von Mises          9.3886         0.0000 
## Anderson-Darling          0.3718         0.4066 
## -----------------------------------------------
#######################
plot(residuals(step.model)~predict(step.model),main="Validación gráfica de Heterocedasticidad",
     xlab="Valores predichos de la regresión",ylab="Residuales de la regresión")

#h0: homocedasticidad
#ha: heterocedasticidad
library(lmtest)
bptest(step.model) # Simple Test for Heteroscedasticity and Random CoefficientVariation
## 
##  studentized Breusch-Pagan test
## 
## data:  step.model
## BP = 6.16, df = 6, p-value = 0.4055
#which(ols_vif_tol(step.model)$VIF>10)
#VIF INDICE DE FACTOR DE INFLACIÓN DE VARIANZA >10, 
#UNA VARIABLE ES COMBINACIÓN LÍNEAL DE LA OTRA, SI ES <4, NO HAY DEPENDENCIA LÍNEAL
ols_vif_tol(step.model)
##                   Variables Tolerance      VIF
## 1   log(ÁREA_DE_TERRENO_M2) 0.5562168 1.797860
## 2                    BOGOTA 0.6369271 1.570038
## 3            DISTANCIA_IND1 0.6500738 1.538287
## 4 log(PROCENTAJE_PENDIENTE) 0.8005512 1.249139
## 5                  PEND_A_B 0.8730072 1.145466
## 6             PARQUE_IND_NO 0.5412994 1.847406

De acuerdo con los test de normalidad, Shapiro-Wilk, Kolmogorov-Smirnov y Anderson-Darling, los residuos del modelo, siguen una distribución normal dado que el p_value es mayor al alpha de error establecido al 5%, por ende, la variable respuesta cumple con el supuesto de homocedasticidad, como se aprecia en el test de Breusch-Pagan. Posteriormente de manera grafica, se observa que los valores predichos vs los residuales, no tienen una tendencia por lo tanto se determina la homocedasticidad por métodos gráficos también.

Finalmente se verifica si existen variables que sea una combinación líneal de otra, por lo tanto se hace por el índice de factor de varianza VIF. Donde, este valor representa la colinealidad entre las covariables, si esta es mayor a 10, se expresa en terminos de que una variable es una combinación líneal de otra, sin embargo, como se puede apreciar, las variables respuesta no son combinación líneal de ninguna de sus covariables, por lo tanto el modelo cumple también con este supuesto.

1.4.1 Para insertar a LaTEx

Copiar y pegar esta formula que es el primer modelo con todas las variables dentro de la regresión, además, se tiene el resultado inicial.

# \begin{equation*}
# \begin{split}
# log(VALOR\_M2)=\beta_{0}+\beta_{1}log(AREA\_DE\_TERRENO\_M2)+\\
# \beta_{2}DISTANCIA\_CM+\beta_{3}BOGOTA+\beta_{4}ALTURA+\\
# \beta_{5}DISTANCIA\_IND1+\beta_{6}DISTANCIA\_IND2+\\
# \beta_{7}log(PROCENTAJE\_PENDIENTE)+\beta_{8}PEND\_A\_B+\\
# \beta_{9}PEND\_B\_E+\beta_{10}PEND\_E+\beta_{11}UA\_PAS\_ASEN\_HUM+\\
# \beta_{12}UA\_PAS\_ZONIND\_COME+\beta_{13}UA\_ZONIND\_COME+\\
# \beta_{14}TIPO\_VIA\_2+\beta_{15}TIPO\_VIA\_5+\beta_{16}VIA\_MALA+\\
# \beta_{17}VIA\_REGULAR+\beta_{18}INDUSTRIAL\_CANAVITA+\\
# \beta_{19}INDUSTRIAL\_TIBITOC+\beta_{20}PARQUE\_IND\_NO+\epsilon
# \end{split}
# \end{equation*}
xtable(summary(modelo))
## % latex table generated in R 3.6.3 by xtable 1.8-4 package
## % Thu Jan 19 19:18:26 2023
## \begin{table}[ht]
## \centering
## \begin{tabular}{rrrrr}
##   \hline
##  & Estimate & Std. Error & t value & Pr($>$$|$t$|$) \\ 
##   \hline
## (Intercept) & 74.9438 & 67.2344 & 1.11 & 0.2760 \\ 
##   log(ÁREA\_DE\_TERRENO\_M2) & -0.1672 & 0.0532 & -3.14 & 0.0044 \\ 
##   DISTANCIA\_CM & -0.0001 & 0.0001 & -1.01 & 0.3214 \\ 
##   BOGOTA & -0.0002 & 0.0000 & -4.83 & 0.0001 \\ 
##   ALTURA & -0.0217 & 0.0261 & -0.83 & 0.4143 \\ 
##   DISTANCIA\_IND1 & -0.0001 & 0.0000 & -2.08 & 0.0485 \\ 
##   DISTANCIA\_IND2 & 0.0000 & 0.0001 & 0.42 & 0.6811 \\ 
##   log(PROCENTAJE\_PENDIENTE) & -0.1291 & 0.0878 & -1.47 & 0.1542 \\ 
##   PEND\_A\_B & -0.4241 & 0.2345 & -1.81 & 0.0831 \\ 
##   PEND\_B\_E & 0.7543 & 0.7582 & 0.99 & 0.3297 \\ 
##   PEND\_E & 0.6697 & 0.6686 & 1.00 & 0.3265 \\ 
##   UA\_PAS\_ASEN\_HUM & 0.0073 & 0.3232 & 0.02 & 0.9821 \\ 
##   UA\_PAS\_ZONIND\_COME & 0.0689 & 0.2690 & 0.26 & 0.8000 \\ 
##   UA\_ZONIND\_COME & 0.1241 & 0.1622 & 0.77 & 0.4517 \\ 
##   TIPO\_VÍA\_2 & 0.1444 & 0.1812 & 0.80 & 0.4332 \\ 
##   TIPO\_VÍA\_5 & 0.1315 & 0.2596 & 0.51 & 0.6171 \\ 
##   VIA\_MALA & -0.1511 & 0.3261 & -0.46 & 0.6474 \\ 
##   INDUSTRIAL\_CANAVITA & 0.0694 & 0.2389 & 0.29 & 0.7740 \\ 
##   INDUSTRIAL\_TIBITOC & 0.0304 & 0.3275 & 0.09 & 0.9268 \\ 
##   PARQUE\_IND\_NO & -0.2811 & 0.2155 & -1.30 & 0.2045 \\ 
##    \hline
## \end{tabular}
## \end{table}

A continuación, la formula del mejor modelo ajustado, también, se da el resumen del mejor modelo ajustado para copiar y pegar en latex.

# \begin{equation*}
# \begin{split}
# log(VALOR\_M2)=15.2981484-0.1160513*log(AREA\_DE\_TERRENO\_M2)-0.0035225*BOGOTA\\
# -0.0001134*DISTANCIA\_IND1-0.0980662*log(PROCENTAJE\_PENDIENTE)\\
# -0.5470511*PEND\_A\_B-0.4172517*PARQUE\_IND\_NO
# \end{split}
# \end{equation*}
xtable(summary(step.model))
## % latex table generated in R 3.6.3 by xtable 1.8-4 package
## % Thu Jan 19 19:18:26 2023
## \begin{table}[ht]
## \centering
## \begin{tabular}{rrrrr}
##   \hline
##  & Estimate & Std. Error & t value & Pr($>$$|$t$|$) \\ 
##   \hline
## (Intercept) & 18.2134 & 0.6817 & 26.72 & 0.0000 \\ 
##   log(ÁREA\_DE\_TERRENO\_M2) & -0.1250 & 0.0333 & -3.76 & 0.0006 \\ 
##   BOGOTA & -0.0002 & 0.0000 & -5.34 & 0.0000 \\ 
##   DISTANCIA\_IND1 & -0.0001 & 0.0000 & -4.33 & 0.0001 \\ 
##   log(PROCENTAJE\_PENDIENTE) & -0.1131 & 0.0431 & -2.62 & 0.0126 \\ 
##   PEND\_A\_B & -0.4478 & 0.1549 & -2.89 & 0.0064 \\ 
##   PARQUE\_IND\_NO & -0.3828 & 0.1031 & -3.71 & 0.0007 \\ 
##    \hline
## \end{tabular}
## \end{table}

Supuestos de los modelos para ingresar a LaTEx, inicialmente con normalidad.

# begin{tabular}{|c|c|c|}
# Test&Statistic&pvalue  \\
# Shapiro-Wilk&0.9786&0.5796 \\
# Kolmogorov-Smirnov&0.0653&0.9856 \\
# Cramer-von Mises& 9.2218&0.0000 \\
# Anderson-Darling& 0.285& 0.6117
# \end{tabular}
# \end{table}

Multicolinealidad

xtable(as.data.frame(ols_vif_tol(step.model)))
## % latex table generated in R 3.6.3 by xtable 1.8-4 package
## % Thu Jan 19 19:18:26 2023
## \begin{table}[ht]
## \centering
## \begin{tabular}{rlrr}
##   \hline
##  & Variables & Tolerance & VIF \\ 
##   \hline
## 1 & log(ÁREA\_DE\_TERRENO\_M2) & 0.56 & 1.80 \\ 
##   2 & BOGOTA & 0.64 & 1.57 \\ 
##   3 & DISTANCIA\_IND1 & 0.65 & 1.54 \\ 
##   4 & log(PROCENTAJE\_PENDIENTE) & 0.80 & 1.25 \\ 
##   5 & PEND\_A\_B & 0.87 & 1.15 \\ 
##   6 & PARQUE\_IND\_NO & 0.54 & 1.85 \\ 
##    \hline
## \end{tabular}
## \end{table}

2 Base de datos Agropecuario

La descarga para la base de datos Agropecuario se puede realizar en el siguiente Link Base Agropecuario

kable(head(AGRO[,c(1,2,3,4,5,6)]))
OFERTA ÁREA_DE_TERRENO_HA VALOR_HA CLASE_AGRO CLIMA PENDIENTE geometry
1 AGRO 2.3763 4235510668 II FRIO SECO a POINT (-73.94499 4.962103)
2 AGRO 0.9200 480000000 II FRIO SECO b POINT (-73.90009 4.968278)
4 AGRO 1.9079 830232192 II FRIO SECO a POINT (-73.92198 4.981494)
5 AGRO 2.6000 480000000 II FRIO SECO a POINT (-73.91975 4.997)
6 AGRO 1.3582 2794017818 II FRIO SECO a y b POINT (-73.92398 4.984299)
7 AGRO 5.7706 343390358 II FRIO SECO a y b POINT (-73.90246 4.991453)

2.1 Estadísticas descriptivas

De acuerdo con el gráfico de tortas, se puede ver que dentro de la muestra de 39 ofertas, las vías para el uso agropecuario, cuentan con el 52% de su estado como Bueno, además, las vias regulares con un 30% y el 18% restante las vías se encuentran en mal estado.

El tipo de vía predominante se encuentra principalmente por caminos, dado que son predios rurales, y la infraestructura vial para la parte rural del país se encuentra predominante por este tipo de vías.

También podemos observar una gran cantidad de predios que tienen una influencia de vías primarias.

2.2 Normalidad de la variable respuesta

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 5.780e+07 1.483e+08 3.434e+08 7.486e+08 8.033e+08 4.713e+09

## 
##  Shapiro-Wilk normality test
## 
## data:  (AGRO$VALOR_HA)
## W = 0.63867, p-value = 1.459e-08

Como el (P_value) es menor al 5%, se rechaza la hipótesis nula, por lo tanto, corroboramos que la variable de estudio NO se comporta bajo una distribución normal. ALPHA=1.459e-08

2.2.1 Transformando la variable respuesta

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   17.87   18.81   19.65   19.75   20.50   22.27

## 
##  Shapiro-Wilk normality test
## 
## data:  log(AGRO$VALOR_HA)
## W = 0.95974, p-value = 0.1748

Como el (P_value = 17.48%) para la transformación logarítmica es mayor al 5%, se acepta la hipótesis nula, por lo tanto, corroboramos que la variable de estudio transformada se comporta bajo una distribución normal.

2.3 Análisis de la forma funcional

A continuación, se observan los dipersogramas de la variable respuesta transformada contra las variables continuas seleccionadas para dar la forma funcional o ecuación a ajustar por medio del modelo líneal.

Como se puede apreciar en la imagen anterior, se confronta la variable de estudio transformada con la variable continua área de terreno AREA_DE_TERRENO_HA, allí podemos observar en la figura izquierda que existe una relación inversa entre ambas variables, no obstante, no existe la linealidad entre las dos, es por esto que se utiliza la una transformación logaritmica para la covariable, para determinar la linealidad entre las mismas, por lo tanto esta sería la ideal para poder representar a la variable de estudio transformada, teniendo en cuenta la variable de AREA_DE_TERRENO_HA.

También, podemos observar que la recta de ajuste entre ambas variables en la figura derecha, no es muy cercana a los puntos de acuerdo con el dispersograma, por lo que podríamos tener una relación diferente entre estas y no inversamente proporcional como lo muestra la figura de la izquierda.

Otra de las variables a considerar fue la distancia a la cabecera municipal, la cual se calculo a partir de las vías y optimizando el tiempo de viaje, para ello se confronta con la variable respuesta y se observa que tiene una relación inversamente proporcional, en donde a mayor distancia de la cabecera municipal, va a disminuir la variable respuesta transfromada, además, dada la muestra podemos observar que la mayor concentración de puntos se encuentra en predios cercanos a 4.000 metros o menos. Se transforma la variable de distancia a la cabecera municipal, sin embargo, la dispersión sobre la recta de ajuste es muy alta, como se puede apreciar en la segunda figura, la distancia de los puntos respecto a la recta es muy alta (de acuerdo con la escala de la variable), por lo que podemos esperar que esta no sea significativa a un nivel de confiabilidad muy alto.

Otra de las variables continuas a tener en cuentra dentro del modelo es la altura media de cada uno de los predios, que fue calculada a partir de un Modelo Digital de Terreno de 10 metros, podemos observar que la muestra tiene valores muy concentrados dentro de los 2550 metros y 2600 metros, además dados los puntos seleccionados dentro de las ofertas, se tiene que a mayor altura, el valor de la variable transformada va a disminuir. Al trasnformar la variable de altura, se puede apreciar que no existe una variación en su comportamiento respecto a la variable respuesta, por lo que no se puede apreciar su significancia dentro del modelo, además, sin importar la forma funcional especificada tendrá el mismo comportamiento.

Por último se considero la variable continua, porcentaje promedio de la pendiente, se determino de la misma manera que la altura promedio. Por lo tanto, su comportamiento es similar, como lo podemos apreciar en la variable sin transformar, pese a que la mayor concentración de la muestra se tiene en una pendiente menor al 20%, se puede apreciar que dentro dela muestra se tienen muchas observaciones que tiene pendiente cercana al 40%, observaciones que encajan con el tipo de pendiente descrita anteriormente.

Al transformar el porcentaje de la pendiente, se puede apreciar con mayor claridad la relación inversamente proporcional, aunque, se tiene una gran dispersión respecto a la recta de ajuste que puede llegar a influir en la significancia de la variable dentro del modelo.

2.4 Modelamiento

Relación de las variables
VAR ANTIGUO NUEVO
1 OFERTA OFERTA
2 ÁREA_DE_TERRENO_HA ÁREA_DE_TERRENO_HA
3 VALOR_HA VALOR_HA
4 VALOR_POTENCIAL VALOR_POTENCIAL
5 geometry COORDS
6 distancias DISTANCIA_CM
7 X_mean ALTURA
8 Porcentaje PROCENTAJE_PENDIENTE
9 BOGOTA BOGOTA
10 ÁREA_DE_TERRENO_M2 ÁREA_DE_TERRENO_M2
11 VALOR_M2 VALOR_M2
12 CLASE_AGRO_VII CLASE_AGRO_VII
13 CLIMA_FRIO SECO CLIMA_FRIO_SECO
14 PENDIENTE_a y b PEND_A_B
15 PENDIENTE_b PEND_B
16 PENDIENTE_c PEND_C
17 PENDIENTE_d PEND_D
18 PENDIENTE_d y e PEND_D_E
19 PENDIENTE_d y f PEND_D_F
20 PENDIENTE_e PEND_E
21 LIMITANTES_Encharcamiento y fluctuación del nivel fratico LIM_ENC_FLUC
22 LIMITANTES_Fluctuaciones del nivel freatico LIM_FLUC
23 LIMITANTES_Inundaciones y fluctuaciones del nivel freatico LIM_INUND_FLUC
24 LIMITANTES_PEDREGOSIDAD LIM_PEDRE
25 LIMITANTES_SIN LIM_SIN
26 USO_ACTUAL_Cultivos confinados UA_CULTVO
27 USO_ACTUAL_PASTIZALES UA_PASTIZAL
28 USO_ACTUAL_ZONAS DE EXTRACCIÓN MINERA UA_ZEM
29 AGUAS_SUFICIENTES AGUAS_SUF
30 ZONA_DE_RIESGO_Amenaza sismica intermedia ZR_1
31 ZONA_DE_RIESGO_Amenaza sismica intermedia, Amenaza por Erosión Hídrica y Remosión en
Masa MEDIA ALTA ZR_2
32 ZONA_DE_RIESGO_Amenaza sismica intermedia, Amenaza por Explosiones, derrames o fugas
de Sustancias Peligrosas e Industriales ALTA ZR_3
33 ZONA_DE_RIESGO_Amenaza sismica intermedia, AMENAZA POR INUNDACIÓN ALTA,

Amenaza por Erosión Hídrica y Remosión en Masa MEDIA ALTA |ZR_4 | |34 |ZONA_DE_RIESGO_Amenaza sismica intermedia, y amenaza por inundacion alta |ZR_5 | |35 |FRENTE_SOBRE_VÍA_2 |TIPO_VÍA_2 | |36 |FRENTE_SOBRE_VÍA_4 |TIPO_VÍA_4 | |37 |FRENTE_SOBRE_VÍA_5 |TIPO_VÍA_5 | |38 |ESTADO_VÍA_MALA |VIA_MALA | |39 |ESTADO_VÍA_REGULAR |VIA_REGULAR |

Ecuación asociada al ajuste del modelo líneal inicial, con todas las variables incluidas:

\[\begin{equation*} \begin{split} log(VALOR\_HA) = \beta_{0}+\beta_{1} log(AREA\_DE\_TERRENO\_HA) +\\ \beta_{2} log(BOGOTA) +\beta_{3} VALOR\_POTENCIAL +\beta_{4} (DISTANCIA\_CM) +\\ \beta_{5} (ALTURA) +\beta_{6} log(PROCENTAJE\_PENDIENTE) +\\ \beta_{7} CLASE\_AGRO\_VII +\beta_{8} CLIMA\_FRIO\_SECO +\\ \beta_{9} PEND\_A\_B +\beta_{10} PEND\_B +\beta_{11} PEND\_C +\\ \beta_{12} PEND\_D +\beta_{13} PEND\_D\_E +\beta_{14} PEND\_D\_F +\\ \beta_{15} PEND\_E +\beta_{16} LIM\_ENC\_FLUC +\beta_{17} LIM\_FLUC +\\ \beta_{18} LIM\_INUND\_FLUC +\beta_{19} LIM\_PEDRE +\beta_{20} LIM\_SIN +\\ \beta_{21} UA\_CULTVO +\beta_{22} UA\_PASTIZAL +\beta_{23}UA\_ZEM +\\ \beta_{24} AGUAS\_SUF +\beta_{25} ZR\_1 +\beta_{26} ZR\_2 +\beta_{27} ZR\_3 +\\ \beta_{28} ZR\_4 +\beta_{29} ZR\_5 +\beta_{30}TIPO\_VÍA\_2+\beta_{31}TIPO\_VÍA\_4+ \\ \beta_{32}TIPO\_VÍA\_5+\beta_{33}VIA\_MALA+\beta_{34}VIA\_REGULAR+\epsilon \end{split} \end{equation*}\]

# DISTANCIA_CM + ALTURA + PROCENTAJE_PENDIENTE
# log(DISTANCIA_CM) + log(ALTURA) + log(PROCENTAJE_PENDIENTE)
#AGRO=AGRO[!AGRO$OFERTA=='13 AGRO',]
modelo1 <- lm(log(VALOR_HA)~log(ÁREA_DE_TERRENO_HA)+log(BOGOTA)+VALOR_POTENCIAL+(DISTANCIA_CM)+(ALTURA)+
               log(PROCENTAJE_PENDIENTE)+CLASE_AGRO_VII+CLIMA_FRIO_SECO+PEND_A_B+
               PEND_B+PEND_C+PEND_D+PEND_D_E+PEND_D_F+PEND_E+LIM_ENC_FLUC+
               LIM_FLUC+LIM_INUND_FLUC+LIM_PEDRE+LIM_SIN+UA_CULTVO+UA_PASTIZAL+
               UA_ZEM+AGUAS_SUF+ZR_1+ZR_2+ZR_3+ZR_4+ZR_5+TIPO_VÍA_2+TIPO_VÍA_4+
          TIPO_VÍA_5+VIA_MALA+VIA_REGULAR,data = AGRO)

summary(modelo1)
## 
## Call:
## lm(formula = log(VALOR_HA) ~ log(ÁREA_DE_TERRENO_HA) + log(BOGOTA) + 
##     VALOR_POTENCIAL + (DISTANCIA_CM) + (ALTURA) + log(PROCENTAJE_PENDIENTE) + 
##     CLASE_AGRO_VII + CLIMA_FRIO_SECO + PEND_A_B + PEND_B + PEND_C + 
##     PEND_D + PEND_D_E + PEND_D_F + PEND_E + LIM_ENC_FLUC + LIM_FLUC + 
##     LIM_INUND_FLUC + LIM_PEDRE + LIM_SIN + UA_CULTVO + UA_PASTIZAL + 
##     UA_ZEM + AGUAS_SUF + ZR_1 + ZR_2 + ZR_3 + ZR_4 + ZR_5 + TIPO_VÍA_2 + 
##     TIPO_VÍA_4 + TIPO_VÍA_5 + VIA_MALA + VIA_REGULAR, data = AGRO)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.5404 -0.1946  0.0000  0.1552  1.2465 
## 
## Coefficients: (2 not defined because of singularities)
##                             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)               -3.721e+01  9.033e+01  -0.412   0.6947  
## log(ÁREA_DE_TERRENO_HA)   -4.020e-01  4.479e-01  -0.897   0.4041  
## log(BOGOTA)                5.712e+00  6.266e+00   0.911   0.3972  
## VALOR_POTENCIAL            5.231e-02  3.847e-02   1.360   0.2228  
## DISTANCIA_CM              -3.688e-04  2.671e-04  -1.380   0.2167  
## ALTURA                    -1.177e-03  1.856e-02  -0.063   0.9515  
## log(PROCENTAJE_PENDIENTE) -2.234e-01  4.551e-01  -0.491   0.6409  
## CLASE_AGRO_VII            -2.470e+00  1.834e+00  -1.346   0.2268  
## CLIMA_FRIO_SECO           -6.869e-01  1.230e+00  -0.558   0.5969  
## PEND_A_B                   9.451e-01  9.940e-01   0.951   0.3784  
## PEND_B                    -4.570e-01  1.063e+00  -0.430   0.6822  
## PEND_C                     1.933e+00  1.581e+00   1.223   0.2673  
## PEND_D                     3.307e+00  2.345e+00   1.410   0.2082  
## PEND_D_E                   3.711e+00  3.034e+00   1.223   0.2672  
## PEND_D_F                   4.239e+00  3.413e+00   1.242   0.2606  
## PEND_E                     4.403e+00  2.807e+00   1.569   0.1677  
## LIM_ENC_FLUC               5.880e-01  1.301e+00   0.452   0.6671  
## LIM_FLUC                  -2.162e+00  2.208e+00  -0.979   0.3653  
## LIM_INUND_FLUC             3.755e+00  1.871e+00   2.007   0.0916 .
## LIM_PEDRE                         NA         NA      NA       NA  
## LIM_SIN                   -6.608e-01  1.816e+00  -0.364   0.7284  
## UA_CULTVO                 -1.609e-01  1.875e+00  -0.086   0.9344  
## UA_PASTIZAL                7.607e-01  9.953e-01   0.764   0.4736  
## UA_ZEM                            NA         NA      NA       NA  
## AGUAS_SUF                  9.381e-01  8.540e-01   1.098   0.3141  
## ZR_1                       3.286e-01  2.010e+00   0.164   0.8755  
## ZR_2                       2.248e-01  1.354e+00   0.166   0.8736  
## ZR_3                       2.577e-01  3.416e+00   0.075   0.9423  
## ZR_4                       1.269e+00  1.971e+00   0.644   0.5436  
## ZR_5                      -8.376e-01  2.613e+00  -0.321   0.7594  
## TIPO_VÍA_2                 2.686e+00  1.559e+00   1.723   0.1357  
## TIPO_VÍA_4                 1.889e+00  1.318e+00   1.433   0.2018  
## TIPO_VÍA_5                 1.056e+00  1.531e+00   0.690   0.5161  
## VIA_MALA                   6.019e-01  1.833e+00   0.328   0.7537  
## VIA_REGULAR               -8.347e-01  1.647e+00  -0.507   0.6303  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8477 on 6 degrees of freedom
## Multiple R-squared:  0.9134, Adjusted R-squared:  0.4518 
## F-statistic: 1.979 on 32 and 6 DF,  p-value: 0.2004

Ecuación del mejor modelo ajustado.

\[\begin{equation*} \begin{split} log(VALOR\_HA) = -28.4-0.3404*log(ÁREA\_DE\_TERRENO\_HA)+0.05812*VALOR\_POTENCIAL-\\ 0.0003989*DISTANCIA\_CM-2.709*CLASE\_AGRO\_VII+1.06*PEND\_A\_B+\\ 2.177*PEND\_C+3.581*PEND\_D+3.876*PEND\_D\_E+4.453*PEND\_E+\\ 1.183*LIM\_ENC\_FLUC-1.458*LIM\_FLUC+4.239*LIM\_INUND\_FLUC-\\ 1.608*ZR\_5+2.394*TIPO\_VÍA\_2+1.931*TIPO\_VÍA\_4+\\ 1.283*TIPO\_VÍA\_5-1.048*VIA\_REGULAR\\ \end{split} \end{equation*}\]

step.model <- stepAIC(modelo1, direction = "both", 
                      trace = FALSE)

summary(step.model)
## 
## Call:
## lm(formula = log(VALOR_HA) ~ log(ÁREA_DE_TERRENO_HA) + log(BOGOTA) + 
##     VALOR_POTENCIAL + DISTANCIA_CM + log(PROCENTAJE_PENDIENTE) + 
##     CLASE_AGRO_VII + CLIMA_FRIO_SECO + PEND_A_B + PEND_C + PEND_D + 
##     PEND_D_E + PEND_D_F + PEND_E + LIM_ENC_FLUC + LIM_FLUC + 
##     LIM_INUND_FLUC + UA_PASTIZAL + AGUAS_SUF + ZR_4 + ZR_5 + 
##     TIPO_VÍA_2 + TIPO_VÍA_4 + TIPO_VÍA_5 + VIA_REGULAR, data = AGRO)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.7395 -0.1645  0.0000  0.1591  1.2679 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)               -2.838e+01  2.958e+01  -0.959  0.35360   
## log(ÁREA_DE_TERRENO_HA)   -3.404e-01  1.303e-01  -2.612  0.02050 * 
## log(BOGOTA)                4.538e+00  2.932e+00   1.548  0.14396   
## VALOR_POTENCIAL            5.812e-02  2.188e-02   2.657  0.01878 * 
## DISTANCIA_CM              -3.989e-04  1.698e-04  -2.350  0.03399 * 
## log(PROCENTAJE_PENDIENTE) -2.311e-01  2.101e-01  -1.100  0.28989   
## CLASE_AGRO_VII            -2.709e+00  8.195e-01  -3.305  0.00521 **
## CLIMA_FRIO_SECO           -8.208e-01  7.686e-01  -1.068  0.30359   
## PEND_A_B                   1.060e+00  5.144e-01   2.061  0.05840 . 
## PEND_C                     2.177e+00  9.985e-01   2.181  0.04675 * 
## PEND_D                     3.581e+00  1.094e+00   3.274  0.00554 **
## PEND_D_E                   3.876e+00  1.340e+00   2.893  0.01180 * 
## PEND_D_F                   5.375e+00  1.347e+00   3.989  0.00134 **
## PEND_E                     4.453e+00  1.248e+00   3.569  0.00308 **
## LIM_ENC_FLUC               1.183e+00  5.191e-01   2.279  0.03884 * 
## LIM_FLUC                  -1.458e+00  6.216e-01  -2.345  0.03428 * 
## LIM_INUND_FLUC             4.239e+00  1.046e+00   4.053  0.00119 **
## UA_PASTIZAL                6.558e-01  3.799e-01   1.726  0.10632   
## AGUAS_SUF                  6.841e-01  4.417e-01   1.549  0.14380   
## ZR_4                       9.777e-01  1.077e+00   0.907  0.37954   
## ZR_5                      -1.608e+00  8.056e-01  -1.996  0.06578 . 
## TIPO_VÍA_2                 2.394e+00  8.191e-01   2.923  0.01113 * 
## TIPO_VÍA_4                 1.931e+00  7.378e-01   2.617  0.02029 * 
## TIPO_VÍA_5                 1.283e+00  4.597e-01   2.790  0.01445 * 
## VIA_REGULAR               -1.048e+00  5.294e-01  -1.979  0.06781 . 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5813 on 14 degrees of freedom
## Multiple R-squared:  0.905,  Adjusted R-squared:  0.7423 
## F-statistic:  5.56 on 24 and 14 DF,  p-value: 0.0008596

Si ajustamos la ecuación correspondiente, con las variables significativas dentro del modelo, podemos obtener la ecuación caracteristica del modelo, que va a ser tenido en cuenta como el mejor ajuste a las variables tenidas en cuenta dentro del presente estudio.

modelof <- lm(log(VALOR_HA)~log(ÁREA_DE_TERRENO_HA)+VALOR_POTENCIAL+
                DISTANCIA_CM+CLASE_AGRO_VII+PEND_A_B+PEND_C+PEND_D+
                PEND_D_E+PEND_E+LIM_ENC_FLUC+LIM_FLUC+LIM_INUND_FLUC+
                ZR_5+TIPO_VÍA_2+TIPO_VÍA_4+TIPO_VÍA_5+VIA_REGULAR,data = AGRO)

summary(modelof)
## 
## Call:
## lm(formula = log(VALOR_HA) ~ log(ÁREA_DE_TERRENO_HA) + VALOR_POTENCIAL + 
##     DISTANCIA_CM + CLASE_AGRO_VII + PEND_A_B + PEND_C + PEND_D + 
##     PEND_D_E + PEND_E + LIM_ENC_FLUC + LIM_FLUC + LIM_INUND_FLUC + 
##     ZR_5 + TIPO_VÍA_2 + TIPO_VÍA_4 + TIPO_VÍA_5 + VIA_REGULAR, 
##     data = AGRO)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.07830 -0.35880 -0.06459  0.18312  1.44023 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             19.3917788  1.1709386  16.561 1.57e-13 ***
## log(ÁREA_DE_TERRENO_HA) -0.4275268  0.1188958  -3.596   0.0017 ** 
## VALOR_POTENCIAL          0.0268563  0.0173718   1.546   0.1370    
## DISTANCIA_CM            -0.0001591  0.0001107  -1.438   0.1652    
## CLASE_AGRO_VII          -1.5197781  0.8283477  -1.835   0.0808 .  
## PEND_A_B                 1.0265802  0.5224222   1.965   0.0628 .  
## PEND_C                   0.0249724  1.0170587   0.025   0.9806    
## PEND_D                  -0.0370556  0.7272381  -0.051   0.9598    
## PEND_D_E                 0.2196338  0.8031782   0.273   0.7872    
## PEND_E                  -0.1062728  0.6646022  -0.160   0.8745    
## LIM_ENC_FLUC             0.7359353  0.6311054   1.166   0.2566    
## LIM_FLUC                -1.8452257  0.6760722  -2.729   0.0126 *  
## LIM_INUND_FLUC           2.3344103  0.9805074   2.381   0.0268 *  
## ZR_5                    -1.1479544  0.9101227  -1.261   0.2210    
## TIPO_VÍA_2               0.6840015  0.6212476   1.101   0.2834    
## TIPO_VÍA_4               2.1260838  0.8640981   2.460   0.0226 *  
## TIPO_VÍA_5               1.1552383  0.4954631   2.332   0.0298 *  
## VIA_REGULAR             -0.7509528  0.4270287  -1.759   0.0932 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7562 on 21 degrees of freedom
## Multiple R-squared:  0.759,  Adjusted R-squared:  0.5638 
## F-statistic:  3.89 on 17 and 21 DF,  p-value: 0.001962

2.4.1 Validando supuestos del modelo líneal

## Warning in ks.test(y, "pnorm", mean(y), sd(y)): ties should not be present for
## the Kolmogorov-Smirnov test
## -----------------------------------------------
##        Test             Statistic       pvalue  
## -----------------------------------------------
## Shapiro-Wilk              0.9337         0.0236 
## Kolmogorov-Smirnov        0.1551         0.3049 
## Cramer-von Mises          5.9351         0.0000 
## Anderson-Darling          0.9543         0.0143 
## -----------------------------------------------
## 
##  studentized Breusch-Pagan test
## 
## data:  modelof
## BP = 12.807, df = 17, p-value = 0.749
##                  Variables  Tolerance       VIF
## 1  log(ÁREA_DE_TERRENO_HA) 0.27390099  3.650954
## 2          VALOR_POTENCIAL 0.16581324  6.030882
## 3             DISTANCIA_CM 0.31614339  3.163122
## 4           CLASE_AGRO_VII 0.08831605 11.322970
## 5                 PEND_A_B 0.75656435  1.321765
## 6                   PEND_C 0.56733187  1.762637
## 7                   PEND_D 0.17002312  5.881553
## 8                 PEND_D_E 0.46715108  2.140635
## 9                   PEND_E 0.25499053  3.921714
## 10            LIM_ENC_FLUC 0.75661926  1.321669
## 11                LIM_FLUC 0.65931807  1.516719
## 12          LIM_INUND_FLUC 0.61041828  1.638221
## 13                    ZR_5 0.70848285  1.411467
## 14              TIPO_VÍA_2 0.41271987  2.422951
## 15              TIPO_VÍA_4 0.78596484  1.272322
## 16              TIPO_VÍA_5 0.23905988  4.183052
## 17             VIA_REGULAR 0.37744501  2.649393

De acuerdo con los test de normalidad, Shapiro-Wilk, Kolmogorov-Smirnov y Anderson-Darling, los residuos del modelo, siguen una distribución normal dado que el p_value es mayor al alpha de error establecido al 5%, por ende, la variable respuesta cumple con el supuesto de homocedasticidad, como se aprecia en el test de Breusch-Pagan.

Finalmente se verifica si existen variables que sea una combinación líneal de otra, por lo tanto se hace por el índice de factor de varianza VIF. Donde, este valor representa la colinealidad entre las covariables, si esta es mayor a 10, se expresa en terminos de que una variable es una combinación líneal de otra, en este caso, las variables con un VIF superior a 10 es CLASE_AGRO_VII.

Por el sentido estricto de la naturaleza de las variables, las que hacen referencia a estratificación de pendientes PEND_D y PEND_E, se encuentran altamente correlacionadas, al ser dummies provenientes de la misma fuente de datos, pese a esto su VIF es inferior a 10, ahora, para las variables VALOR_POTENCIAL y CLASE_AGRO_VII, no es del todo claro su relación, dado que no provienen de la misma fuente de datos, sin embargo, dado que son variables extraidas de las áreas homogeneas de tierra, muy probablemente se tenga esta relación directa, por lo que eliminar una de estas dos variables, puede que solucione el problema de combinación líneal de las variables.

Para solucionar los problemas de Multicolinealidad, se optó por la eliminación de la variable com mayor VIF para determinar si esta es la causante de que se encuentran correlacionadas, tal como se muestra a continuación.

## 
## Call:
## lm(formula = log(VALOR_HA) ~ log(ÁREA_DE_TERRENO_HA) + VALOR_POTENCIAL + 
##     DISTANCIA_CM + PEND_A_B + PEND_C + PEND_D + PEND_D_E + PEND_E + 
##     LIM_ENC_FLUC + LIM_FLUC + LIM_INUND_FLUC + ZR_5 + TIPO_VÍA_2 + 
##     TIPO_VÍA_4 + TIPO_VÍA_5 + VIA_REGULAR, data = AGRO)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.15544 -0.27172 -0.03813  0.17075  1.94669 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             18.2101086  1.0291402  17.694 1.69e-14 ***
## log(ÁREA_DE_TERRENO_HA) -0.4325160  0.1250936  -3.458  0.00224 ** 
## VALOR_POTENCIAL          0.0430235  0.0157555   2.731  0.01221 *  
## DISTANCIA_CM            -0.0001090  0.0001128  -0.966  0.34454    
## PEND_A_B                 1.0930047  0.5484770   1.993  0.05883 .  
## PEND_C                   0.5249657  1.0312167   0.509  0.61577    
## PEND_D                  -0.8126858  0.6227478  -1.305  0.20538    
## PEND_D_E                -0.2932308  0.7924225  -0.370  0.71489    
## PEND_E                  -0.4461302  0.6717130  -0.664  0.51348    
## LIM_ENC_FLUC             0.9526476  0.6524409   1.460  0.15839    
## LIM_FLUC                -1.4827492  0.6804431  -2.179  0.04032 *  
## LIM_INUND_FLUC           2.9286882  0.9739583   3.007  0.00649 ** 
## ZR_5                    -1.3634337  0.9498078  -1.435  0.16522    
## TIPO_VÍA_2               1.0494262  0.6192915   1.695  0.10427    
## TIPO_VÍA_4               1.8637884  0.8968472   2.078  0.04957 *  
## TIPO_VÍA_5               0.6994206  0.4511370   1.550  0.13532    
## VIA_REGULAR             -0.6075267  0.4418119  -1.375  0.18295    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7958 on 22 degrees of freedom
## Multiple R-squared:  0.7203, Adjusted R-squared:  0.5169 
## F-statistic: 3.541 on 16 and 22 DF,  p-value: 0.003339

El modelo resultante, cuenta con 6 variables significativas al 10%, además, su r² ajustado es del 52%, por lo cual, se considera un buen ajuste, en donde tiene el 52% de acierto para predecir el valor de la variable transformada. Además, se puede observar que este modelo es significativo, puesto que, su p-value es inferior al nivel de significancia de hasta el 1%, por lo cual, este nos sirve para poder realizar predicciones o más exactamente inferencia sobre el caso de estudio dentro del municipio de Tocancipá.

La ecuación final del modelo resultante se expresa a continuación:

\[\begin{equation*} \begin{split} log(VALOR\_HA) = 18.2101086-0.432516*log(ÁREA\_DE\_TERRENO\_HA)+\\ 0.0430235*VALOR\_POTENCIAL+1.0930047*PEND\_A\_B-\\ 1.4827492*LIM\_FLUC+2.9286882*LIM\_INUND\_FLUC+\\ 1.8637884*TIPO\_VÍA\_4 \end{split} \end{equation*}\]

## Warning in ks.test(y, "pnorm", mean(y), sd(y)): ties should not be present for
## the Kolmogorov-Smirnov test
## $kolmogorv
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  y
## D = 0.16667, p-value = 0.2288
## alternative hypothesis: two-sided
## 
##  studentized Breusch-Pagan test
## 
## data:  modelof
## BP = 12.642, df = 16, p-value = 0.6987
##                  Variables Tolerance      VIF
## 1  log(ÁREA_DE_TERRENO_HA) 0.2740443 3.649044
## 2          VALOR_POTENCIAL 0.2232584 4.479115
## 3             DISTANCIA_CM 0.3366545 2.970404
## 4                 PEND_A_B 0.7602154 1.315417
## 5                   PEND_C 0.6112148 1.636086
## 6                   PEND_D 0.2568037 3.894025
## 7                 PEND_D_E 0.5315352 1.881343
## 8                   PEND_E 0.2764678 3.617057
## 9             LIM_ENC_FLUC 0.7840850 1.275372
## 10                LIM_FLUC 0.7208784 1.387197
## 11          LIM_INUND_FLUC 0.6851931 1.459443
## 12                    ZR_5 0.7204806 1.387963
## 13              TIPO_VÍA_2 0.4600013 2.173907
## 14              TIPO_VÍA_4 0.8080844 1.237494
## 15              TIPO_VÍA_5 0.3193573 3.131289
## 16             VIA_REGULAR 0.3905327 2.560605

De acuerdo con el test de normalidad Kolmogorov-Smirnov los residuos del modelo, siguen una distribución normal dado que el p_value es mayor al alpha de error establecido al 5%, por ende, la variable respuesta también cumple con el supuesto de homocedasticidad, como se aprecia en el test de Breusch-Pagan.

Finalmente se verifica si existen variables que sea una combinación líneal de otra, por lo tanto se hace por el índice de factor de varianza VIF. Donde, este valor representa la colinealidad entre las covariables, si esta es mayor a 10, se expresa en terminos de que una variable es una combinación líneal de otra, sin embargo, como se puede apreciar, las variables respuesta no son combinación líneal de ninguna de sus covariables, pese a que el valor potencial, sigue con valores muy altos.

2.5 Interpretación del modelo resultante

\[ \begin{equation*} \begin{split} \beta_0=exp(18.2101086) = 81.012.061, valor\quad de\quad referencia\\ \beta_1=−0.432516,Disminuye \quad 0.432516\% \quad si\quad el\quad \\ area\quad de\quad terreno\quad aumenta\quad en\quad un\quad 1\% \\ \beta_2=0.0430235,Si,\quad se\quad aumenta\quad 1\quad unidad\quad \\ valor\quad potencial\quad aumenta\quad 0.0430235\% \\ \beta_3=1.0930047,Si,\quad es\quad de\quad pendiente\quad A\_B \\ aumenta\quad el\quad valor\quad 1.0930047\% \\ \beta_4=-1.4827492,Si,\quad es\quad de\quad limitante\quad nivel \quad freatico \\ disminuye\quad el\quad valor\quad 1.4827492\% \\ \beta_5=2.9286882,Si,\quad es\quad de\quad limitante\quad nivel \quad Inundaciones\quad y \quad freatico \\ aumenta\quad el\quad valor\quad 2.9286882\% \\ \beta_6=1.8637884,Si,\quad es\quad de\quad tipo\quad via \quad 4 \\ aumenta\quad el\quad valor\quad 1.8637884\% \\ \end{split} \end{equation*}\] $ 81.012.061 es el valor de referencia de hectárea del uso agro.

2.5.1 Para LaTEx

Ecuación general a ajustar, para el modelo agropecuario se muestra a continuación, además, de los resultados del modelo ajustado sobre esa ecuación:

# $$\begin{equation*}
# \begin{split}
# log(VALOR\_HA) = \beta_{0}+\beta_{1} log(AREA\_DE\_TERRENO\_HA) +\\
# \beta_{2} log(BOGOTA) +\beta_{3} VALOR\_POTENCIAL +\beta_{4} (DISTANCIA\_CM) +\\
# \beta_{5} (ALTURA) +\beta_{6} log(PROCENTAJE\_PENDIENTE) +\\
# \beta_{7} CLASE\_AGRO\_VII +\beta_{8} CLIMA\_FRIO\_SECO +\\
# \beta_{9} PEND\_A\_B +\beta_{10} PEND\_B +\beta_{11} PEND\_C +\\
# \beta_{12}  PEND\_D +\beta_{13} PEND\_D\_E +\beta_{14} PEND\_D\_F +\\
# \beta_{15} PEND\_E +\beta_{16} LIM\_ENC\_FLUC +\beta_{17} LIM\_FLUC +\\
# \beta_{18} LIM\_INUND\_FLUC +\beta_{19} LIM\_PEDRE +\beta_{20} LIM\_SIN +\\
# \beta_{21} UA\_CULTVO +\beta_{22} UA\_PASTIZAL +\beta_{23}UA\_ZEM +\\
# \beta_{24} AGUAS\_SUF +\beta_{25} ZR\_1 +\beta_{26} ZR\_2 +\beta_{27} ZR\_3 +\\
# \beta_{28} ZR\_4 +\beta_{29} ZR\_5 +\beta_{30}TIPO\_VÍA\_2+\beta_{31}TIPO\_VÍA\_4+ \\
# \beta_{32}TIPO\_VÍA\_5+\beta_{33}VIA\_MALA+\beta_{34}VIA\_REGULAR+\epsilon
# \end{split}
# \end{equation*}$$
xtable(summary(modelo1))
## % latex table generated in R 3.6.3 by xtable 1.8-4 package
## % Thu Jan 19 19:18:37 2023
## \begin{table}[ht]
## \centering
## \begin{tabular}{rrrrr}
##   \hline
##  & Estimate & Std. Error & t value & Pr($>$$|$t$|$) \\ 
##   \hline
## (Intercept) & -37.2132 & 90.3314 & -0.41 & 0.6947 \\ 
##   log(ÁREA\_DE\_TERRENO\_HA) & -0.4020 & 0.4479 & -0.90 & 0.4041 \\ 
##   log(BOGOTA) & 5.7117 & 6.2664 & 0.91 & 0.3972 \\ 
##   VALOR\_POTENCIAL & 0.0523 & 0.0385 & 1.36 & 0.2228 \\ 
##   DISTANCIA\_CM & -0.0004 & 0.0003 & -1.38 & 0.2167 \\ 
##   ALTURA & -0.0012 & 0.0186 & -0.06 & 0.9515 \\ 
##   log(PROCENTAJE\_PENDIENTE) & -0.2234 & 0.4551 & -0.49 & 0.6409 \\ 
##   CLASE\_AGRO\_VII & -2.4697 & 1.8342 & -1.35 & 0.2268 \\ 
##   CLIMA\_FRIO\_SECO & -0.6869 & 1.2305 & -0.56 & 0.5969 \\ 
##   PEND\_A\_B & 0.9451 & 0.9940 & 0.95 & 0.3784 \\ 
##   PEND\_B & -0.4570 & 1.0628 & -0.43 & 0.6822 \\ 
##   PEND\_C & 1.9329 & 1.5810 & 1.22 & 0.2673 \\ 
##   PEND\_D & 3.3067 & 2.3448 & 1.41 & 0.2082 \\ 
##   PEND\_D\_E & 3.7106 & 3.0342 & 1.22 & 0.2672 \\ 
##   PEND\_D\_F & 4.2388 & 3.4127 & 1.24 & 0.2606 \\ 
##   PEND\_E & 4.4034 & 2.8067 & 1.57 & 0.1677 \\ 
##   LIM\_ENC\_FLUC & 0.5880 & 1.3008 & 0.45 & 0.6671 \\ 
##   LIM\_FLUC & -2.1622 & 2.2083 & -0.98 & 0.3653 \\ 
##   LIM\_INUND\_FLUC & 3.7546 & 1.8710 & 2.01 & 0.0916 \\ 
##   LIM\_SIN & -0.6608 & 1.8160 & -0.36 & 0.7284 \\ 
##   UA\_CULTVO & -0.1609 & 1.8750 & -0.09 & 0.9344 \\ 
##   UA\_PASTIZAL & 0.7607 & 0.9953 & 0.76 & 0.4736 \\ 
##   AGUAS\_SUF & 0.9381 & 0.8540 & 1.10 & 0.3141 \\ 
##   ZR\_1 & 0.3286 & 2.0099 & 0.16 & 0.8755 \\ 
##   ZR\_2 & 0.2248 & 1.3537 & 0.17 & 0.8736 \\ 
##   ZR\_3 & 0.2577 & 3.4157 & 0.08 & 0.9423 \\ 
##   ZR\_4 & 1.2686 & 1.9708 & 0.64 & 0.5436 \\ 
##   ZR\_5 & -0.8376 & 2.6132 & -0.32 & 0.7594 \\ 
##   TIPO\_VÍA\_2 & 2.6856 & 1.5590 & 1.72 & 0.1357 \\ 
##   TIPO\_VÍA\_4 & 1.8892 & 1.3181 & 1.43 & 0.2018 \\ 
##   TIPO\_VÍA\_5 & 1.0562 & 1.5310 & 0.69 & 0.5161 \\ 
##   VIA\_MALA & 0.6019 & 1.8325 & 0.33 & 0.7537 \\ 
##   VIA\_REGULAR & -0.8347 & 1.6467 & -0.51 & 0.6303 \\ 
##    \hline
## \end{tabular}
## \end{table}

Ecuación del mejor modelo ajustado y resumen del mejor modelo ajustado para copiar a LaTEx

#$$\begin{equation*}
#\begin{split}
#log(VALOR\_HA) = 18.2101086-0.432516*log(ÁREA\_DE\_TERRENO\_HA)+\\
#0.0430235*VALOR\_POTENCIAL+1.0930047*PEND\_A\_B-\\
#1.4827492*LIM\_FLUC+2.9286882*LIM\_INUND\_FLUC+\\
#1.8637884*TIPO\_VÍA\_4
#\end{split}
#\end{equation*}$$
xtable(summary(modelof))
## % latex table generated in R 3.6.3 by xtable 1.8-4 package
## % Thu Jan 19 19:18:37 2023
## \begin{table}[ht]
## \centering
## \begin{tabular}{rrrrr}
##   \hline
##  & Estimate & Std. Error & t value & Pr($>$$|$t$|$) \\ 
##   \hline
## (Intercept) & 18.2101 & 1.0291 & 17.69 & 0.0000 \\ 
##   log(ÁREA\_DE\_TERRENO\_HA) & -0.4325 & 0.1251 & -3.46 & 0.0022 \\ 
##   VALOR\_POTENCIAL & 0.0430 & 0.0158 & 2.73 & 0.0122 \\ 
##   DISTANCIA\_CM & -0.0001 & 0.0001 & -0.97 & 0.3445 \\ 
##   PEND\_A\_B & 1.0930 & 0.5485 & 1.99 & 0.0588 \\ 
##   PEND\_C & 0.5250 & 1.0312 & 0.51 & 0.6158 \\ 
##   PEND\_D & -0.8127 & 0.6227 & -1.30 & 0.2054 \\ 
##   PEND\_D\_E & -0.2932 & 0.7924 & -0.37 & 0.7149 \\ 
##   PEND\_E & -0.4461 & 0.6717 & -0.66 & 0.5135 \\ 
##   LIM\_ENC\_FLUC & 0.9526 & 0.6524 & 1.46 & 0.1584 \\ 
##   LIM\_FLUC & -1.4827 & 0.6804 & -2.18 & 0.0403 \\ 
##   LIM\_INUND\_FLUC & 2.9287 & 0.9740 & 3.01 & 0.0065 \\ 
##   ZR\_5 & -1.3634 & 0.9498 & -1.44 & 0.1652 \\ 
##   TIPO\_VÍA\_2 & 1.0494 & 0.6193 & 1.69 & 0.1043 \\ 
##   TIPO\_VÍA\_4 & 1.8638 & 0.8968 & 2.08 & 0.0496 \\ 
##   TIPO\_VÍA\_5 & 0.6994 & 0.4511 & 1.55 & 0.1353 \\ 
##   VIA\_REGULAR & -0.6075 & 0.4418 & -1.38 & 0.1829 \\ 
##    \hline
## \end{tabular}
## \end{table}

Supuestos de los modelos para ingresar a LaTEx, inicialmente con normalidad.

# begin{tabular}{|c|c|c|}
# Test&Statistic&p\_value\\
# Shapiro-Wilk&0.9337&0.0236 \\
# Kolmogorov-Smirnov&0.1551&0.3049 \\
# Cramer-von Mises& 5.9351&0.0000 \\
# Anderson-Darling& 0.9543&0.0143 \\
# \end{tabular}
# \end{table}

Multicolinealidad

xtable(as.data.frame(ols_vif_tol(modelof)))
## % latex table generated in R 3.6.3 by xtable 1.8-4 package
## % Thu Jan 19 19:18:37 2023
## \begin{table}[ht]
## \centering
## \begin{tabular}{rlrr}
##   \hline
##  & Variables & Tolerance & VIF \\ 
##   \hline
## 1 & log(ÁREA\_DE\_TERRENO\_HA) & 0.27 & 3.65 \\ 
##   2 & VALOR\_POTENCIAL & 0.22 & 4.48 \\ 
##   3 & DISTANCIA\_CM & 0.34 & 2.97 \\ 
##   4 & PEND\_A\_B & 0.76 & 1.32 \\ 
##   5 & PEND\_C & 0.61 & 1.64 \\ 
##   6 & PEND\_D & 0.26 & 3.89 \\ 
##   7 & PEND\_D\_E & 0.53 & 1.88 \\ 
##   8 & PEND\_E & 0.28 & 3.62 \\ 
##   9 & LIM\_ENC\_FLUC & 0.78 & 1.28 \\ 
##   10 & LIM\_FLUC & 0.72 & 1.39 \\ 
##   11 & LIM\_INUND\_FLUC & 0.69 & 1.46 \\ 
##   12 & ZR\_5 & 0.72 & 1.39 \\ 
##   13 & TIPO\_VÍA\_2 & 0.46 & 2.17 \\ 
##   14 & TIPO\_VÍA\_4 & 0.81 & 1.24 \\ 
##   15 & TIPO\_VÍA\_5 & 0.32 & 3.13 \\ 
##   16 & VIA\_REGULAR & 0.39 & 2.56 \\ 
##    \hline
## \end{tabular}
## \end{table}