San Gil, Santander - 2026
A nivel nacional, cuantificar el aprovechamiento de los recursos naturales renovables es un problema técnico recurrente que involucra procesos de liquidación económica, los cuales dependen de múltiples variables técnicas y ecológicas medibles. En Colombia, uno de estos procesos es el cálculo de la tasa compensatoria por fauna silvestre nativa, reglamentada en el artículo 42 de la Ley 99 de 1993 y administrada por el Ministerio de Ambiente y Desarrollo Sostenible - Minambiente.
El problema que motiva este estudio surge en un contexto de ingeniería ambiental en donde, aunque la fórmula de liquidación se encuentra definida normativamente, en la práctica, el sistema de información puede generar registros con alta variabilidad en los coeficientes, diferencias regionales y montos que oscilan entre valores muy bajos y sumamente elevados, los cuales impiden identificar con claridad qué variables tienen mayor influencia en el monto final.
Pregunta principal: ¿Cuál es el comportamiento estadístico de las variables cuantitativas que determinan el monto a pagar en la tasa compensatoria por caza de fauna silvestre en Colombia, y en qué medida el Factor Regional (FR) y el número de especímenes aprobados (Es) influyen linealmente sobre dicho monto?
Variable dependiente (Y):
Variables independientes (X):
Para este proyecto, se cargarán herramientas especializadas en el ecosistema de R que cubren las fases críticas del análisis de datos: desde la importación y manipulación eficiente de registros (con el núcleo de dplyr y readr), pasando por la exploración estadística avanzada y visual (usando psych y skimr), hasta la creación de gráficas de alta calidad y diagnósticos de modelado estadístico.
library(psych) # Estadísticos descriptivos avanzados
library(corrplot) # Visualización de matrices de correlación
library(readr) # Importación eficiente de datos
library(GGally) # Gráficos multivariados (ggpairs)
library(car) # Diagnóstico de modelos de regresión
library(MASS) # Selección de modelos (stepAIC)
library(ggplot2) # Visualización gráfica de datos
library(skimr) # Resumen más visual
library(dplyr) # Manipulación y transformación de datosSe importa el archivo CSV con los registros de la Tasa Compensatoria por Caza de Fauna Silvestre entre los años 2016 y 2022. Se especifican explícitamente los tipos de cada columna para garantizar una correcta interpretación de las variables numéricas y de texto, evitando errores de conversión automática por parte de R.
Datos_Tasa_compensatoria_por_Caza_de_Fauna <- read_csv(
"Datos_de_la_Tasa_compensatoria_por_Caza_de_Fauna_Silvestre_20260509.csv",
col_types = cols(
Año = col_character(),
`FECHA DE OTORGAMIENTO` = col_character(),
`VIGENCIA (meses)` = col_number(),
`VALOR TIPO DE CAZA` = col_number(),
`COEFICIENTE BIÓTICO (Cb)` = col_number(),
`NACIONALIDAD (N)` = col_number(),
`GRUPO TRÓFICO (Gt)` = col_number(),
`COEFICIENTE DE VALORACIÓN (V)` = col_number(),
`FACTOR REGIONAL (FR)` = col_number(),
`No. ESPECÍMENES O MUESTRAS (Es)` = col_number(),
`TARIFA MÍNIMA (TM)` = col_number(),
`COSTO DE IMPLEMENTACIÓN (CI)` = col_number(),
`MONTO A PAGAR (MP)` = col_number(),
`MP DESPUÉS DE RECLAMACIÓN` = col_number(),
RECAUDO = col_number()
)
)Antes de realizar cualquier análisis, se explora la base de datos
para comprender su estructura. Las funciones head(),
summary() y dim() permiten obtener una visión
general del contenido, el tamaño y la distribución de las variables.
Adicionalmente, colSums(is.na()) y sapply()
identifican la cantidad y porcentaje de valores faltantes por columna, y
names() lista los nombres de todas las variables
disponibles.
# Asignamos nombre corto para facilitar el trabajo
datostasaCF <- Datos_Tasa_compensatoria_por_Caza_de_Fauna
head(datostasaCF)Tipo de datos:
## spc_tbl_ [1,526 × 34] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ Año : chr [1:1526] "2,021" "2,021" "2,021" "2,021" ...
## $ Autoridad Ambiental : chr [1:1526] "CORTOLIMA" "CORTOLIMA" "CORTOLIMA" "CORTOLIMA" ...
## $ NOMBRE/RAZÓN SOCIAL : chr [1:1526] "UNVERSIDAD DEL TOLIMA" "UNVERSIDAD DEL TOLIMA" "UNVERSIDAD DEL TOLIMA" "UNVERSIDAD DEL TOLIMA" ...
## $ PERSONA NATURAL O JURÍDICA : chr [1:1526] "Persona jurídica" "Persona jurídica" "Persona jurídica" "Persona jurídica" ...
## $ REPRESENTANTE LEGAL : chr [1:1526] "Omar A. Mejía Patiño" "Omar A. Mejía Patiño" "Omar A. Mejía Patiño" "Omar A. Mejía Patiño" ...
## $ TIPO DE AUTORIZACIÓN / ENTIDAD QUE OTORGA : chr [1:1526] "Permiso / Autoridad Ambiental diferente a ANLA" "Permiso / Autoridad Ambiental diferente a ANLA" "Permiso / Autoridad Ambiental diferente a ANLA" "Permiso / Autoridad Ambiental diferente a ANLA" ...
## $ No. PERMISO/ LICENCIA AMBIENTAL/ SANCIONATORIO: chr [1:1526] "Resolución 3758 de 2016" "Resolución 3758 de 2016" "Resolución 3758 de 2016" "Resolución 3758 de 2016" ...
## $ FECHA DE OTORGAMIENTO : chr [1:1526] "2016-11-16T00:00:00.000" "2016-11-16T00:00:00.000" "2016-11-16T00:00:00.000" "2016-11-16T00:00:00.000" ...
## $ VIGENCIA (meses) : num [1:1526] 120 120 120 120 120 120 120 6 120 120 ...
## $ TIPO DE CAZA : chr [1:1526] "Científica estudios ambientales" "Científica estudios ambientales" "Científica estudios ambientales" "Científica estudios ambientales" ...
## $ VALOR TIPO DE CAZA : num [1:1526] 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 ...
## $ ESPECIE O GRUPO TAXONÓMICO : chr [1:1526] "Panthiades bitias" "Actinote anteas" "Altinote dicaeus" "Catasticta tomyris tomyris" ...
## $ ORDEN : chr [1:1526] "Lepidoptera" "Lepidoptera" "Lepidoptera" "Lepidoptera" ...
## $ CLASE : chr [1:1526] "Insecta" "Insecta" "Insecta" "Insecta" ...
## $ No. INDIVIDUOS y/o MUESTRAS APROBADOS : chr [1:1526] "No registra" "No registra" "No registra" "No registra" ...
## $ DEPARTAMENTO : chr [1:1526] "Tolima" "Tolima" "Tolima" "Tolima" ...
## $ MUNICIPIO : chr [1:1526] "Dolores, Natagaima, Prado, Purificación, Cunday,Cunday, Venadillo, Alvarado, Piedras, Ortega, Espinal, Guamo, A"| __truncated__ "Dolores, Natagaima, Prado, Purificación, Cunday,Cunday, Venadillo, Alvarado, Piedras, Ortega, Espinal, Guamo, A"| __truncated__ "Dolores, Natagaima, Prado, Purificación, Cunday,Cunday, Venadillo, Alvarado, Piedras, Ortega, Espinal, Guamo, A"| __truncated__ "Dolores, Natagaima, Prado, Purificación, Cunday,Cunday, Venadillo, Alvarado, Piedras, Ortega, Espinal, Guamo, A"| __truncated__ ...
## $ No. CERTIFICADO SiB : chr [1:1526] "1634DA1EAAC -16341C01996 -6321985BD7- 164F610CBDC- 16DBB9126D7- 16321A6F91C- 16321C92741- 16364C22A54- 1632181A"| __truncated__ "1634DA1EAAC -16341C01996 -6321985BD7- 164F610CBDC- 16DBB9126D7- 16321A6F91C- 16321C92741- 16364C22A54- 1632181A"| __truncated__ "1634DA1EAAC -16341C01996 -6321985BD7- 164F610CBDC- 16DBB9126D7- 16321A6F91C- 16321C92741- 16364C22A54- 1632181A"| __truncated__ "1634DA1EAAC -16341C01996 -6321985BD7- 164F610CBDC- 16DBB9126D7- 16321A6F91C- 16321C92741- 16364C22A54- 1632181A"| __truncated__ ...
## $ ESTADO DE CONSERVACIÓN DE LA ESPECIE : chr [1:1526] "Datos insuficientes (DD) o especies No evaluadas (NE)" "Datos insuficientes (DD) o especies No evaluadas (NE)" "Datos insuficientes (DD) o especies No evaluadas (NE)" "Datos insuficientes (DD) o especies No evaluadas (NE)" ...
## $ ESTADO DE CONSERVACIÓN DEL HÁBITAT : chr [1:1526] "Pobremente conservado" "Pobremente conservado" "Pobremente conservado" "Pobremente conservado" ...
## $ PRESIÓN POR USO : chr [1:1526] NA NA NA NA ...
## $ COEFICIENTE BIÓTICO (Cb) : num [1:1526] 1 1 1 1 1 1 1 1 1 1 ...
## $ NACIONALIDAD (N) : num [1:1526] 0 0 0 0 0 0 0 0 0 0 ...
## $ GRUPO TRÓFICO (Gt) : num [1:1526] 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.8 0.15 0.15 ...
## $ COEFICIENTE DE VALORACIÓN
## (V) : num [1:1526] 1 1 1 1 1 1 1 1 1 1 ...
## $ FACTOR REGIONAL (FR) : num [1:1526] 0.09 0.09 0.09 0.09 0.09 0.09 0.09 0.48 0.09 0.09 ...
## $ No. ESPECÍMENES O MUESTRAS (Es) : num [1:1526] 1 1 1 1 1 1 1 1 1 1 ...
## $ UNIDAD DE Es : chr [1:1526] "Individuo" "Individuo" "Individuo" "Individuo" ...
## $ TARIFA MÍNIMA (TM) : num [1:1526] 10903 10903 10903 10903 10903 ...
## $ COSTO DE IMPLEMENTACIÓN (CI) : num [1:1526] 29530 29530 29530 29530 29530 ...
## $ MONTO A PAGAR (MP) : num [1:1526] 981 981 981 981 981 ...
## $ RECLAMACIONES : chr [1:1526] "No" "No" "No" "No" ...
## $ MP DESPUÉS DE RECLAMACIÓN : num [1:1526] NA NA NA NA NA NA NA NA NA NA ...
## $ RECAUDO : num [1:1526] 981 981 981 981 981 ...
## - attr(*, "spec")=
## .. cols(
## .. Año = col_character(),
## .. `Autoridad Ambiental` = col_character(),
## .. `NOMBRE/RAZÓN SOCIAL` = col_character(),
## .. `PERSONA NATURAL O JURÍDICA` = col_character(),
## .. `REPRESENTANTE LEGAL` = col_character(),
## .. `TIPO DE AUTORIZACIÓN / ENTIDAD QUE OTORGA` = col_character(),
## .. `No. PERMISO/ LICENCIA AMBIENTAL/ SANCIONATORIO` = col_character(),
## .. `FECHA DE OTORGAMIENTO` = col_character(),
## .. `VIGENCIA (meses)` = col_number(),
## .. `TIPO DE CAZA` = col_character(),
## .. `VALOR TIPO DE CAZA` = col_number(),
## .. `ESPECIE O GRUPO TAXONÓMICO` = col_character(),
## .. ORDEN = col_character(),
## .. CLASE = col_character(),
## .. `No. INDIVIDUOS y/o MUESTRAS APROBADOS` = col_character(),
## .. DEPARTAMENTO = col_character(),
## .. MUNICIPIO = col_character(),
## .. `No. CERTIFICADO SiB` = col_character(),
## .. `ESTADO DE CONSERVACIÓN DE LA ESPECIE` = col_character(),
## .. `ESTADO DE CONSERVACIÓN DEL HÁBITAT` = col_character(),
## .. `PRESIÓN POR USO` = col_character(),
## .. `COEFICIENTE BIÓTICO (Cb)` = col_number(),
## .. `NACIONALIDAD (N)` = col_number(),
## .. `GRUPO TRÓFICO (Gt)` = col_number(),
## .. `COEFICIENTE DE VALORACIÓN
## .. (V)` = col_double(),
## .. `FACTOR REGIONAL (FR)` = col_number(),
## .. `No. ESPECÍMENES O MUESTRAS (Es)` = col_number(),
## .. `UNIDAD DE Es` = col_character(),
## .. `TARIFA MÍNIMA (TM)` = col_number(),
## .. `COSTO DE IMPLEMENTACIÓN (CI)` = col_number(),
## .. `MONTO A PAGAR (MP)` = col_number(),
## .. RECLAMACIONES = col_character(),
## .. `MP DESPUÉS DE RECLAMACIÓN` = col_number(),
## .. RECAUDO = col_number()
## .. )
## - attr(*, "problems")=<externalptr>
Tamaño (número de filas y número de columnas):
## [1] 1526 34
Nombres de las variables:
## [1] "Año"
## [2] "Autoridad Ambiental"
## [3] "NOMBRE/RAZÓN SOCIAL"
## [4] "PERSONA NATURAL O JURÍDICA"
## [5] "REPRESENTANTE LEGAL"
## [6] "TIPO DE AUTORIZACIÓN / ENTIDAD QUE OTORGA"
## [7] "No. PERMISO/ LICENCIA AMBIENTAL/ SANCIONATORIO"
## [8] "FECHA DE OTORGAMIENTO"
## [9] "VIGENCIA (meses)"
## [10] "TIPO DE CAZA"
## [11] "VALOR TIPO DE CAZA"
## [12] "ESPECIE O GRUPO TAXONÓMICO"
## [13] "ORDEN"
## [14] "CLASE"
## [15] "No. INDIVIDUOS y/o MUESTRAS APROBADOS"
## [16] "DEPARTAMENTO"
## [17] "MUNICIPIO"
## [18] "No. CERTIFICADO SiB"
## [19] "ESTADO DE CONSERVACIÓN DE LA ESPECIE"
## [20] "ESTADO DE CONSERVACIÓN DEL HÁBITAT"
## [21] "PRESIÓN POR USO"
## [22] "COEFICIENTE BIÓTICO (Cb)"
## [23] "NACIONALIDAD (N)"
## [24] "GRUPO TRÓFICO (Gt)"
## [25] "COEFICIENTE DE VALORACIÓN \n(V)"
## [26] "FACTOR REGIONAL (FR)"
## [27] "No. ESPECÍMENES O MUESTRAS (Es)"
## [28] "UNIDAD DE Es"
## [29] "TARIFA MÍNIMA (TM)"
## [30] "COSTO DE IMPLEMENTACIÓN (CI)"
## [31] "MONTO A PAGAR (MP)"
## [32] "RECLAMACIONES"
## [33] "MP DESPUÉS DE RECLAMACIÓN"
## [34] "RECAUDO"
Resumen de las variables:
## Año Autoridad Ambiental NOMBRE/RAZÓN SOCIAL
## Length:1526 Length:1526 Length:1526
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## PERSONA NATURAL O JURÍDICA REPRESENTANTE LEGAL
## Length:1526 Length:1526
## Class :character Class :character
## Mode :character Mode :character
##
##
##
##
## TIPO DE AUTORIZACIÓN / ENTIDAD QUE OTORGA
## Length:1526
## Class :character
## Mode :character
##
##
##
##
## No. PERMISO/ LICENCIA AMBIENTAL/ SANCIONATORIO FECHA DE OTORGAMIENTO
## Length:1526 Length:1526
## Class :character Class :character
## Mode :character Mode :character
##
##
##
##
## VIGENCIA (meses) TIPO DE CAZA VALOR TIPO DE CAZA
## Min. : 0.00 Length:1526 Min. :0.1000
## 1st Qu.: 6.00 Class :character 1st Qu.:0.6000
## Median : 24.00 Mode :character Median :0.6000
## Mean : 36.48 Mean :0.5965
## 3rd Qu.: 24.00 3rd Qu.:0.6000
## Max. :120.00 Max. :1.2000
##
## ESPECIE O GRUPO TAXONÓMICO ORDEN CLASE
## Length:1526 Length:1526 Length:1526
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## No. INDIVIDUOS y/o MUESTRAS APROBADOS DEPARTAMENTO MUNICIPIO
## Length:1526 Length:1526 Length:1526
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## No. CERTIFICADO SiB ESTADO DE CONSERVACIÓN DE LA ESPECIE
## Length:1526 Length:1526
## Class :character Class :character
## Mode :character Mode :character
##
##
##
##
## ESTADO DE CONSERVACIÓN DEL HÁBITAT PRESIÓN POR USO COEFICIENTE BIÓTICO (Cb)
## Length:1526 Length:1526 Min. :0.000
## Class :character Class :character 1st Qu.:1.000
## Mode :character Mode :character Median :1.000
## Mean :1.209
## 3rd Qu.:1.000
## Max. :5.000
##
## NACIONALIDAD (N) GRUPO TRÓFICO (Gt) COEFICIENTE DE VALORACIÓN \n(V)
## Min. :0 Min. :0.0000 Min. : 0.0000
## 1st Qu.:0 1st Qu.:0.8000 1st Qu.: 1.0000
## Median :0 Median :0.8000 Median : 1.0000
## Mean :0 Mean :0.7282 Mean : 0.9784
## 3rd Qu.:0 3rd Qu.:0.8000 3rd Qu.: 1.0000
## Max. :0 Max. :1.0000 Max. :20.0000
##
## FACTOR REGIONAL (FR) No. ESPECÍMENES O MUESTRAS (Es) UNIDAD DE Es
## Min. : 0.0000 Min. : 0.00 Length:1526
## 1st Qu.: 0.4800 1st Qu.: 1.00 Class :character
## Median : 0.4800 Median : 2.00 Mode :character
## Mean : 0.6805 Mean : 14.92
## 3rd Qu.: 0.4800 3rd Qu.: 5.00
## Max. :76.8000 Max. :7261.00
##
## TARIFA MÍNIMA (TM) COSTO DE IMPLEMENTACIÓN (CI) MONTO A PAGAR (MP)
## Min. : 9600 Min. :26000 Min. : 966
## 1st Qu.:10567 1st Qu.:28620 1st Qu.: 5433
## Median :10903 Median :29530 Median : 11278
## Mean :10961 Mean :29686 Mean : 59518
## 3rd Qu.:11318 3rd Qu.:30652 3rd Qu.: 40577
## Max. :11748 Max. :31817 Max. :7334339
## NA's :50 NA's :50 NA's :385
## RECLAMACIONES MP DESPUÉS DE RECLAMACIÓN RECAUDO
## Length:1526 Min. : 0 Min. : 981
## Class :character 1st Qu.: 6791 1st Qu.: 5433
## Mode :character Median : 16298 Median : 10865
## Mean : 41668 Mean : 37914
## 3rd Qu.: 38028 3rd Qu.: 31817
## Max. :1249507 Max. :1962540
## NA's :1012 NA's :565
Interpretación de la exploración inicial:
head(): Los primeros 6 registros
confirman que la carga fue exitosa. Se observan variables de tipo
carácter como Autoridad Ambiental, Tipo de Caza y Especie, y variables
numéricas como los coeficientes de valoración y el Monto a Pagar, lo que
es consistente con la especificación de tipos definida en la carga.
summary(): La variable MP (Monto a
Pagar) presenta una media muy superior a su mediana, lo que evidencia
una distribución fuertemente asimétrica hacia la derecha, con presencia
de valores extremos que elevan el promedio. La variable RECAUDO muestra
un comportamiento similar. La variable VIGENCIA (meses) oscila entre 0 y
120 meses, con una media de 36.48 meses, lo que indica una amplia
variedad en la duración de los permisos otorgados. La variable MP
DESPUÉS DE RECLAMACIÓN presenta 1.012 valores faltantes de 1.526,
indicando que aproximadamente el 66% de los permisos no tuvieron
reclamaciones.
dim(): El conjunto de datos tiene 1.526
filas y 34 columnas. Este tamaño muestral es adecuado para la aplicación
de técnicas estadísticas como el análisis de correlación y la regresión
lineal múltiple, permitiendo estimaciones estables de los coeficientes
del modelo.
names(): Las 34 variables cubren
información administrativa (autoridad, permiso, razón social), biológica
(especie, orden, clase, estado de conservación) y económica
(coeficientes, monto, recaudo), lo que refleja la naturaleza
multidimensional del sistema de liquidación de la tasa
compensatoria.
Conteo de NA por columna:
## Año
## 0
## Autoridad Ambiental
## 0
## NOMBRE/RAZÓN SOCIAL
## 0
## PERSONA NATURAL O JURÍDICA
## 0
## REPRESENTANTE LEGAL
## 42
## TIPO DE AUTORIZACIÓN / ENTIDAD QUE OTORGA
## 0
## No. PERMISO/ LICENCIA AMBIENTAL/ SANCIONATORIO
## 0
## FECHA DE OTORGAMIENTO
## 0
## VIGENCIA (meses)
## 0
## TIPO DE CAZA
## 0
## VALOR TIPO DE CAZA
## 0
## ESPECIE O GRUPO TAXONÓMICO
## 0
## ORDEN
## 4
## CLASE
## 4
## No. INDIVIDUOS y/o MUESTRAS APROBADOS
## 405
## DEPARTAMENTO
## 0
## MUNICIPIO
## 0
## No. CERTIFICADO SiB
## 0
## ESTADO DE CONSERVACIÓN DE LA ESPECIE
## 383
## ESTADO DE CONSERVACIÓN DEL HÁBITAT
## 352
## PRESIÓN POR USO
## 866
## COEFICIENTE BIÓTICO (Cb)
## 0
## NACIONALIDAD (N)
## 0
## GRUPO TRÓFICO (Gt)
## 0
## COEFICIENTE DE VALORACIÓN \n(V)
## 0
## FACTOR REGIONAL (FR)
## 0
## No. ESPECÍMENES O MUESTRAS (Es)
## 0
## UNIDAD DE Es
## 0
## TARIFA MÍNIMA (TM)
## 50
## COSTO DE IMPLEMENTACIÓN (CI)
## 50
## MONTO A PAGAR (MP)
## 385
## RECLAMACIONES
## 0
## MP DESPUÉS DE RECLAMACIÓN
## 1012
## RECAUDO
## 565
# Porcentaje de NA por columna
porcentaje_na <- sapply(datostasaCF,function(x) mean(is.na(x))*100)
porcentaje_na## Año
## 0.0000000
## Autoridad Ambiental
## 0.0000000
## NOMBRE/RAZÓN SOCIAL
## 0.0000000
## PERSONA NATURAL O JURÍDICA
## 0.0000000
## REPRESENTANTE LEGAL
## 2.7522936
## TIPO DE AUTORIZACIÓN / ENTIDAD QUE OTORGA
## 0.0000000
## No. PERMISO/ LICENCIA AMBIENTAL/ SANCIONATORIO
## 0.0000000
## FECHA DE OTORGAMIENTO
## 0.0000000
## VIGENCIA (meses)
## 0.0000000
## TIPO DE CAZA
## 0.0000000
## VALOR TIPO DE CAZA
## 0.0000000
## ESPECIE O GRUPO TAXONÓMICO
## 0.0000000
## ORDEN
## 0.2621232
## CLASE
## 0.2621232
## No. INDIVIDUOS y/o MUESTRAS APROBADOS
## 26.5399738
## DEPARTAMENTO
## 0.0000000
## MUNICIPIO
## 0.0000000
## No. CERTIFICADO SiB
## 0.0000000
## ESTADO DE CONSERVACIÓN DE LA ESPECIE
## 25.0982962
## ESTADO DE CONSERVACIÓN DEL HÁBITAT
## 23.0668414
## PRESIÓN POR USO
## 56.7496723
## COEFICIENTE BIÓTICO (Cb)
## 0.0000000
## NACIONALIDAD (N)
## 0.0000000
## GRUPO TRÓFICO (Gt)
## 0.0000000
## COEFICIENTE DE VALORACIÓN \n(V)
## 0.0000000
## FACTOR REGIONAL (FR)
## 0.0000000
## No. ESPECÍMENES O MUESTRAS (Es)
## 0.0000000
## UNIDAD DE Es
## 0.0000000
## TARIFA MÍNIMA (TM)
## 3.2765400
## COSTO DE IMPLEMENTACIÓN (CI)
## 3.2765400
## MONTO A PAGAR (MP)
## 25.2293578
## RECLAMACIONES
## 0.0000000
## MP DESPUÉS DE RECLAMACIÓN
## 66.3171691
## RECAUDO
## 37.0249017
Porcentaje de NA por columna:
## Año
## 0.0000000
## Autoridad Ambiental
## 0.0000000
## NOMBRE/RAZÓN SOCIAL
## 0.0000000
## PERSONA NATURAL O JURÍDICA
## 0.0000000
## REPRESENTANTE LEGAL
## 2.7522936
## TIPO DE AUTORIZACIÓN / ENTIDAD QUE OTORGA
## 0.0000000
## No. PERMISO/ LICENCIA AMBIENTAL/ SANCIONATORIO
## 0.0000000
## FECHA DE OTORGAMIENTO
## 0.0000000
## VIGENCIA (meses)
## 0.0000000
## TIPO DE CAZA
## 0.0000000
## VALOR TIPO DE CAZA
## 0.0000000
## ESPECIE O GRUPO TAXONÓMICO
## 0.0000000
## ORDEN
## 0.2621232
## CLASE
## 0.2621232
## No. INDIVIDUOS y/o MUESTRAS APROBADOS
## 26.5399738
## DEPARTAMENTO
## 0.0000000
## MUNICIPIO
## 0.0000000
## No. CERTIFICADO SiB
## 0.0000000
## ESTADO DE CONSERVACIÓN DE LA ESPECIE
## 25.0982962
## ESTADO DE CONSERVACIÓN DEL HÁBITAT
## 23.0668414
## PRESIÓN POR USO
## 56.7496723
## COEFICIENTE BIÓTICO (Cb)
## 0.0000000
## NACIONALIDAD (N)
## 0.0000000
## GRUPO TRÓFICO (Gt)
## 0.0000000
## COEFICIENTE DE VALORACIÓN \n(V)
## 0.0000000
## FACTOR REGIONAL (FR)
## 0.0000000
## No. ESPECÍMENES O MUESTRAS (Es)
## 0.0000000
## UNIDAD DE Es
## 0.0000000
## TARIFA MÍNIMA (TM)
## 3.2765400
## COSTO DE IMPLEMENTACIÓN (CI)
## 3.2765400
## MONTO A PAGAR (MP)
## 25.2293578
## RECLAMACIONES
## 0.0000000
## MP DESPUÉS DE RECLAMACIÓN
## 66.3171691
## RECAUDO
## 37.0249017
Interpretación de los datos faltantes:
Se detectaron valores faltantes principalmente en TARIFA MÍNIMA (TM), COSTO DE IMPLEMENTACIÓN (CI), MONTO A PAGAR (MP) (~25%) y MP DESPUÉS DE RECLAMACIÓN (~66%).
Los faltantes en MP son los más críticos para el análisis, ya que corresponden a la variable dependiente del estudio. Los faltantes en las demás variables tienen un impacto bajo dado que están por debajo del 5%.
De las 34 variables disponibles en el conjunto de datos, se seleccionan únicamente las 6 que participan directamente en la fórmula de cálculo de la tasa compensatoria. Se renombran con nombres cortos para facilitar el análisis posterior. La variable MP actúa como variable dependiente (Y) y las demás como variables independientes (X).
tabla_analisis <- dplyr::select(datostasaCF,
"MONTO A PAGAR (MP)", # Variable depediente
"FACTOR REGIONAL (FR)",
"COEFICIENTE BIÓTICO (Cb)",
"GRUPO TRÓFICO (Gt)",
"COEFICIENTE DE VALORACIÓN \n(V)",
"No. ESPECÍMENES O MUESTRAS (Es)"
)
#Renombrar columnas
colnames(tabla_analisis) <- c("MP", "FR", "Cb", "Gt", "V", "Es")
#Vista previa
head(tabla_analisis)Resumen de variables seleccionadas:
## MP FR Cb Gt
## Min. : 966 Min. : 0.0000 Min. :0.000 Min. :0.0000
## 1st Qu.: 5433 1st Qu.: 0.4800 1st Qu.:1.000 1st Qu.:0.8000
## Median : 11278 Median : 0.4800 Median :1.000 Median :0.8000
## Mean : 59518 Mean : 0.6805 Mean :1.209 Mean :0.7282
## 3rd Qu.: 40577 3rd Qu.: 0.4800 3rd Qu.:1.000 3rd Qu.:0.8000
## Max. :7334339 Max. :76.8000 Max. :5.000 Max. :1.0000
## NA's :385
## V Es
## Min. : 0.0000 Min. : 0.00
## 1st Qu.: 1.0000 1st Qu.: 1.00
## Median : 1.0000 Median : 2.00
## Mean : 0.9784 Mean : 14.92
## 3rd Qu.: 1.0000 3rd Qu.: 5.00
## Max. :20.0000 Max. :7261.00
##
## [1] 1526 6
Datos faltantes en variables seleccionadas:
## MP FR Cb Gt V Es
## 385 0 0 0 0 0
## MP FR Cb Gt V Es
## 25.22936 0.00000 0.00000 0.00000 0.00000 0.00000
Interpretación:
Se seleccionaron 6 variables de las 34 disponibles, todas directamente vinculadas a la fórmula normativa de cálculo de la tasa compensatoria. La variable MP actúa como variable dependiente (Y) y representa el resultado económico del proceso de liquidación. Las variables FR, Cb, Gt, V y Es actúan como variables independientes (X) y corresponden a los factores técnicos y ecológicos que determinan el monto. Tras renombrar las columnas, el subconjunto conserva las 1.526 filas originales, con valores faltantes únicamente en MP (~25%), los cuales serán eliminados antes del análisis para garantizar la integridad de los resultados.
Se identifican y visualizan las filas donde la variable dependiente MP no tiene valor registrado. Estas observaciones no pueden usarse en el análisis de correlación ni en el modelo de regresión, por lo que serán eliminadas en el paso siguiente.
Se eliminan todas las filas con valores faltantes mediante
na.omit(), obteniendo un conjunto de datos completo listo
para el análisis. La función describe() del paquete
psych entrega estadísticos descriptivos avanzados
incluyendo media, desviación estándar, asimetría y curtosis.
#Eliminar filas con valores faltantes
tabla_analisis <- na.omit(tabla_analisis)
# Configurar para ver números normales y no científicos
options(scipen = 999)
resumen_estadistico <- describe(tabla_analisis)
round(resumen_estadistico, 2)Interpretación:
Tras aplicar na.omit(), el conjunto de análisis quedó con 1.141 observaciones completas, eliminando 385 filas que contenían al menos un valor faltante en alguna de las variables seleccionadas. La función describe() revela que la variable MP tiene una media de $59.518 COP con una desviación estándar muy elevada, confirmando la alta variabilidad y la presencia de valores extremos. La variable Es presenta la mayor dispersión relativa de todas las variables, con un rango que va desde 0 hasta 7.261 especímenes, lo que la convierte en el predictor con mayor variabilidad y, posiblemente, con mayor capacidad explicativa sobre el monto final..
La función describe() del paquete psych
genera una tabla completa con los principales estadísticos de cada
variable: número de observaciones, media, desviación estándar, mediana,
mínimo, máximo, asimetría y curtosis. Complementariamente,
sd() calcula la desviación estándar individual de cada
variable para facilitar su comparación.
Tabla completa de estadisticos descriptivos y desviaciones estándar de las variables:
Desviación estándar monto a pagar (MP):
## [1] 275134.5
Desviación estándar factor regional (FR):
## [1] 2.41303
Desviación estándar coeficiente biótico (Cb):
## [1] 0.9098222
Desviación estándar grupo trófico (Gt):
## [1] 0.2600076
Desviación estándar coeficiente de valoración (V):
## [1] 0.5639674
Desviación estándar número de especímenes autorizados (Es):
## [1] 233.793
Interpretación de los estadísticos descriptivos:
La variable MP (Monto a pagar) presenta una media de $59.518 COP con una desviación estándar muy elevada, indicando una variabilidad extrema entre permisos. Su asimetría positiva pronunciada sugiere que la mayoría de los permisos generan montos bajos, mientras que un grupo reducido de permisos con muchos especímenes genera montos muy altos que elevan considerablemente el promedio.
La variable Es (Número de especímenes) muestra una media de 14.92 con una desviación estándar altísima, reflejo de permisos que van desde 1 espécimen hasta más de 7.000. Esta variabilidad hace de Es el predictor con mayor potencial explicativo del monto a pagar.
La variable FR (Factor regional) tiene una media de 0.68 con valores entre 0 y 76.8, lo que indica que la mayoría de los permisos se otorgan en regiones con presión ecológica moderada, aunque existen casos extremos en regiones de alta intervención.
Las variables Cb (Coeficiente biótico) y V (Coeficiente de valoración) presentan medias cercanas a 1, con poca dispersión, dado que sus valores están definidos normativamente en rangos acotados. Gt (Grupo trófico) tiene una media de 0.73, con la mayoría de los valores concentrados en 0.80, correspondiente a mamíferos y aves que ocupan niveles tróficos superiores.
En conjunto, la alta variabilidad de MP y Es, combinada con la menor dispersión de los coeficientes normativos, sugiere que el número de especímenes es el factor con mayor influencia práctica sobre el monto final.
La representación gráfica permite identificar visualmente la distribución, tendencia, dispersión y posibles relaciones entre variables. Se utilizan histogramas para variables cuantitativas continuas, diagramas de caja para detectar valores atípicos, diagramas de barras para variables categóricas y tablas cruzadas para analizar relaciones entre categorías.
El histograma divide el rango de los datos en intervalos y representa la frecuencia de cada uno mediante barras. Permite identificar la forma de la distribución: si es simétrica, sesgada, unimodal o multimodal. Se genera un histograma para cada variable cuantitativa del análisis.
ggplot(tabla_analisis, aes(x = MP)) +
geom_histogram(fill = "#21618C", color = "black", bins = 30) +
scale_x_log10(labels = scales::comma) + # Se transforma el eje X con log10
theme_minimal() +
labs(title = "Monto a pagar (MP) (Escala Logarítmica)")ggplot(tabla_analisis, aes(x = Es)) +
geom_histogram(fill = "#2E86C1", color = "black", bins = 30) +
scale_x_log10(labels = scales::comma) + # Se transforma el eje X con log10
theme_minimal() +
labs(title = "Número de especímenes (Es) (Escala Logarítmica)")ggplot(tabla_analisis, aes(x = FR)) +
geom_histogram(fill = "#F1C40F", color = "black", bins = 30) +
scale_x_log10(labels = scales::comma) + # Se transforma el eje X con log10
theme_minimal() +
labs(title = "Factor Regional (FR) (Escala Logarítmica)")ggplot(tabla_analisis, aes(x = Cb)) +
geom_histogram(fill = "#5499C7", color = "black", bins = 30) +
scale_x_log10(labels = scales::comma) + # Se transforma el eje X con log10
theme_minimal() +
labs(title = "Coeficiente Biótico (Cb) (Escala Logarítmica)")ggplot(tabla_analisis, aes(x = V)) +
geom_histogram(fill = "#154360", color = "black", bins = 30) +
scale_x_log10(labels = scales::comma) + # Se transforma el eje X con log10
theme_minimal() +
labs(title = "Coeficiente de Valoración (V) (Escala Logarítmica)")Interpretación de los histogramas:
Se aplicó transformación logarítmica (scale_x_log10) en todos los histogramas dado que las variables presentan rangos muy amplios y distribuciones asimétricas que en escala lineal comprimían la mayoría de los datos en un extremo, impidiendo una visualización adecuada.
MP (Monto a pagar): En escala logarítmica se observa una distribución con concentración entre $5.000 y $10.000 COP, con una cola hacia valores superiores al millón. Esto confirma que la mayoría de los permisos generan montos relativamente bajos, mientras que un grupo pequeño de permisos con grandes cantidades de especímenes genera montos extremadamente altos. La distribución es claramente asimétrica positiva incluso en escala logarítmica.
Es (Número de especímenes): La gran mayoría de los permisos autorizan entre 1 y 10 especímenes, con frecuencias decrecientes a medida que aumenta el número. Los casos con más de 100 especímenes son excepcionales pero existen, y son los responsables de los montos más altos del conjunto de datos.
FR (Factor regional): Los valores se concentran en dos picos principales alrededor de 0.48 y 1.0, que corresponden a las categorías normativas más frecuentes. La escala logarítmica revela también la presencia de valores en el rango 0.01–100, lo que refleja la diversidad de condiciones ecológicas regionales representadas en los datos.
Cb (Coeficiente biótico): La distribución muestra que la inmensa mayoría de los registros (más del 85%) tienen Cb = 1, con una minoría en valores 3 y 5. Esto indica que la mayoría de las especies autorizadas para caza no presentan alto grado de vulnerabilidad según los criterios normativos.
V (Coeficiente de valoración): Casi la totalidad de los valores se concentra en V = 1.0, con muy pocos registros en valores distintos. Esto refleja que la caza científica, a la que le corresponde este coeficiente, es la modalidad ampliamente dominante en el conjunto de datos analizados.
El diagrama de caja y bigotes resume cinco estadísticos clave: valor mínimo, primer cuartil (Q1), mediana (Q2), tercer cuartil (Q3) y valor máximo. Los puntos por fuera de los bigotes representan valores atípicos (outliers). Es especialmente útil para detectar la presencia de datos extremos y evaluar la simetría de la distribución.
ggplot(tabla_analisis, aes(x = "", y = MP)) +
geom_boxplot(fill = "#2E86C1", alpha = 0.7, outlier.color = "#154360", outlier.shape = 1, outlier.size = 2, outlier.alpha = 0.5) +
# Transformación logarítmica y formato de moneda/comas
scale_y_log10(labels = scales::label_comma()) +
theme_minimal() +
labs(title = "Distribución del Monto a Pagar (MP)",
subtitle = "Escala logarítmica para visualizar la dispersión de valores atípicos",
x = "",
y = "Monto a Pagar (COP)")Interpretación del diagrama de caja y bigotes:
Se aplicó escala logarítmica en el eje Y (scale_y_log10) dado que en escala lineal los valores extremos de MP comprimían completamente la caja, haciendo ilegible el gráfico. En escala logarítmica se aprecia que el rango intercuartílico (caja) se ubica aproximadamente entre $10.000 y $30.000 COP, con la mediana cercana a $11.000 COP. Los bigotes se extienden desde aproximadamente $1.000 hasta $100.000 COP, cubriendo el rango no atípico de los datos. Los puntos por encima del bigote superior corresponden a outliers que superan el millón de pesos, asociados a permisos con un número muy elevado de especímenes autorizados. La asimetría positiva sigue siendo evidente incluso en escala logarítmica, lo que refuerza la necesidad de considerar transformaciones de variables antes del modelamiento de regresión.
El análisis de correlación mide la fuerza y dirección de la relación
lineal entre las variables cuantitativas seleccionadas. Se calcula la
matriz de correlación de Pearson con cor(), se redondea a
dos decimales para facilitar su lectura, y se visualiza mediante
corrplot(). Posteriormente, pairs() y
ggpairs() permiten explorar gráficamente las relaciones
entre todas las variables simultáneamente.
## MP FR Cb Gt V Es
## MP 1.00 0.18 0.10 -0.02 0.17 0.85
## FR 0.18 1.00 0.41 0.11 0.93 -0.02
## Cb 0.10 0.41 1.00 0.14 0.08 -0.02
## Gt -0.02 0.11 0.14 1.00 0.01 -0.12
## V 0.17 0.93 0.08 0.01 1.00 0.00
## Es 0.85 -0.02 -0.02 -0.12 0.00 1.00
#Visualización de correlaciones
corrplot(matriz_cor,method = "color", addCoef.col = "black",main= "Matriz de correlaciones (Taza caza)", mar = c(0, 0, 1, 0))El diagrama de dispersión representa visualmente la relación entre cada par de variables mediante puntos en un plano cartesiano. Es una herramienta fundamental antes de aplicar el modelo de regresión, ya que permite detectar la dirección, forma e intensidad de las asociaciones entre variables.
La función ggpairs() del paquete GGally
genera una matriz gráfica completa que combina en un solo panel: las
distribuciones individuales de cada variable (diagonal), los diagramas
de dispersión entre pares (triángulo inferior) y los coeficientes de
correlación exactos (triángulo superior). Es la visualización más
completa para el análisis multivariado.
Interpretación de la matriz de correlación:
La matriz de correlación permite analizar la relación lineal entre las variables cuantitativas del estudio. En particular, se observa que la variable MP presenta la correlación positiva más fuerte con Es (número de especímenes), lo que indica que a mayor número de individuos o muestras autorizados, mayor es el monto a pagar. Esta relación es la más relevante del conjunto y es consistente con la fórmula normativa, donde Es actúa como factor multiplicador directo del monto.
La correlación entre MP y FR (Factor regional) es positiva moderada, lo que indica que los permisos otorgados en regiones con mayor presión ecológica tienden a generar montos más elevados, aunque con menor intensidad que el número de especímenes. La relación de MP con Cb (Coeficiente biótico) es también positiva, reflejando que las especies más vulnerables conllevan tasas más altas. Las variables Gt y V presentan correlaciones más bajas con MP, sugiriendo menor poder explicativo individual, aunque siguen siendo parte de la fórmula de cálculo.
En cuanto a las relaciones entre variables explicativas, las correlaciones son en general bajas, lo que sugiere ausencia de problemas graves de multicolinealidad. Esto es una condición favorable para la estabilidad en la estimación de los coeficientes en el modelo de regresión lineal, ya que indica que cada variable aporta información independiente sobre el monto a pagar.
En conjunto, estos resultados indican que Es y, en menor medida, FR y Cb, son las variables con mayor potencial explicativo del monto a pagar (MP). La baja correlación entre las variables independientes favorece la construcción de un modelo de regresión estable e interpretable.
Rangos de referencia:
La prueba cor.test() evalúa formalmente si la
correlación entre dos variables es estadísticamente significativa. Se
plantean una hipótesis nula (H₀) y una hipótesis alternativa (H₁). Si el
p-value obtenido es menor a 0.05, se rechaza H₀ y se concluye que existe
evidencia de relación lineal entre las variables. Se evalúa la
correlación entre Es y MP por ser la
relación más relevante del estudio.
##
## Pearson's product-moment correlation
##
## data: tabla_analisis$Es and tabla_analisis$MP
## t = 54.559, df = 1139, p-value < 0.00000000000000022
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8335486 0.8657489
## sample estimates:
## cor
## 0.8504434
Hipótesis:
Interpretación: Si p-value < 0.05, se rechaza H₀ y se concluye que existe evidencia estadística de una relación lineal significativa entre el número de especímenes autorizados y el monto a pagar por concepto de la tasa compensatoria.