1 Introducción

Los mapas de cobertura son estratégicos para las entidades territoriales como soporte para el desarrollo de las políticas públicas, los gobiernos locales requieren estimar las áreas en cultivos y las producciones de estos. Recolectar esta información en campo es costoso por tal razón la teledetección se ha convertido en una herramienta eficaz para proporcionar información espacial y temporal de la cobertura de la tierra en grandes extensiones (Kobayashi, Tani, Wang, & Sonobe, 2020).

El presente ejercicio se realiza para evaluar el desempeño de la clasificación supervisada y no supervisadas en el software R-project. Igualmente se explora esta herramienta la cual tiene como mayor potencialidad la ejecución secuencial de proceso.

2 Datos y métodos

2.1 Área de estudio

El municipio de Viotá está ubicado al sur occidente del Departamento de Cundinamarca, sobre el piedemonte de la Cordillera Oriental, a 86 km de Bogotá. Tiene una superficie total de 20.800 hectáreas, de las cuales 20.667 son rurales y urbanas 133. Del área rural aproximadamente las cuales 14.560 Hectáreas corresponden a pequeños productores con minifundios menores de 5 Hectáreas y el resto a explotaciones mayores. El 67.8% del sector rural se dedica exclusivamente a labores agrícolas, donde históricamente ha predominado el cultivo del café, actualmente, se estiman aproximadamente 4.818 Hectáreas sembradas entre los 1000 y los 2000 msnm. El segundo puesto lo ocupa el cultivo de plátano, se calculan aproximadamente 700 ha sembradas con este producto, generalmente en asociación con el café. Los cítricos también ocupan un puesto importante dentro la economía del municipio, se calculan aproximan 923 ha sembradas. En las zonas de menor altura del municipio se calculan aproximadamente 850 ha sembradas de maíz. Otros cultivos en los que se basa la economía se encuentran: el Mango con aproximadamente 450 ha, El Aguacate con aproximadamente 400 ha, El Cacao con aproximadamente 272 ha, la caña panelera con aproximadamente 200 ha. Adicionalmente, con el fin de aliviar la necesidad alimentaria de las propias familias campesinas se produce en menor escala ahuyama, yuca, guayaba, guanábana, tomate, arveja, frijol.

2.2 Datos

En el desarrollo de este ejercicio se usó la imagen Landsat 8 capturada el 4 de junio del 2015 (LC80080572015004LGN01), la cual corresponde a PATH 8 y ROW 57, como se observa en la figura 1; La imagen se seleccionó usando como criterio, un porcentaje de nubosidad menor al 20%, dato disponible en el metadato de la imagen. Por otro lado, se usó el polígono del límite del municipio de Viotá para definir el marco espacial del proyecto, la información se obtuvo en el Instituto Geográfico Agustín Codazzi (IGAC).

Figura 1. Imagen LC80080572015004LGN01. a) combinación de las bandas 4,3,2, mostrando una composición en color verdadero. y b) combinación de las bandas 5,4,3, mostrando una composición en falso color.

2.3 Métodos

En la metodologia empleada para el desarrollo de este ejercisio se resumen en la figura 2.

...

Figura 2. Metodología usada par ala clasificación supervisada y no supervisada

2.3.1 Preparación de los datos

Los productos Landsat 8 estándar proporcionados por la USGS EROS en Números Digitales (DN), por tanto es necesario conertirlos a niveles de reflectancia (TOA) usando los datos proporcionados en el metadato, los cuales se encuentran en el archivo .MTL.

La conversión se hace usando la siguiente expresión:

TOA_BAND_x= (RERREFLECTANCE_MULT_BAND_x * DN_Band_x + REFLECTANCE_ADD_BAND_x ) / (Sin(SUN_ELEVATION))

Teniendo cada una de las bandas en valores de reflectancia se realizó el apilamiento de la las bandas en un stack, posteriormente se realizó el corte de la imagen tomando como referencia el limite del municipio de Viotá. En la figura 3, se muestra el resultado del corte.

Figura 3. Composición en color verdadero del área de estudio.

2.3.2 Análisis estadístico exploratorio

En la figura 2. se muestra la correlacion entre las bandas, se evidenciad que las bandas del visible poseen una alta correlacion entre ella (por encima de 0.95), igualmente presentan el mismo comportamiento con la banda de Aerosol. al contrario del las bandas visibles, las bandas de los infrarojos y de los infrarojos de onda corta presentan menor correlación entre ellas.Particularmente la banda 5 (NIR) presenta la menor correlacion con respecto a las primeras Ultra.blue, blue, green, red.

Figura 4. Correlación de las bandas de las imágenes.

2.3.3 Clasificación No-Supervisada

La clasificación no supervisada, se basa en el análisis automático de cambio en otras palabras no su usan muestras de entrenamiento. Dentro de los análisis se encuentran: 1) diferenciación de imágenes; 2) índice de vegetación de diferencia normalizada (NDVI); 3) análisis de vectores de cambio; 4) análisis de componentes principales (PCA); y 5) racionamiento de imágenes. Para el caso de este ejercicio se usó el NDVI (Turgay, 2009).

2.3.3.1 Índice de Vegetación de Diferencia Normalizada (NDVI)

El índice NDVI es comúnmente usado en la teledetección, se calcula operando la banda roja (ρ_red) y la banda del infrarrojo cercano (ρ_nir).Los resultados positivos del NDVI indican la presencia de vegetación, mientras que los resultados negativos o cercanos a cero indican la presencia de cuerpos de agua o zonas urbanas (Ranjan et al., 2019). El NDVI esta dado por la siguiente expresión:

NDVI= (ρ_nir- ρ_red)/(ρ_nir+ ρ_red )

En la figura 5 se observa el resultado del NDVI para el área de estudio, se puede evidenciar que el área del municipio en el municipio en su mayoría tiene un NDVI por encima de 0.6 esto indica que es un que la presencia de coberturas Vegetales, igualmete se puede diferenciar claramente el area de la cabecera municipal. la anterior afirmacón es reforzada se confirma en la grafica 6, donde se evidencia que el NDVI con mayor frecuencia esta entre el 0,75 y 0,8.

Figura 5. Índice del NDVI de área de estudio.

Figura 6. Distribución del índice del NDVI.

2.3.3.2 Umbrales de Vegetación

Partiendo del resultado del índice de vegetación se seleccionó los valores por encima de 0.4, Se pude afirmar que estos corresponde a algún tipo de vegetación.

Figura 7. Umbrales de vegetación.

A partir del NDVI se generó una reclasificación. Se definieron cinco categorías tomando como referencia el diagrama de frecuencias, las categorías son: 1 (0 - 0,4), 2 (0,4-0,6), 3(0,6-0,75), 4(0,75-0,8), 5(0,85-1), cada categoría puede identificar las cantidades de presencia de vegetación.

Figura 8. NDVI basado del umbral de vegetación.

2.3.3.3 Análisis de Componentes Principales (PCA)

2.3.3.3.1 Tabla
## Standard deviations (1, .., p=7):
## [1] 2.39089419 0.99330150 0.51763694 0.12532089 0.09187308 0.06141365 0.03333845
## 
## Rotation (n x k) = (7 x 7):
##                  PC1         PC2         PC3        PC4         PC5
## ultra.blue 0.3960808  0.26618190  0.32504988  0.5387090 -0.04992658
## blue       0.3993905  0.26111589  0.26479799  0.2804170 -0.15592293
## green      0.4126888  0.11583126  0.15461458 -0.4942850  0.43636413
## red        0.4064785  0.22493363 -0.03278522 -0.4427201  0.09008574
## NIR        0.2297685 -0.79893274  0.50349220 -0.1105685 -0.18580551
## SWIR1      0.3660851 -0.39494007 -0.53024664  0.3948105  0.50934351
## SWIR2      0.4015702 -0.05179272 -0.51437162 -0.1507960 -0.69333382
##                      PC6         PC7
## ultra.blue  0.0348734333 -0.61048638
## blue       -0.0009762735  0.77410668
## green       0.5968681594 -0.03718242
## red        -0.7547295976 -0.09680844
## NIR        -0.0911427836 -0.01877273
## SWIR1      -0.0792325547  0.08519739
## SWIR2       0.2415154666 -0.09848763

Tabla 1. Análisis de componentes principales

El análisis de componente principales se realiza para reducir la dimensionalidad y el ruido de los datos. Genera un conjunto de bandas no correlacionadas a partir de unas bandas correlacionadas. La primera banda indica la mayor varianza y decrece conforma aumenta el número de banda como se observa en la tabla 1.

2.3.3.3.2 Grafica

Figura 9. NDVI basado del umbral de vegetación.

La figura 9. indica como la primera banda 1 (PC1) tiene mayor frecuencia y mayor varianza.

2.3.3.3.3 Ubicación PC1

Figura 10. Ubicación espacial del PC1

El primer componente principal resalta los límites entre las clases de uso de la tierra o los detalles espaciales, que es la información más común entre todas las longitudes de onda (Spatial Data Science)

2.3.3.4 Clasificación con K-Means

El algoritmo K-Means reparte un conjunto de pixeles en grupos, en el que cada pixel pertenece al grupo cuyo valor medio sea más cercano. En este ejercicio se usaron 10 aprupaciones (Celik, 2009).

Figura 9. Resultado de la clasificación No-Supervisada

2.3.4 Clasificación Supervisada

La clasificación supervisada requiere de uno datos de entrenamiento en los cuales se basará el algoritmo para obtener la clasificación. En el desarrollo de este ejercicio se uso el algoritmo CART, el cual se basa en un árbol de decisión o clasificación dicotómico. Cada camino a través del árbol es definido por dos divisiones en cada nodo, la decisión tomada en cada nodo conduce a una clase más probable. (ManojKumar, Sugumaran, & Zerr, 2002).

La clasificacion supervisada requiere de uno datos de entrenmiento en los cuales sse basara el el algoritmo para obtener la clasificacion

2.3.4.1 Muestras de Entrenamiento

El análisis del perfil espectral busca conocer el comportamiento coberturas de la imagen. Para ello se definieron siete tipos de coberturas y de cada una se extrajeron muestras las cuales fueron analizadas y en base a estas se contruyó el perfil espectral. La Tabla 1 presenta el número de muestras por cada tipo de cobertura.

##                  blue      green       red       NIR      SWIR1      SWIR2
## Bosque     0.05355444 0.04158778 0.0244800 0.1776422 0.07429556 0.02986111
## Construido 0.10037000 0.09791500 0.1056850 0.1766100 0.20520500 0.16258000
## Cultivo    0.05926000 0.05084200 0.0339580 0.2431300 0.11781000 0.05300800
## Nubes      0.27994858 0.27987143 0.2860257 0.4063543 0.35746571 0.28536857
## Pastos     0.06300800 0.06244300 0.0425040 0.2760440 0.15007100 0.06943700

Tabla 2. Análisis de perfiles espectrales

La figura 10, muestra el perfil espectral como las muestras de entrenamiento de bosques, pastos y cultivos tienen un comportamiento espectral similar, por tanto, puede generar confusión y errores en el momento de la clasificación.

Figura 10. Perfil Espectral

2.3.4.2 Árbol de clasificación

El arbol de decion permite entrenar el algoritmo de clasificación usando el conjunto de datos de entrenamiento.

Figura 11. Árbol de decisión.

2.3.4.3 Clasificación con el algoritmo CART

Como se dijo anteriormente en esta clasificación se usó el algoritmo CART, a partir del cual se generó el resultado mostrado en la figura 12.

Figura 12. Resultado de la clasificación supervisada

## Warning in kfold(sampdata, k = 5, by = sampdata$classvalue): lowered k for by
## group: 2 because the number of observations was 4

Conforme al resultado de la matriz de confusión se puede observar que la cobertura cultivo tiende a confundirse con los pastos y bosques. Si se analiza el contexto de la regio esto se puede presentar porque el cultivo predominante del municipio es el café el cual tradicionalmente se ha sembrado bajo sombra. Igualmente, existen muchas áreas cerca a la cabecera municipal en rastrojo lo que puede generar confusión entre pastos y cultivos.

##             predicted
## observed     Bosque Construido Cultivo Pasto Nubes
##   Bosque         12          0       5     1     0
##   Construido      0          3       0     0     1
##   Cultivo         3          0       4     3     0
##   Pasto           0          0       4    16     0
##   Nubes           0          1       0     0     6

Tabla 3. Matriz de confusión

la validación permite ver que en general existió un 69 % de precisión en los tipos de clases de coberturas analizadas. de acuerdo con este resultado es necesario considerar aumentar o verificar las muestras de entrenamiento.

## [1] 59
## [1] 0.6949153

Kappa:

## [1] 0.5940367

comparando los índices de calidad del productor y del usuario, se observa que la cobertura con menor calidad es la de cultivo, consistente con los anteriores resultados donde esta cobertura tiende a confundirse con las coberturas de bosque y pastos.

##            productor   Usuario
## Bosque     0.8000000 0.6666667
## Construido 0.7500000 0.7500000
## Cultivo    0.3076923 0.4000000
## Pasto      0.8000000 0.8000000
## Nubes      0.8571429 0.8571429

Tabla 3. Indices de calidad el usuario y el productor.

3 Resultados

3.1 CLasificacion No-Supervisada

Figura 13. Clasificación No-Supervisada

El resultado de la clasificación no supervisada no es consistente con la realidad del terreno. Esta clasificación se basa en el Índice NDVI, por tanto, solo se trabaja con las bandas Nir y Red, lo cual puede generar sesgo en los resultados.

3.2 CLasificacion supervisada

Figura 14. Clasificación supervisada.

La clasificación no supervisada con el algoritmo de Kmeans, es consistente con la realidad del municipio, donde predomina el área sembrada con diferentes cultivos, especialmente café. En el área cercana a la cuchilla peñas blancas predominan el bosque lo cual se refleja caramente en la clasificación. Igualmente, en se evidencia pastos en la parte alta de la montaña consistente con las actividades de ganadería con propósito lechero, también se presenta concentración de pastos zonas con menor altura donde se desarrolla principalmente la ganadería para la producción carne. Asimismo, se puede evidenciar claramente la cabecera del municipio, y los caseríos de San Gabriel, el Piñal y Liberia.

4 Discusión

La clasificación supervisada presenta mejores resultados que la clasificación No-Supervisada y esto se deriva principalmente a que la clasificación No-supervisada trabajada en este ejercicio se basó en el NDVI, por tanto, se limita a la información espectral de dos bandas, igualmente, la concentración de los valores del índice ente 0.65 y 0.85 indica que no hay mucha diferencia en el tipo de vegetación. Por otra parte, aunque los índices de calidad de la supervisión clasificada estuvieron alrededor de los 0.6, el algoritmo CART requiere mayor numero de muestras de entrenamiento para tener un mejor resultado en la clasificación (ManojKumar, Sugumaran, & Zerr, 2002).

5 Conclusiones

Comparando los resultados de la clasificación supervisada y no supervisada, sin lugar a duda el que mejor resultado se da con la clasificación supervisada donde los resultados son más consistentes con el contexto del área de estudio. si se consideran los índices de calidad se debe mejorar la muestra de entrenamiento, lo que puede representar una clasificación más concordante con la realidad.

La aplicación Rstdio a través de la librería Raster permite programar la secuencia de tareas necesarias para el procesamiento de imágenes. La automatización permite que el investigador en un menor tiempo considere diferentes escenarios, igualmente, permite la reutilización del código en otras áreas de estudio y por ende la continua mejora de este.

Para futuros ejercicios se recomienda es uso de otros algoritmos de clasificación no supervisada y supervisada como Random Forest, e igualmente la inclusión de otros índices espectrales. Esto con el fin de buscar el escenario que mejor se adecue al área de estudio.

6 Referencias

ManojKumar, P., Sugumaran, R., & Zerr, D. (2002). A rule-based classifier using classification and regression tree (CART) approach for urban landscape dynamics. International Geoscience and Remote Sensing Symposium (IGARSS), 2, 1193–1194. https://doi.org/10.1109/igarss.2002.1025880

Nobuyuki Kobayashi, Hiroshi Tani, Xiufeng Wang & Rei Sonobe (2020) Crop classification using spectral indices derived from Sentinel-2A imagery, Journal of Information and Telecommunication, 4:1, 67-90, https://doi.org/10.1080/24751839.2019.1694765

Celik, T. (2009). Unsupervised change detection in satellite images using principal component analysis and κ-means clustering. IEEE Geoscience and Remote Sensing Letters, 6(4), 772–776. https://doi.org/10.1109/LGRS.2009.2025059