Основною метою дослідження було визначити в межах Кривого Рогу загальну площу території, яку покрито “живою” (не засохлою) рослинністю. При цьому особливим завданням було виокремити території, які покриті деревною рослинністю. Для цього упродовж декількох днів я візуально вивчав фактичні дані про стан газонів, скверів, пустирів та інших об’єктів у Кривому Розі. Під час візуального обстеження стало зрозумілим, що лише мала частка власне газонів представлена “живою” травою. Більшість спостережених мною ділянок несли або вельми пригнічену, або взагалі висохлу трав’яну рослинність. Також стало зрозумілим, що в окремий клас території треба винести пустирі та очерети. Пустирі здебільшого вкриті або багаторічними високорослими травами (деревій, полин, амброзія тощо), або сумішшю низькорослих та високорослих трав. Також майже всюди на пустирях трапляються поодинокі дерева. Очерети займають особливе місце у міській рослинності, оскільки вони вказують на близьке знаходження ґрунтових вод (зони підтоплення). Також очерети, зростаючи на берегах та у водоймах, вказують на ступінь замулення поверхневих водойм.
Через малу кількість “живих” газонів довелось трохи змістити рівень детектування класу “газон”. Під час класифікації до “газонів” мною було віднесено не лише власне “газони”, а й будь-які ділянки з низькорослими “живими” травами - доглянуті стадіони, частини пустирів, ділянки суходолу в безпосередній близькості до водних об’єктів.
Загалом в рамках дослідження було виділено 9 умовних класів:
“Очерети” (Bulrush) — суцільні зарості очеретів;
“Випалена територія” (Burned Area) — ділянки вигорілої внаслідок пожеж рослинності. Цей клас окремо виділено через те, що протягом нетривалого часу вигоріли ділянки заростають травами та переходять до класу “газон” або “пустир”;
“Ліс” (Forest) — щільні лісові насадження із кущами та травами;
“Газон” (Lawn) — ділянки низькотрав’я з нормальною (“живою”) рослинністю;
“Парк” (Park) — ділянки з нещільними насадженнями дерев. В якості еталону цього класу взято міські парки та сквери;
“Тверда поверхня” (Solid) — будь-які тверді поверхні: дороги, бетон, оголені ґрунти, скельні породи, антропогенні об’єкти (кар’єри, відвали, хвостосховища тощо). Тобто до цього класу увійшли всі типи територій, які не покриті рослинністю та водою;
“Приватний сектор” (Village) — вибір цього класу обумовлений специфічністю одноповерхової міської забудови: щільна суміш дерев, трав, твердих поверхонь, побудов та споруд. Така суміш різнородних об’єктів у межах одного пікселю космічного знімку призводить до специфічного відбиття як оптичних так і радарних хвиль;
“Пустир” (Wasteland) — ділянки із сумішшю низькорослих та високорослих трав і поодиноких дерев. Здебільшого — це недоглянуті земельні ділянки, які схильні до самозаростання рослинністю;
“Вода” (Water) — будь-які відкриті водні поверхні (ріки, ставки, відстійники, хвостосховища тощо)
В якості первинних матеріалів взято:
знімок космічного апарату Sentinel-1A від 7 серпня 2017 року (GRD) в поляризаціях VH та VV;
канали 2, 3, 4, 5, 6, 7, 8, 8A, 11 та 12 знімку космічного апарату Sentinel-2A від 8 серпня 2017 року;
канали 10 та 11 космічного апарату Landsat-8 від 12 серпня 2017 року;
канал 8 знімку космічного апарату Sentinel-2A від 30 квітня 2017 року.
Для радарного знімку було проведено радіометричну корекцію, фільтрацію спекл-шуму (з використанням фільтру Gamma Map), обчислення сили відбиття в децибелах та геометричну корекцію (Range-Doppler). Для цього було використано програмний засіб SNAP (Sentinels Application Platform).
Знімки оптичних супутників оброблено з використанням модулю Semi-Automatic Classification Plugin геоінформаційної системи QGIS (Sentinel-2A) та SAGA GIS (Landsat-8).
Після підготовчого оброблення всі знімки було завантажено в геоінформаційну систему SAGA. Там виконано поканальне об’єднання двох гранул знімків космічного апарату Sentinel-2A (TWT та UWU), обрізання всіх знімків по контуру Кривого Рогу (контур взято з проекту OpenStreetMap), приведення всіх знімків до розміру пікселю 10Х10 м. При цьому в якості “основи” використовувався знімок космічного апарату Sentinel-2A.
Для формування навчальної вибірки об’єктів зроблено сегментацію досліджуваної території базовим методом Object Based Image Segmentation геоінформаційної системи SAGA. Потім незначній частині полігонів отриманого шейп-шару приписано означені вище класи території. Загалом було прокласифіковано 1070 полігонів. Кількість полігонів за класами значно різниться.
Наступні кроки виконувались в середовищі мови програмування R. Нижче містяться скрипти, якими виконувався весь процес обчислення та перевірки даних.
#Завантажуємо потрібні пакети
library(plyr)#саме в такій послідовності: спочатку plyr, потім dplyr!
library(dplyr)
Attaching package: ‘dplyr’
The following objects are masked from ‘package:plyr’:
arrange, count, desc, failwith, id, mutate, rename, summarise, summarize
The following objects are masked from ‘package:raster’:
intersect, select, union
The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
library(raster)
library(ggplot2)
#Встановлюємо директорію для кешування "великих растрів"
rasterOptions(tmpdir = "/home/geka/ssd/LargeTMP/")
#Завантажуємо у вигляді окремих об'єктів всі супутникові матеріали
Image_S2B2 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B02_KrR.sdat")
Image_S2B3 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B03_KrR.sdat")
Image_S2B4 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B04_KrR.sdat")
Image_S2B5 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B05_KrR.sdat")
Image_S2B6 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B06_KrR.sdat")
Image_S2B7 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B07_KrR.sdat")
Image_S2B8 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B08_KrR.sdat")
Image_S2B8A <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B8A_KrR.sdat")
Image_S2B11 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B11_KrR.sdat")
Image_S2B12 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B12_KrR.sdat")
Image_L8B10 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/RT_LC08_L1TP_178027_20170812_20170812_01_RT_B10_KrR.sdat")
Image_L8B11 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/RT_LC08_L1TP_178027_20170812_20170812_01_RT_B11_KrR.sdat")
Image_S1VH <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S1A_GRDH_20170807_SigmaVH_db_KrR.sdat")
Image_S1VV <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S1A_GRDH_20170807_SigmaVV_db_KrR.sdat")
Image_S2B8APR <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170430_B08_KrR.sdat")
#Об'єднуємо всі канали в один об'єкт
ImageStack <- stack(Image_S2B2, Image_S2B3, Image_S2B4, Image_S2B5, Image_S2B6,
Image_S2B7, Image_S2B8, Image_S2B8A, Image_S2B11, Image_S2B12,
Image_L8B10, Image_L8B11, Image_S1VH, Image_S1VV, Image_S2B8APR)
#Перейменовуємо канали в об'єднаному об'єкті
names(ImageStack) <- c("S2B2", "S2B3", "S2B4", "S2B5", "S2B6", "S2B7",
"S2B8", "S2B8A", "S2B11", "S2B12",
"L8B10", "L8B11", "S1VH", "S1VV", "S2B8APR")
#Візуально перевіряємо адекватність та повноту даних
plotRGB(ImageStack, r = 7, g = 11, b = 14, stretch = "hist")

#Завантажуємо шейп-файл з навчальними полігонами
trainShape <- shapefile("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/Segments_Class_noDegLawn.shp")
#Відкидаємо "порожні" полігони - ті, яким не присвоювалось жодних класів
trainData <- trainShape[!is.na(trainShape@data$Class) ,]
#Робимо поле цілих чисел з номерами класів
trainData@data$ClassInt <- as.integer(factor(trainData@data$Class))
#Перевіряємо кількість наявних учбових полігонів за класами
summary(factor(trainData@data$Class))
Bulrush Burned Area Forest Lawn Park Solid Village
124 42 130 87 181 124 126
Wasteland Water
129 127
#Попіксельно витягуємо дані в межах учбових полігонів та формуємо зведену таблицю значень з супутників та відповідних класів.
#Приклад програмного коду взято з: http://amsantac.co/blog/en/2015/11/28/classification-r.html
dfAll <- data.frame(matrix(vector(), nrow = 0, ncol = length(names(ImageStack)) + 1))
for (i in 1:length(unique(trainData[["ClassInt"]]))){
category <- unique(trainData[["ClassInt"]])[i]
categorymap <- trainData[trainData[["ClassInt"]] == category,]
#запускаємо кластер багатопоточних обчислень
beginCluster()
dataSet <- extract(ImageStack, categorymap)
#відключаємо кластер багатопоточних обчислень
endCluster()
dataSet <- dataSet[!unlist(lapply(dataSet, is.null))]
dataSet <- lapply(dataSet, function(x){cbind(x, ClassInt = as.numeric(rep(category, nrow(x))))})
df <- do.call("rbind", dataSet)
dfAll <- rbind(dfAll, df)
}
Loading required namespace: parallel
4 cores detected, using 3
Using cluster with 3 nodes
4 cores detected, using 3
Using cluster with 3 nodes
4 cores detected, using 3
Using cluster with 3 nodes
4 cores detected, using 3
Using cluster with 3 nodes
4 cores detected, using 3
Using cluster with 3 nodes
4 cores detected, using 3
Using cluster with 3 nodes
4 cores detected, using 3
Using cluster with 3 nodes
4 cores detected, using 3
Using cluster with 3 nodes
4 cores detected, using 3
Using cluster with 3 nodes
#Повертаємо символьні найменування класів в отриману кроком вище таблицю
ClassDF <- data.frame(Class = levels(factor(trainData@data$Class)), ClassInt = seq(1:9))
dfAll <- left_join(dfAll, ClassDF)
Joining, by = c("ClassInt", "Class")
LearnDF <- dplyr::select(dfAll, -ClassInt)
#Перевіряємо кількість пікселів кожного класу в отриманій таблиці учбової вибірки
summary(factor(LearnDF$Class))
Bulrush Burned Area Forest Lawn Park Solid Village
2398 871 2671 1961 3615 4366 3153
Wasteland Water
3049 3444
#Будуємо гістограми зі статистичними показниками виділених класів
# png("Histogram_Gazon_WithoutDegLawn_20170901.png", width = 297,
# height = 210, units = "mm", res = 150)
tbl_df(LearnDF) %>%
reshape2::melt(id = "Class") %>%
ggplot(aes(x = value, fill = variable)) +
geom_histogram(position = "identity") +
facet_wrap( ~ variable, nrow = 3, scales = "free") +
labs(y = "кількість випадків\n",
x = "\nвеличини значень оптичних та радарних діапазонів",
title = "Розподіл значень радарних та оптичних сигналів\nв межах учбових полігонів умовних класів території Кривого Рогу",
caption = "дані космічних апаратів\nSentinel-1A, Sentinel-2A, Landsat-8\n30 квітня та 7-12 серпня 2017 року") +
theme(plot.title = element_text(hjust = 0.5),
text = element_text(family = "FreeSans",
face = "plain", size = 12, colour = "firebrick4", lineheight = 0.9),
legend.position = "none",
axis.text.x = element_text(colour = "gray15", face="bold",
size= 8, angle = 0, vjust = 0.5, hjust = 0.5),
axis.text.y = element_text(colour = "gray15", face="bold",
size= 10, angle = 0, vjust = 0.5, hjust = 1),
axis.ticks = element_line(colour = "orange", size = 0.1),
plot.background = element_rect(fill = "gray95"),
panel.grid.major = element_line(colour = "orange", size = 0.1),
panel.grid.minor = element_line(colour = "gray90"),
panel.background=element_rect(fill="gray95"))

# dev.off()
#Будуємо діаграму зі статистичними показниками виділених класів
# png("Boxplot_Gazon_WithoutDegLawn_20170901.png", width = 297,
# height = 210, units = "mm", res = 150)
tbl_df(LearnDF) %>%
reshape2::melt(id = "Class") %>%
ggplot(aes(y = value, x = Class, colour = variable)) +
geom_boxplot(outlier.size = 0.5) +
coord_flip() +
facet_wrap( ~variable, nrow = 3, scales = "free_x") +
labs(y = "величини значень оптичних та радарних діапазонів\n",
x = "\n",
title = "Радарні та оптичні властивості\nумовних класів території в межах Кривого Рогу",
caption = "дані космічних апаратів\nSentinel-1A, Sentinel-2A, Landsat-8\n30 квітня та 7-12 серпня 2017 року") +
theme(plot.title = element_text(hjust = 0.5),
text = element_text(family = "FreeSans",
face = "plain", size = 12, colour = "firebrick4", lineheight = 0.9),
legend.position = "none",
axis.text.x = element_text(colour = "gray15", face="bold",
size= 8, angle = 0, vjust = 0.5, hjust = 0.5),
axis.text.y = element_text(colour = "gray15", face="bold",
size= 10, angle = 0, vjust = 0.5, hjust = 1),
axis.ticks = element_line(colour = "orange", size = 0.1),
plot.background = element_rect(fill = "gray95"),
panel.grid.major = element_line(colour = "orange", size = 0.1),
panel.grid.minor = element_line(colour = "gray90"),
panel.background=element_rect(fill="gray95"))

#dev.off()
Далі перед нами постає проблема. Справа у тому, що навіть за умови попіксельного розбиття первинних учбових полігонів, порівняно мало навчальних об’єктів для класу Burned Area. У якості експерименту я вирішив зробити вибірку з поверненням, щоб досягти умови врівноваженості класів та 1000 навчальних об’єктів для кожного класу. Таким чином, кількість об’єктів для класу Burned Area було штучно збільшено в 1,14 рази.
LearnDF$num <- c(1:nrow(LearnDF))
#Формуємо робочу таблицю навчальної вибірки,
#вказуємо, що вибірка повинна містити по 1000 об'єктів кожного класу
#та наповнюватись за методом "поверненого шару"
set.seed(12210)
LearnDF %>% group_by(Class) %>%
sample_n(size = 1000, replace = TRUE) %>%
ungroup(Class) %>%
mutate(Class = factor(Class)) -> LearnDF.sample
#Формуємо тестову вибірку
LearnDF$Sample <- ifelse(LearnDF$num %in% LearnDF.sample$num, "Learn", "Test")
LearnDF %>% filter(Sample == "Test") %>% dplyr::select(-c(num, Sample)) -> LearnDF.test
#Прибираємо більше не потрібне поле num в таблиці LearnDF.sample
LearnDF.sample %>% dplyr::select(-c(num, Sample)) -> LearnDF.sample
#Дивимось відсоток записів у навчальній та тестовій вибірках
round(100 * (nrow(LearnDF.sample)/nrow(LearnDF)), 0)
[1] 35
round(100 * (nrow(LearnDF.test)/nrow(LearnDF)), 0)
[1] 71
#Цілком логічно те, що у нас вийде більше 100 відсотків: ми формували навчальну вибірку з поверненням і деякі рядки було взято по декілька разів
#Завантажуємо пакет Random Forest
library(randomForest)
randomForest 4.6-12
Type rfNews() to see new features/changes/bug fixes.
Attaching package: ‘randomForest’
The following object is masked from ‘package:ggplot2’:
margin
The following object is masked from ‘package:dplyr’:
combine
#Запускаємо моделювання та вказуємо робочі параметри процесу моделювання
set.seed(12210)
RF_model_tmp <- randomForest(Class ~., data = LearnDF.sample,
replace = TRUE,
nodesize = 2,
importance = TRUE,
mtry = 3,
ntree = 500,
do.trace = 20)
ntree OOB 1 2 3 4 5 6 7 8 9
20: 5.70% 5.70% 0.30% 4.30% 8.20% 15.40% 5.31% 5.30% 5.70% 1.10%
40: 4.89% 4.60% 0.20% 3.70% 5.60% 13.40% 4.70% 4.80% 6.00% 1.00%
60: 4.66% 4.50% 0.20% 3.90% 5.50% 12.70% 4.70% 4.10% 5.30% 1.00%
80: 4.40% 4.40% 0.20% 3.80% 5.10% 12.30% 4.30% 3.80% 4.70% 1.00%
100: 4.37% 4.10% 0.20% 3.70% 5.60% 12.20% 4.20% 3.50% 4.80% 1.00%
120: 4.28% 4.40% 0.20% 3.20% 5.50% 11.70% 4.10% 3.60% 4.80% 1.00%
140: 4.33% 4.30% 0.20% 3.50% 5.40% 12.30% 4.30% 3.40% 4.60% 1.00%
160: 4.34% 4.20% 0.10% 3.50% 5.60% 12.20% 4.40% 3.40% 4.60% 1.10%
180: 4.20% 4.10% 0.10% 3.50% 5.30% 11.70% 4.10% 3.30% 4.60% 1.10%
200: 4.26% 4.20% 0.10% 3.40% 5.40% 12.20% 4.10% 3.10% 4.60% 1.20%
220: 4.26% 4.30% 0.10% 3.10% 5.70% 12.10% 4.40% 2.90% 4.50% 1.20%
240: 4.18% 4.10% 0.10% 3.30% 5.70% 11.90% 4.00% 2.90% 4.40% 1.20%
260: 4.19% 4.10% 0.10% 3.20% 5.60% 12.10% 4.00% 3.00% 4.40% 1.20%
280: 4.13% 4.10% 0.10% 3.40% 5.40% 11.70% 3.80% 3.10% 4.40% 1.20%
300: 4.23% 4.10% 0.10% 3.50% 5.60% 11.80% 4.10% 3.40% 4.40% 1.10%
320: 4.20% 4.10% 0.10% 3.30% 5.60% 11.80% 4.00% 3.30% 4.40% 1.20%
340: 4.18% 4.20% 0.10% 3.30% 5.60% 11.80% 4.10% 3.00% 4.30% 1.20%
360: 4.17% 4.00% 0.10% 3.30% 5.50% 11.60% 4.40% 3.10% 4.30% 1.20%
380: 4.14% 4.00% 0.10% 3.20% 5.40% 11.80% 4.20% 2.90% 4.50% 1.20%
400: 4.12% 4.10% 0.10% 3.20% 5.50% 11.60% 4.10% 3.00% 4.30% 1.20%
420: 4.13% 4.10% 0.10% 3.20% 5.40% 11.60% 4.30% 2.90% 4.40% 1.20%
440: 4.16% 4.10% 0.10% 3.40% 5.40% 11.60% 4.30% 2.90% 4.40% 1.20%
460: 4.13% 4.10% 0.10% 3.20% 5.40% 11.70% 4.10% 3.00% 4.40% 1.20%
480: 4.17% 4.10% 0.10% 3.20% 5.40% 11.80% 4.20% 3.10% 4.40% 1.20%
500: 4.17% 4.10% 0.10% 3.30% 5.40% 11.60% 4.30% 3.10% 4.40% 1.20%
#Дивимось результат моделювання
RF_model_tmp
Call:
randomForest(formula = Class ~ ., data = LearnDF.sample, replace = TRUE, nodesize = 2, importance = TRUE, mtry = 3, ntree = 500, do.trace = 20)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 4.17%
Confusion matrix:
Bulrush Burned Area Forest Lawn Park Solid Village Wasteland Water
Bulrush 959 0 1 2 34 0 0 1 3
Burned Area 0 999 0 0 0 0 0 1 0
Forest 1 0 967 0 30 0 1 0 1
Lawn 2 0 0 946 12 13 18 8 1
Park 13 0 49 19 884 6 26 0 3
Solid 0 0 0 14 4 957 8 14 3
Village 0 0 0 7 19 5 969 0 0
Wasteland 2 1 2 25 11 2 1 956 0
Water 1 0 0 1 7 3 0 0 988
class.error
Bulrush 0.041
Burned Area 0.001
Forest 0.033
Lawn 0.054
Park 0.116
Solid 0.043
Village 0.031
Wasteland 0.044
Water 0.012
#Виконуємо класифікацію для всієї території Кривого Рогу та фіксуємо час виконання
beginCluster()
4 cores detected, using 3
system.time(Gazon_RF_tmp <- clusterR(ImageStack, raster::predict, args = list(model = RF_model_tmp)))
user system elapsed
2.660 0.592 164.389
endCluster()
#Дивимось інформацію щодо інформативності предикторів
varImpPlot(RF_model_tmp, sort = TRUE, main = "Інформативність предикторів")

#Дивимось інформацію про кількість росщеплення дерев на кожному з предикторів
varUsed(RF_model_tmp, by.tree = FALSE, count = TRUE)
[1] 16757 15528 16395 16753 16718 16834 16380 18462 19666 19130 22066 21949 20784 20490
[15] 19541
plot(RF_model_tmp, lwd = 2, col = rainbow(10))
legend("topright", colnames(RF_model_tmp$err.rate), col = rainbow(10), cex = 0.8, fill = rainbow(10))

#Записуємо відокремлений растровий файл з результатами класифікації
writeRaster(Gazon_RF_tmp, "/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/WithoutDegLawn/Gazon20170808_noDegLawn_tmp.sdat", format = "SAGA", overwrite = TRUE)
#Перевіряємо результат класифікації на "тестовій" вибірці
Gazon_DF.predict_tmp <- predict(RF_model_tmp, LearnDF.test)
table(Gazon_DF.predict_tmp, LearnDF.test$Class)
Gazon_DF.predict_tmp Bulrush Burned Area Forest Lawn Park Solid Village Wasteland Water
Bulrush 1504 0 3 2 24 0 0 2 4
Burned Area 0 277 0 0 0 0 0 0 0
Forest 3 0 1738 1 200 0 0 2 2
Lawn 7 0 1 1077 48 101 16 83 2
Park 70 0 67 17 2377 17 58 14 7
Solid 0 0 0 29 10 3258 12 13 8
Village 0 0 2 39 78 29 2222 5 0
Wasteland 2 3 0 9 4 45 0 2072 1
Water 7 0 5 0 4 14 0 0 2554
#Обчислюємо похибку класифікації на "тестовій"" вибірці
sum(diag(table(Gazon_DF.predict_tmp, LearnDF.test$Class)))/sum(table(Gazon_DF.predict_tmp, LearnDF.test$Class))
[1] 0.9410436
#!!!слово "тестова" я навмисно взяв у лапки. Це не чиста тестова вибірка. Через малу кількість об'єктів для деяких класів ми штучно взяли ці об'єкти по 2-3-5 разів. Тому ймовірно, що для ця цих класів у "тестовій" вибірці не залишилось унікальних об'єктів. А для класу Burned Area точно не залишилось унікальних об'єктів у тестовій вибірці
Подальша робота з отриманим файлом класифікованих типів території виконується в середовищі геоінформаційних систем. Зокрема, я використав базові можливості ГІС SAGA для проведення згладжувальної фільтрації отриманого растру класифікації. При цьому було усунено одно-двопіксельні “артефакти”. Для обчислення площ та іншої базової статистики я також використав ГІС SAGA. Для “поліграфічного” оформлення результатів я використовую базові можливості ГІС QGIS.
Стосовно загальної точності моделі: в загальних рисах доволі точно повторює особливості міської території: райони приватного сектору, окремі висотні будинки, зарослі очеретів. Трапляються поодинокі місця, які знаходяться у затінку як для оптичних і радарних супутників, так і для Сонця. Ці місця часто розпізнаються як “Вода”. Особливо це стосується східних бортів деяких великих криворізьких кар’єрів. Також спостерігаються пікселі класу “Очерети” у зовсім нехарактерних місцях. Скоріше за все — це щільна кустарникова рослинність. Це потребує перевірки на місцевості.
---
title: "Класифікація ландшафтного покриву за допомогою алгоритму Random Forest"
output: html_notebook
---

Основною метою дослідження було визначити в межах Кривого Рогу загальну площу території, яку покрито "живою" (не засохлою) рослинністю. При цьому особливим завданням було виокремити території, які покриті деревною рослинністю. Для цього упродовж декількох днів я візуально вивчав фактичні дані про стан газонів, скверів, пустирів та інших об'єктів у Кривому Розі. Під час візуального обстеження стало зрозумілим, що лише мала частка власне газонів представлена "живою" травою. Більшість спостережених мною ділянок несли або вельми пригнічену, або взагалі висохлу трав'яну рослинність. Також стало зрозумілим, що в окремий клас території треба винести пустирі та очерети. Пустирі здебільшого вкриті або багаторічними високорослими травами (деревій, полин, амброзія тощо), або сумішшю низькорослих та високорослих трав. Також майже всюди на пустирях трапляються поодинокі дерева. Очерети займають особливе місце у міській рослинності, оскільки вони вказують на близьке знаходження ґрунтових вод (зони підтоплення). Також очерети, зростаючи на берегах та у водоймах, вказують на ступінь замулення поверхневих водойм.

Через малу кількість "живих" газонів довелось трохи змістити рівень детектування класу "газон". Під час класифікації до "газонів" мною було віднесено не лише власне "газони", а й будь-які ділянки з низькорослими "живими" травами - доглянуті стадіони, частини пустирів, ділянки суходолу в безпосередній близькості до водних об'єктів.

Загалом в рамках дослідження було виділено 9 умовних класів:

- "Очерети" (**Bulrush**) --- суцільні зарості очеретів;

- "Випалена територія" (**Burned Area**) --- ділянки вигорілої внаслідок пожеж рослинності. Цей клас окремо виділено через те, що протягом нетривалого часу вигоріли ділянки заростають травами та переходять до класу "газон" або "пустир";

- "Ліс" (**Forest**) --- щільні лісові насадження із кущами та травами;

- "Газон" (**Lawn**) --- ділянки низькотрав'я з нормальною ("живою") рослинністю;

- "Парк" (**Park**) --- ділянки з нещільними насадженнями дерев. В якості еталону цього класу взято міські парки та сквери;

- "Тверда поверхня" (**Solid**) --- будь-які тверді поверхні: дороги, бетон, оголені ґрунти, скельні породи, антропогенні об'єкти (кар'єри, відвали, хвостосховища тощо). Тобто до цього класу увійшли всі типи територій, які не покриті рослинністю та водою;

- "Приватний сектор" (**Village**) --- вибір цього класу обумовлений специфічністю одноповерхової міської забудови: щільна суміш дерев, трав, твердих поверхонь, побудов та споруд. Така суміш різнородних об'єктів у межах одного пікселю космічного знімку призводить до специфічного відбиття як оптичних так і радарних хвиль;

- "Пустир" (**Wasteland**) --- ділянки із сумішшю низькорослих та високорослих трав і поодиноких дерев. Здебільшого --- це недоглянуті земельні ділянки, які схильні до самозаростання рослинністю;

- "Вода" (**Water**) --- будь-які відкриті водні поверхні (ріки, ставки, відстійники, хвостосховища тощо)

В якості первинних матеріалів взято:

- знімок космічного апарату Sentinel-1A від 7 серпня 2017 року (GRD) в поляризаціях VH та VV;

- канали 2, 3, 4, 5, 6, 7, 8, 8A, 11 та 12 знімку космічного апарату Sentinel-2A від 8 серпня 2017 року;

- канали 10 та 11 космічного апарату Landsat-8 від 12 серпня 2017 року;

- канал 8 знімку космічного апарату Sentinel-2A від 30 квітня 2017 року.

Для радарного знімку було проведено радіометричну корекцію, фільтрацію спекл-шуму (з використанням фільтру Gamma Map), обчислення сили відбиття в децибелах та геометричну корекцію (Range-Doppler). Для цього було використано програмний засіб SNAP (Sentinels Application Platform).

Знімки оптичних супутників оброблено з використанням модулю Semi-Automatic Classification Plugin геоінформаційної системи QGIS (Sentinel-2A) та SAGA GIS (Landsat-8).

Після підготовчого оброблення всі знімки було завантажено в геоінформаційну систему SAGA. Там виконано поканальне об'єднання двох гранул знімків космічного апарату Sentinel-2A (TWT та UWU), обрізання всіх знімків по контуру Кривого Рогу (контур взято з проекту OpenStreetMap), приведення всіх знімків до розміру пікселю 10Х10 м. При цьому в якості "основи" використовувався знімок космічного апарату Sentinel-2A.

Для формування навчальної вибірки об'єктів зроблено сегментацію досліджуваної території базовим методом Object Based Image Segmentation геоінформаційної системи SAGA. Потім незначній частині полігонів отриманого шейп-шару приписано означені вище класи території. Загалом було прокласифіковано 1070 полігонів. Кількість полігонів за класами значно різниться.

Наступні кроки виконувались в середовищі мови програмування R. Нижче містяться скрипти, якими виконувався весь процес обчислення та перевірки даних.

```{r}
#Завантажуємо потрібні пакети
library(plyr)#саме в такій послідовності: спочатку plyr, потім dplyr!
library(dplyr)
library(raster)
library(ggplot2)
```

```{r}
#Встановлюємо директорію для кешування "великих растрів"
rasterOptions(tmpdir = "/home/geka/ssd/LargeTMP/")
```

```{r}
#Завантажуємо у вигляді окремих об'єктів всі супутникові матеріали
Image_S2B2 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B02_KrR.sdat")
Image_S2B3 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B03_KrR.sdat")
Image_S2B4 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B04_KrR.sdat")
Image_S2B5 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B05_KrR.sdat")
Image_S2B6 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B06_KrR.sdat")
Image_S2B7 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B07_KrR.sdat")
Image_S2B8 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B08_KrR.sdat")
Image_S2B8A <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B8A_KrR.sdat")
Image_S2B11 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B11_KrR.sdat")
Image_S2B12 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170808_B12_KrR.sdat")
Image_L8B10 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/RT_LC08_L1TP_178027_20170812_20170812_01_RT_B10_KrR.sdat")
Image_L8B11 <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/RT_LC08_L1TP_178027_20170812_20170812_01_RT_B11_KrR.sdat")
Image_S1VH <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S1A_GRDH_20170807_SigmaVH_db_KrR.sdat")
Image_S1VV <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S1A_GRDH_20170807_SigmaVV_db_KrR.sdat")
Image_S2B8APR <- raster("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/S2_TWT_UWU_20170430_B08_KrR.sdat")
```

```{r}
#Об'єднуємо всі канали в один об'єкт
ImageStack <- stack(Image_S2B2, Image_S2B3, Image_S2B4, Image_S2B5, Image_S2B6,
                    Image_S2B7, Image_S2B8, Image_S2B8A, Image_S2B11, Image_S2B12,
                    Image_L8B10, Image_L8B11, Image_S1VH, Image_S1VV, Image_S2B8APR)
```


```{r}
#Перейменовуємо канали в об'єднаному об'єкті
names(ImageStack) <- c("S2B2", "S2B3", "S2B4", "S2B5", "S2B6", "S2B7",
                       "S2B8", "S2B8A", "S2B11", "S2B12",
                    "L8B10", "L8B11", "S1VH", "S1VV", "S2B8APR")
```

```{r}
#Візуально перевіряємо адекватність та повноту даних
plotRGB(ImageStack, r = 7, g = 11, b = 14, stretch = "hist")
```

```{r}
#Завантажуємо шейп-файл з навчальними полігонами
trainShape <- shapefile("/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/Segments_Class_noDegLawn.shp")
```

```{r}
#Відкидаємо "порожні" полігони - ті, яким не присвоювалось жодних класів
trainData <- trainShape[!is.na(trainShape@data$Class) ,]
#Робимо поле цілих чисел з номерами класів
trainData@data$ClassInt <- as.integer(factor(trainData@data$Class))
```

```{r}
#Перевіряємо кількість наявних учбових полігонів за класами
summary(factor(trainData@data$Class))
```

```{r}
#Попіксельно витягуємо дані в межах учбових полігонів та формуємо зведену таблицю значень з супутників та відповідних класів. 
#Приклад програмного коду взято з: http://amsantac.co/blog/en/2015/11/28/classification-r.html
dfAll <- data.frame(matrix(vector(), nrow = 0, ncol = length(names(ImageStack)) + 1))
for (i in 1:length(unique(trainData[["ClassInt"]]))){
  category <- unique(trainData[["ClassInt"]])[i]
  categorymap <- trainData[trainData[["ClassInt"]] == category,]
  #запускаємо кластер багатопоточних обчислень
  beginCluster()
  dataSet <- extract(ImageStack, categorymap)
  #відключаємо кластер багатопоточних обчислень
  endCluster()
  dataSet <- dataSet[!unlist(lapply(dataSet, is.null))]
  dataSet <- lapply(dataSet, function(x){cbind(x, ClassInt = as.numeric(rep(category, nrow(x))))})
  df <- do.call("rbind", dataSet)
  dfAll <- rbind(dfAll, df)
}
```

```{r}
#Повертаємо символьні найменування класів в отриману кроком вище таблицю
ClassDF <- data.frame(Class = levels(factor(trainData@data$Class)), ClassInt = seq(1:9))
dfAll <- left_join(dfAll, ClassDF)
LearnDF <- dplyr::select(dfAll, -ClassInt)
```

```{r}
#Перевіряємо кількість пікселів кожного класу в отриманій таблиці учбової вибірки
summary(factor(LearnDF$Class))
```

```{r}
#Будуємо гістограми зі статистичними показниками виділених класів
# png("Histogram_Gazon_WithoutDegLawn_20170901.png", width = 297,
#      height = 210, units = "mm", res = 150)
tbl_df(LearnDF) %>%
  reshape2::melt(id = "Class") %>%
  ggplot(aes(x = value, fill = variable)) +
  geom_histogram(position = "identity") +
  facet_wrap( ~ variable, nrow = 3, scales = "free") +
  labs(y = "кількість випадків\n",
       x = "\nвеличини значень оптичних та радарних діапазонів",
       title = "Розподіл значень радарних та оптичних сигналів\nв межах учбових полігонів умовних класів території Кривого Рогу",
       caption = "дані космічних апаратів\nSentinel-1A, Sentinel-2A, Landsat-8\n30 квітня та 7-12 серпня 2017 року") +
  theme(plot.title = element_text(hjust = 0.5),
        text = element_text(family = "FreeSans",
     face = "plain", size = 12, colour = "firebrick4", lineheight = 0.9),
     legend.position = "none",
     axis.text.x = element_text(colour = "gray15", face="bold",
     size= 8, angle = 0, vjust = 0.5, hjust = 0.5),
     axis.text.y = element_text(colour = "gray15", face="bold",
     size= 10, angle = 0, vjust = 0.5, hjust = 1),
     axis.ticks = element_line(colour = "orange", size = 0.1),
     plot.background = element_rect(fill = "gray95"),
     panel.grid.major = element_line(colour = "orange", size = 0.1),
     panel.grid.minor = element_line(colour = "gray90"),
     panel.background=element_rect(fill="gray95"))
# dev.off()
```

```{r}
#Будуємо діаграму зі статистичними показниками виділених класів
# png("Boxplot_Gazon_WithoutDegLawn_20170901.png", width = 297,
#      height = 210, units = "mm", res = 150)
tbl_df(LearnDF) %>%
  reshape2::melt(id = "Class") %>%
  ggplot(aes(y = value, x = Class, colour = variable)) +
  geom_boxplot(outlier.size = 0.5) +
  coord_flip() +
  facet_wrap( ~variable, nrow = 3, scales = "free_x") +
  labs(y = "величини значень оптичних та радарних діапазонів\n",
       x = "\n",
       title = "Радарні та оптичні властивості\nумовних класів території в межах Кривого Рогу",
       caption = "дані космічних апаратів\nSentinel-1A, Sentinel-2A, Landsat-8\n30 квітня та 7-12 серпня 2017 року") +
  theme(plot.title = element_text(hjust = 0.5),
        text = element_text(family = "FreeSans",
     face = "plain", size = 12, colour = "firebrick4", lineheight = 0.9),
     legend.position = "none",
     axis.text.x = element_text(colour = "gray15", face="bold",
     size= 8, angle = 0, vjust = 0.5, hjust = 0.5),
     axis.text.y = element_text(colour = "gray15", face="bold",
     size= 10, angle = 0, vjust = 0.5, hjust = 1),
     axis.ticks = element_line(colour = "orange", size = 0.1),
     plot.background = element_rect(fill = "gray95"),
     panel.grid.major = element_line(colour = "orange", size = 0.1),
     panel.grid.minor = element_line(colour = "gray90"),
     panel.background=element_rect(fill="gray95"))
#dev.off()
```

Далі перед нами постає проблема. Справа у тому, що навіть за умови попіксельного розбиття первинних учбових полігонів, порівняно мало навчальних об'єктів для класу *Burned Area*. У якості експерименту я вирішив зробити вибірку з поверненням, щоб досягти умови врівноваженості класів та 1000 навчальних об'єктів для кожного класу. Таким чином, кількість об'єктів для класу *Burned Area* було штучно збільшено в 1,14 рази.

```{r}
LearnDF$num <- c(1:nrow(LearnDF))
#Формуємо робочу таблицю навчальної вибірки,
#вказуємо, що вибірка повинна містити по 1000 об'єктів кожного класу
#та наповнюватись за методом "поверненого шару"
set.seed(12210)
LearnDF %>% group_by(Class) %>%
  sample_n(size = 1000, replace = TRUE) %>%
  ungroup(Class) %>%
  mutate(Class = factor(Class)) -> LearnDF.sample
#Формуємо тестову вибірку
LearnDF$Sample <- ifelse(LearnDF$num %in% LearnDF.sample$num, "Learn", "Test")
LearnDF %>% filter(Sample == "Test") %>% dplyr::select(-c(num, Sample)) -> LearnDF.test
#Прибираємо більше не потрібне поле num в таблиці LearnDF.sample
LearnDF.sample %>% dplyr::select(-c(num, Sample)) -> LearnDF.sample
```

```{r}
#Дивимось відсоток записів у навчальній та тестовій вибірках
round(100 * (nrow(LearnDF.sample)/nrow(LearnDF)), 0)
round(100 * (nrow(LearnDF.test)/nrow(LearnDF)), 0)
#Цілком логічно те, що у нас вийде більше 100 відсотків: ми формували навчальну вибірку з поверненням і деякі рядки було взято по декілька разів
```

```{r}
#Завантажуємо пакет Random Forest
library(randomForest)
```

```{r}
#Запускаємо моделювання та вказуємо робочі параметри процесу моделювання
set.seed(12210)
RF_model_tmp <- randomForest(Class ~., data = LearnDF.sample,
                         replace = TRUE,
                         nodesize = 2,
                         importance = TRUE,
                         mtry = 3,
                         ntree = 500,
                         do.trace = 20)
```

```{r}
#Дивимось результат моделювання
RF_model_tmp
```

```{r}
#Виконуємо класифікацію для всієї території Кривого Рогу та фіксуємо час виконання
beginCluster()
system.time(Gazon_RF_tmp <- clusterR(ImageStack, raster::predict, args = list(model = RF_model_tmp)))
endCluster()
```

```{r}
#Дивимось інформацію щодо інформативності предикторів
varImpPlot(RF_model_tmp, sort = TRUE, main = "Інформативність предикторів")
```

```{r}
#Дивимось інформацію про кількість росщеплення дерев на кожному з предикторів
varUsed(RF_model_tmp, by.tree = FALSE, count = TRUE)
```

```{r}
plot(RF_model_tmp, lwd = 2, col = rainbow(10))
legend("topright", colnames(RF_model_tmp$err.rate), col = rainbow(10), cex = 0.8, fill = rainbow(10))
```

```{r}
#Записуємо відокремлений растровий файл з результатами класифікації
writeRaster(Gazon_RF_tmp, "/home/geka/Documents/ZhurnRozslid/DataStory/Ecology/Urban/Gazon20170808/WithoutDegLawn/Gazon20170808_noDegLawn_tmp.sdat", format = "SAGA", overwrite = TRUE)
```

```{r}
#Перевіряємо результат класифікації на "тестовій" вибірці
Gazon_DF.predict_tmp <- predict(RF_model_tmp, LearnDF.test)
table(Gazon_DF.predict_tmp, LearnDF.test$Class)
#Обчислюємо похибку класифікації на "тестовій"" вибірці
sum(diag(table(Gazon_DF.predict_tmp, LearnDF.test$Class)))/sum(table(Gazon_DF.predict_tmp, LearnDF.test$Class))

#!!!слово "тестова" я навмисно взяв у лапки. Це не чиста тестова вибірка. Через малу кількість об'єктів для деяких класів ми штучно взяли ці об'єкти по 2-3-5 разів. Тому ймовірно, що для ця цих класів у "тестовій" вибірці не залишилось унікальних об'єктів. А для класу Burned Area точно не залишилось унікальних об'єктів у тестовій вибірці
```

Подальша робота з отриманим файлом класифікованих типів території виконується в середовищі геоінформаційних систем. Зокрема, я використав базові можливості ГІС SAGA для проведення згладжувальної фільтрації отриманого растру класифікації. При цьому було усунено одно-двопіксельні “артефакти”. Для обчислення площ та іншої базової статистики я також використав ГІС SAGA. Для “поліграфічного” оформлення результатів я використовую базові можливості ГІС QGIS.

Стосовно загальної точності моделі: в загальних рисах доволі точно повторює особливості міської території: райони приватного сектору, окремі висотні будинки, зарослі очеретів. Трапляються поодинокі місця, які знаходяться у затінку як для оптичних і радарних супутників, так і для Сонця. Ці місця часто розпізнаються як “Вода”. Особливо це стосується східних бортів деяких великих криворізьких кар’єрів. Також спостерігаються пікселі класу “Очерети” у зовсім нехарактерних місцях. Скоріше за все — це щільна кустарникова рослинність. Це потребує перевірки на місцевості.