library(readr)
library(dplyr)
library(lubridate)
library(ggplot2)
library(plotly)
library(ggmap)

rad2deg <- function(rad) {(rad * 180) / (pi)}
deg2rad <- function(deg) {(deg * pi) / (180)}



caprino_hours<-read.csv("data/caprino_hours.csv.gz",header = F)
caprino_imu_gyros<-read.csv("data/caprino_imu_gyro.csv.gz", header=F)
caprino_imu_acc<-read.csv("data/caprino_imu_acc.csv.gz", header=F)
caprino_gps<-read.csv("data/caprino_gps.csv",header=F)

caprino_imu_acc %>% nrow()
caprino_imu_gyros %>% nrow()
caprino_gps %>% nrow()
caprino_hours %>% nrow()

Datos de los archivos

Construccion del Dataset

caprino_data<-cbind(caprino_imu_acc,caprino_imu_gyros %>% select(-V1))
caprino_data<-cbind(caprino_data[seq(2,nrow(caprino_data),2),] %>% head(nrow(caprino_gps)-1),  caprino_gps[2:nrow(caprino_gps),] ) 
names(caprino_data)<-c("imu_ts",
                       "accX",
                       "accY",
                       "accZ",
                       "gyroX",
                       "gyroY",
                       "gyroZ",
                       "gps_hour",
                       "gps_ts",
                       "lat",
                       "long",
                       "alt"
                        )
#caprino_data %>% mutate(diff=imu_ts-gps_ts) %>% select(diff)
caprino_data<-caprino_data %>% mutate(activity=ifelse(hms(gps_hour)>hms("8:56:00") & hms(gps_hour)<hms("10:38:00"),"Dco",
                                       
                                        ifelse(hms(gps_hour)>=hms("10:38:00") & hms(gps_hour)<hms("11:38:00"),"C",
                                        ifelse(hms(gps_hour)>=hms("11:38:00") & hms(gps_hour)<hms("12:05:00"),"P",
                                        ifelse(hms(gps_hour)>=hms("12:05:00") & hms(gps_hour)<hms("15:48:00"),"Dca",
                                        ifelse(hms(gps_hour)>=hms("17:30:00") & hms(gps_hour)<hms("20:33:00"),"P",
                                        ifelse(hms(gps_hour)>=hms("20:50:00") & hms(gps_hour)<hms("21:31:00"),"C",
                                        ifelse(hms(gps_hour)>=hms("21:33:00") & hms(gps_hour)<hms("21:50:00"),"Dco",NA)
                                        )))))
                                        )
                        
                        )
caprino_data<-caprino_data %>% mutate(id=cut(as.POSIXct(hms(caprino_data$gps_hour),origin="1960-01-01",tz="GMT"),breaks="1 min")) 

Numero de mediciones por tipo de actividad

NA hace referencia a aquellas mediciones que no fueron etiquetadas

caprino_data %>% group_by(activity) %>% summarise(n=n())

Grafica de la diferencia entre el tiempo de muestreo de la IMU y GPS.

  ggplot(caprino_data%>% mutate(diff=imu_ts - gps_ts))+
  geom_line(aes(y=diff,x=seq(1,nrow(caprino_data))),color='blue')+
  theme_bw()

Grafica del trayecto georeferenciado discriminado por actividad

Grafica del trayecto georeferenciado discriminado por actividad

Las zonas con menor densidad de puntos indican un menor lapso de tiempo en esa zona.

caprino_data   %>%
ggplot(aes(x=long,y=lat))+
  geom_point(aes(color=activity),alpha=0.01,size=0.8)+
  scale_color_brewer(palette="Spectral")+
  theme_bw()

caprino_data_altitude_group<-caprino_data %>% mutate(altitude_group = cut(alt, breaks = c(200,378,525,527,530,650,800,900))) 

ggplot(caprino_data_altitude_group,aes(x=long,y=lat))+
  stat_density2d(aes(fill=altitude_group,alpha=..level..), geom="polygon",  bins=1000) +
  theme_minimal()
  

Distribución de los resultados de los sensores en cada una de las actividades (sin outliers)

caprino_data_melted<-caprino_data %>% select(accX,accY,accZ,gyroX,gyroY,gyroZ,activity) %>% reshape2::melt() 
Using activity as id variables
  ggplot(caprino_data_melted)+
  geom_boxplot(aes(x=variable,color=variable,y=value),outlier.size=0.1,outlier.shape = NA)+
  scale_y_continuous(limits = c(-25,10))+
  theme_bw()+
theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  facet_wrap(~activity) 

NA

Tomamos muestras aleatorias de 1 minuto de duracion para sobre las cuales despues querremos predecir el comportamiento

set.seed(21092019)
minute_slice<-as.vector(t(caprino_data %>% group_by(id) %>% summarise(n=n()) %>% select(id)))
trainidx<-sample(1:length(minute_slice),(length(minute_slice)*70)/100.0)
data_train<-caprino_data %>% filter( id %in% minute_slice[trainidx])
data_test<-caprino_data %>% filter( id %in% (minute_slice[-trainidx]))
data_test%>% group_by(id) %>% summarise(n=n())

Aplicamos Bag-of-features.

presupuesto

Consideramos cada muestra como un vector de 5 dimensiones. La idea es aplicar un algoritmo de clustering sobre estos vectores (accX,accY,accZ,GyroX,gyroY). Una vez encontrado los centroides, para cada muestra de 1 se construye un histograma de los vectores que han caido en cada uno de estos clusters. Este histograma es el que se utiliza para entregar el algoritmo.

La hipotesis de aplicar este metodo es que aquellas muestras que pertenecen a una misma actividad tendran valores similares. Los cuales han sido representado mediantes estos histogramas.

Aplicamos k-means con 12 centroides sobre el conjunto de entrenamiento.

cluster_results<-kmeans(x = data_train%>% select(accX,accY,accZ,gyroX,gyroY), centers = 24, nstart = 5)
did not converge in 10 iterationsQuick-TRANSfer stage steps exceeded maximum (= 8090550)Quick-TRANSfer stage steps exceeded maximum (= 8090550)Quick-TRANSfer stage steps exceeded maximum (= 8090550)Quick-TRANSfer stage steps exceeded maximum (= 8090550)
data_train_cluster<-cbind(data_train,cluster=cluster_results$cluster) %>% group_by(activity,cluster)
data_train_cluster %>% summarise(n=n()) %>%
  ggplot()+
  geom_col(aes(x=cluster,y=n),fill='skyblue')+
  facet_wrap(~activity)+
  theme_bw()

NA

Aplicamos k-means sobre el conjunto de test. Se usan los mismos centroides encontrados en training

cluster_results_test<-kmeans(x = data_test%>% select(accX,accY,accZ,gyroX,gyroY), centers = cluster_results$centers)
data_test_cluster<-cbind(data_test,cluster=cluster_results_test$cluster) %>% group_by(activity,cluster)
data_test_cluster %>% summarise(n=n()) %>%
  ggplot()+
  geom_col(aes(x=cluster,y=n),fill='orange')+
  facet_wrap(~activity)+
  theme_bw()

Preparando el dataset para aplicar un clasificador

Tomamos intervalos de 1m y creamos los atributos usando bag-of-features

sample_minute_slice<-minute_slice[sample(1:length(minute_slice),40)]
data_train_cluster %>% filter (id %in% sample_minute_slice)  %>% group_by(activity,id,cluster) %>% summarise(n=n()) %>%
  ggplot()+
  geom_col(aes(x=cluster,y=n,fill=activity))+
  facet_wrap(~id)+
  theme_bw()

data_train_cluster_labeled<-data_train_cluster   %>% group_by(id,cluster) %>% summarise(n=n()) %>% reshape2::dcast(id~cluster,fill = 0) %>% inner_join(data_train_cluster%>% ungroup() %>% select(id,activity)  %>% unique()  ,by="id") %>% filter(!is.na(activity))
Using n as value column: use value.var to override.
data_test_cluster_labeled<-data_test_cluster   %>% group_by(id,cluster) %>% summarise(n=n()) %>% reshape2::dcast(id~cluster,fill = 0) %>% inner_join(data_test_cluster%>% ungroup() %>% select(id,activity)  %>% unique() ,by="id") 
Using n as value column: use value.var to override.

Probamos Random Forest

Aplicamos 2x5 CV para elegir la mejor version del modelo

library(caret)
library(doMC)
registerDoMC(cores=6)
ctrl_fast <- trainControl(method="repeatedcv", 
                     repeats=2,
                     number=5, 
                     #summaryFunction=twoClassSummary,
                     verboseIter=F,
                     #preProcOptions = list(pcaComp = 10),
                     classProbs=TRUE,
                     allowParallel = T)  
nnGrid <-  expand.grid(decay = c(0), size=c(10,20,50,100,200,300)) 
svmGrid <-  expand.grid(sigma = c(0.001,0.00001), C=c(0.1,0.001,0.5)) 
kerasGrid <- expand.grid(
  size=c(20,50,2000,5000),
  lambda=c(0),
  batch_size=c(1024),
  decay=c(0),
  activation=c('tanh','sigmoid','relu'),
  lr=c(0.001), rho=c(0.9)
)
train_formula=formula("activity~.")
#ctrl_fast$sampling<-"smote"
rfFit <- caret::train(train_formula,
               data = data_train_cluster_labeled %>% select(-id),
               #metric="ROC",
               #preProcess=c("pca"),
               
               #method = "mlpWeightDecay",
               #method = "svmRadial",
               #method ="mlpKerasDecay",
               method = "rf",
               #tuneGrid=kerasGrid,
               tuneLength=11,
               verbose=0,
               #epochs=100,
               trControl = ctrl_fast)

modelos obtenidos

rfFit
Random Forest 

459 samples
 24 predictors
  4 classes: 'C', 'Dca', 'Dco', 'P' 

No pre-processing
Resampling: Cross-Validated (5 fold, repeated 2 times) 
Summary of sample sizes: 366, 368, 368, 368, 366, 368, ... 
Resampling results across tuning parameters:

  mtry  Accuracy   Kappa    
   2    0.7840887  0.7014212
   4    0.7951013  0.7175083
   6    0.7983624  0.7220231
   8    0.7907174  0.7116646
  10    0.7896777  0.7099344
  13    0.7830726  0.7005419
  15    0.7853416  0.7040351
  17    0.7831435  0.7006733
  19    0.7841949  0.7021027
  21    0.7831435  0.7010262
  24    0.7754748  0.6901564

Accuracy was used to select the optimal model using the largest value.
The final value used for the model was mtry = 6.

Evaluacion sobre el conjunto de test

Matriz de Confusion

data_test_prediction<-predict(rfFit,data_test_cluster_labeled %>% select(-id))#,type="prob")
caret::confusionMatrix(data_test_prediction,as.factor(data_test_cluster_labeled$activity))
Confusion Matrix and Statistics

          Reference
Prediction  C Dca Dco  P
       C   25   0   1  1
       Dca  0  65   5  9
       Dco  0   1  27  4
       P    1   7   4 44

Overall Statistics
                                          
               Accuracy : 0.8299          
                 95% CI : (0.7695, 0.8799)
    No Information Rate : 0.3763          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.7605          
 Mcnemar's Test P-Value : NA              

Statistics by Class:

                     Class: C Class: Dca Class: Dco Class: P
Sensitivity            0.9615     0.8904     0.7297   0.7586
Specificity            0.9881     0.8843     0.9682   0.9118
Pos Pred Value         0.9259     0.8228     0.8438   0.7857
Neg Pred Value         0.9940     0.9304     0.9383   0.8986
Prevalence             0.1340     0.3763     0.1907   0.2990
Detection Rate         0.1289     0.3351     0.1392   0.2268
Detection Prevalence   0.1392     0.4072     0.1649   0.2887
Balanced Accuracy      0.9748     0.8874     0.8489   0.8352

CONCLUSIONES

---
title: "Dataset Ganado Caprino 7/9/18"
output: 
  html_notebook: 
    code_folding: hide
---
```{r}
library(readr)
library(dplyr)
library(lubridate)
library(ggplot2)
library(plotly)
library(ggmap)

rad2deg <- function(rad) {(rad * 180) / (pi)}
deg2rad <- function(deg) {(deg * pi) / (180)}



caprino_hours<-read.csv("data/caprino_hours.csv.gz",header = F)
caprino_imu_gyros<-read.csv("data/caprino_imu_gyro.csv.gz", header=F)
caprino_imu_acc<-read.csv("data/caprino_imu_acc.csv.gz", header=F)
caprino_gps<-read.csv("data/caprino_gps.csv",header=F)

caprino_imu_acc %>% nrow()
caprino_imu_gyros %>% nrow()
caprino_gps %>% nrow()
caprino_hours %>% nrow()


```


### Datos de los archivos 
* caprino_imu_acc.csv, 4 columnas: tiempo UTC en microsegundos,
aceleración X en m/s², aceleración Y en m/s², aceleración, Z en m/s².
Muestreado a 200 muestras por segundo.

* caprino_imu_gyro.csv, 4 columnas: tiempo UTC en microsegundos,
velocidad angular X en rad/s, velocidad angular Y en rad/s, velocidad
angular Z en rad/s. Muestreado a 200 muestras por segundo.

* caprino_gps.csv, 4 columnas: tiempo UTC en microsegundos, latitud en
radianes, longitud en radianes, altitud en metros. Muestreado a 5
muestras por segundo.

* caprino_hours.csv: tiempo en horas, minutos y segundos. Muestreado a
5 muestras por segundo. La primera hora de este archivo coincide con
el primer valor de tiempo UTC del archivo caprino_gps.csv.



## Construccion del Dataset

```{r}
caprino_data<-cbind(caprino_imu_acc,caprino_imu_gyros %>% select(-V1))

caprino_data<-cbind(caprino_data[seq(2,nrow(caprino_data),2),] %>% head(nrow(caprino_gps)-1),  caprino_gps[2:nrow(caprino_gps),] ) 
names(caprino_data)<-c("imu_ts",
                       "accX",
                       "accY",
                       "accZ",
                       "gyroX",
                       "gyroY",
                       "gyroZ",
                       "gps_hour",
                       "gps_ts",
                       "lat",
                       "long",
                       "alt"
                        )
#caprino_data %>% mutate(diff=imu_ts-gps_ts) %>% select(diff)
caprino_data<-caprino_data %>% mutate(activity=ifelse(hms(gps_hour)>hms("8:56:00") & hms(gps_hour)<hms("10:38:00"),"Dco",
                                       
                                        ifelse(hms(gps_hour)>=hms("10:38:00") & hms(gps_hour)<hms("11:38:00"),"C",
                                        ifelse(hms(gps_hour)>=hms("11:38:00") & hms(gps_hour)<hms("12:05:00"),"P",
                                        ifelse(hms(gps_hour)>=hms("12:05:00") & hms(gps_hour)<hms("15:48:00"),"Dca",
                                        ifelse(hms(gps_hour)>=hms("17:30:00") & hms(gps_hour)<hms("20:33:00"),"P",
                                        ifelse(hms(gps_hour)>=hms("20:50:00") & hms(gps_hour)<hms("21:31:00"),"C",
                                        ifelse(hms(gps_hour)>=hms("21:33:00") & hms(gps_hour)<hms("21:50:00"),"Dco",NA)
                                        )))))
                                        )
                        
                        )

caprino_data<-caprino_data %>% mutate(id=cut(as.POSIXct(hms(caprino_data$gps_hour),origin="1960-01-01",tz="GMT"),breaks="1 min")) 

```
  
##Numero de mediciones por tipo de actividad  
NA hace referencia a aquellas mediciones que no fueron etiquetadas
```{r}
caprino_data %>% group_by(activity) %>% summarise(n=n())

```

## Grafica de la diferencia entre el tiempo de muestreo de la IMU y GPS.
```{r}
  ggplot(caprino_data%>% mutate(diff=imu_ts - gps_ts))+
  geom_line(aes(y=diff,x=seq(1,nrow(caprino_data))),color='blue')+
  theme_bw()
```

## Grafica del trayecto georeferenciado  discriminado por actividad 
```{r fig.width=12}
mza_map <- get_map(location = c(lat=-32.34, lon=-67.90747), zoom = 14, maptype = "terrain", color = 'bw')

ggmap(mza_map)+ 
  #stat_density2d(aes(y= rad2deg(lat), x=rad2deg(long),fill=altitude_group,alpha=..level..), geom="polygon",  bins=1000,data=caprino_data_altitude_group)+
 
  geom_point(aes(y= rad2deg(lat), x=rad2deg(long),shape=activity,color=activity),size=2,data=caprino_data%>% sample_n(100000),fill='black')+
  scale_color_brewer(palette="Set2")
  

#qmplot(x =rad2deg(long), y=rad2deg(lat), data = caprino_data, maptype = "toner", color = I("red"))

  
  
#mza <- c(left = -67.925, bottom = -32.40, right = -67.9, top =-32.25)
#map <- get_stamenmap(bbox=mza, zoom = 15, maptype = "toner-lite",crop = T)
#ggmap(map)  +
#  geom_point(aes(y= rad2deg(lat), x=rad2deg(long),shape=activity,color=activity),size=2,data=caprino_data%>% sample_n(100000),fill='black')+
##  scale_color_brewer(palette="Set2")
#?get_stamenmap
    
```
## Grafica del trayecto georeferenciado  discriminado por actividad
Las zonas con menor densidad de puntos indican un menor lapso de tiempo en esa zona.
```{r}

caprino_data   %>%
ggplot(aes(x=long,y=lat))+
  geom_point(aes(color=activity),alpha=0.01,size=0.8)+
  scale_color_brewer(palette="Spectral")+
  theme_bw()
```


```{r fig.width=1}
caprino_data_altitude_group<-caprino_data %>% mutate(altitude_group = cut(alt, breaks = c(200,378,525,527,530,650,800,900))) 

ggplot(caprino_data_altitude_group,aes(x=long,y=lat))+
  stat_density2d(aes(fill=altitude_group,alpha=..level..), geom="polygon",  bins=1000) +
  theme_minimal()
  
```


## Distribución de los resultados de los sensores en cada una de las actividades (sin outliers)
* Se observan diferencias en la distribucion de la actividad P en comparacion a las otras actividades.
* Las actividades **Dca** y **Dco** presentan similtudes (lo cual es esperable).
* La activdad **P** presenta algunas similitudes con **Dca** y **Dco**, lo que puede dificultar su detection.

```{r}
caprino_data_melted<-caprino_data %>% select(accX,accY,accZ,gyroX,gyroY,gyroZ,activity) %>% reshape2::melt() 
  ggplot(caprino_data_melted)+
  geom_boxplot(aes(x=variable,color=variable,y=value),outlier.size=0.1,outlier.shape = NA)+
  scale_y_continuous(limits = c(-25,10))+
  theme_bw()+
theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  facet_wrap(~activity) 
  
```
# Tomamos muestras aleatorias de 1 minuto de duracion para sobre las cuales despues querremos predecir el comportamiento

```{r}
set.seed(21092019)
minute_slice<-as.vector(t(caprino_data %>% group_by(id) %>% summarise(n=n()) %>% select(id)))
trainidx<-sample(1:length(minute_slice),(length(minute_slice)*70)/100.0)
data_train<-caprino_data %>% filter( id %in% minute_slice[trainidx])
data_test<-caprino_data %>% filter( id %in% (minute_slice[-trainidx]))
data_test%>% group_by(id) %>% summarise(n=n())
```

# Aplicamos Bag-of-features.
## presupuesto

 Consideramos cada muestra como un vector de 5 dimensiones. La idea es aplicar un algoritmo de clustering sobre estos vectores (accX,accY,accZ,GyroX,gyroY). Una vez encontrado los centroides, para cada muestra de 1 se construye un histograma de los vectores que han caido en cada uno de estos clusters. Este histograma es el que se utiliza para entregar el algoritmo.

La hipotesis de aplicar este metodo es que aquellas muestras que pertenecen a una misma actividad tendran valores similares. Los cuales han sido representado mediantes estos histogramas. 

## Aplicamos k-means con 12 centroides sobre el conjunto de entrenamiento.

```{r}

cluster_results<-kmeans(x = data_train%>% select(accX,accY,accZ,gyroX,gyroY), centers = 24, nstart = 5)
data_train_cluster<-cbind(data_train,cluster=cluster_results$cluster) %>% group_by(activity,cluster)
data_train_cluster %>% summarise(n=n()) %>%
  ggplot()+
  geom_col(aes(x=cluster,y=n),fill='skyblue')+
  facet_wrap(~activity)+
  theme_bw()
  
```

## Aplicamos k-means sobre el conjunto de test. Se usan los mismos centroides encontrados en training
```{r}
cluster_results_test<-kmeans(x = data_test%>% select(accX,accY,accZ,gyroX,gyroY), centers = cluster_results$centers)
data_test_cluster<-cbind(data_test,cluster=cluster_results_test$cluster) %>% group_by(activity,cluster)
data_test_cluster %>% summarise(n=n()) %>%
  ggplot()+
  geom_col(aes(x=cluster,y=n),fill='orange')+
  facet_wrap(~activity)+
  theme_bw()

```

## Preparando el dataset para aplicar un clasificador
Tomamos intervalos de 1m y creamos los atributos usando bag-of-features
```{r fig.height=12}


sample_minute_slice<-minute_slice[sample(1:length(minute_slice),40)]
data_train_cluster %>% filter (id %in% sample_minute_slice)  %>% group_by(activity,id,cluster) %>% summarise(n=n()) %>%
  ggplot()+
  geom_col(aes(x=cluster,y=n,fill=activity))+
  facet_wrap(~id)+
  theme_bw()

```
```{r}

data_train_cluster_labeled<-data_train_cluster   %>% group_by(id,cluster) %>% summarise(n=n()) %>% reshape2::dcast(id~cluster,fill = 0) %>% inner_join(data_train_cluster%>% ungroup() %>% select(id,activity)  %>% unique()  ,by="id") %>% filter(!is.na(activity))



data_test_cluster_labeled<-data_test_cluster   %>% group_by(id,cluster) %>% summarise(n=n()) %>% reshape2::dcast(id~cluster,fill = 0) %>% inner_join(data_test_cluster%>% ungroup() %>% select(id,activity)  %>% unique() ,by="id") 
```
## Probamos Random Forest
Aplicamos 2x5 CV para elegir la mejor version del modelo
```{r}
library(caret)
library(doMC)
registerDoMC(cores=6)
ctrl_fast <- trainControl(method="repeatedcv", 
                     repeats=2,
                     number=5, 
                     #summaryFunction=twoClassSummary,
                     verboseIter=F,
                     #preProcOptions = list(pcaComp = 10),
                     classProbs=TRUE,
                     allowParallel = T)  

nnGrid <-  expand.grid(decay = c(0), size=c(10,20,50,100,200,300)) 
svmGrid <-  expand.grid(sigma = c(0.001,0.00001), C=c(0.1,0.001,0.5)) 

kerasGrid <- expand.grid(
  size=c(20,50,2000,5000),
  lambda=c(0),
  batch_size=c(1024),
  decay=c(0),
  activation=c('tanh','sigmoid','relu'),
  lr=c(0.001), rho=c(0.9)
)
train_formula=formula("activity~.")
#ctrl_fast$sampling<-"smote"
rfFit <- caret::train(train_formula,
               data = data_train_cluster_labeled %>% select(-id),
               #metric="ROC",
               #preProcess=c("pca"),
               
               #method = "mlpWeightDecay",
               #method = "svmRadial",
               #method ="mlpKerasDecay",
               method = "rf",
               #tuneGrid=kerasGrid,
               tuneLength=11,
               verbose=0,
               #epochs=100,
               trControl = ctrl_fast)

```
## modelos obtenidos
```{r}
rfFit
```

## Evaluacion sobre el conjunto de test
Matriz de Confusion
```{r}
data_test_prediction<-predict(rfFit,data_test_cluster_labeled %>% select(-id))#,type="prob")
caret::confusionMatrix(data_test_prediction,as.factor(data_test_cluster_labeled$activity))
```

```{r}

table(data_test_prediction,as.factor(data_test_cluster_labeled$activity))

reshape2::melt(table(data_test_prediction,as.factor(data_test_cluster_labeled$activity))) %>%
  ggplot(aes(x=data_test_prediction,y=Var2))+
  geom_tile(aes(fill=value), colour = "white") + 
   geom_text(aes(label = sprintf("%1.0f", value)), vjust = 1)+
  scale_fill_gradient(low = "blue", high = "red")+
  xlab(" Predicted Activity ")+ylab(" Actual Activity")+
  theme_bw()+ theme(legend.position = "none")
```

#CONCLUSIONES
