FPCC II - Projeto Final

Amanda Souza

Universidade Federal de Campina Grande

Julho 13, 2018

Abstract

Atualmente, a detecção de incidentes relacionados a segurança de dados, continuam em constante desenvolvimento. A técnica crossover foi apresentado na literatura, como uma nova abordagem na detecção de stepping-stones. Neste trabalho, os testes de hipóteses e inferência estatística são aplicados, para analisar o desempenho da técnica crossover apresentada por Zhang. A reanálise aplicada apresentou uma nova característica nos dados, como a presença de chaff e outliers nas longas conexões. Os testes de hipóteses aceitaram cem porcento das hipóteses alternativas e, ainda, foi possível comparar o índice de detecção do trabalho anterior ao método atual, baseada na classificação da mediana.

1 Introdução

O avanço em infraestrutura computacional e a popularidade da Internet acentuam a importância da segurança da informação como um tema para discussões na comunidade científica. Independente dos recursos de segurança cibernética existentes, milhões de ciberataques não são reportados ou acontecem sem o conhecimento da vítima (HERD; KRIENDLER, 2013).

Em uma ação maliciosa, os invasores lançam os ataques às vítimas de forma indireta e sofisticada, para manter o anonimato na rede e burlar os recursos de segurança (KUO et al., 2010). As invasões podem ser provenientes de qualquer parte do mundo, através do controle de uma conjunto de máquinas stepping-stone, que dificultam o rastreamento do ataque.

Uma stepping-stone pode ser definida como uma técnica que mantém o anonimato do cibercriminoso, através do envio de ataques por uma cadeia de máquinas interligadas entre si por acesso remoto (DING; HUANG, 2011). Esse ataque propicia ao intruso, a habilidade de acessar o sistema comprometido, anonimamente, para roubar informações confidenciais e vendê-las na rede.

A primeira técnica para detectar intrusões por stepping-stones foi desenvolvida por (STANIFORD-CHEN; HEBERLEIN, 1995), e conforme alguns trabalhos sugerem (DAUD; GHAZALI; OMAR, 2015; HUANG; ZHANG; PHAY, 2016; KUMAR; GUPTA, 2016; SANTOS; TENÓRIO; A. A. SANTOS, 2017), as estratégias para proteção de ataques por stepping-stones estão em constante aprimoramento. Em geral, as abordagens dos sistemas de detecção de intrusos para stepping-stones podem ser classificadas baseado em thumbprint, watermark, steganography, desvio padrão dos pacotes, estimativa do tamanho da conexão e em crossover.

No presente artigo, será estudado uma técnica híbrida, baseada na estimativa do tamanho da conexão em uRTT (DING; HUANG, 2011) combinada a abordagem em crossover (HUANG; ZHANG; PHAY, 2016). Em comparação aos principais trabalhos relacionados, a abordagem atual aplica uma reanálise nos dados de (HUANG; ZHANG; PHAY, 2016), para avaliar eventuais problemas no algoritmo proposto e reduzir a incidência de alertas falso-positivo dos resultados.

Como contribuições principais desse artigo, pode-se citar: (i) proposta de melhoria na análise de (HUANG; ZHANG; PHAY, 2016); (ii) a formalização matemática do problema ; (iii) a realização de inferência estatística e testes de hipóteses na técnica ; e (iv) sugestão trabalhos futuros em outras arquiteturas.

2 Detectando Stepping-Stones

As invasões por stepping-stones apresentam como objetivo a realização de cibercrimes de forma anônima, permitindo ao invasor o acesso a outros computadores comprometidos em uma rede.

OS estudos realizados por (OMAR; SIREGAR; BUDIARTO, 2008), (DING; HUANG, 2011) e (HUANG; ZHANG; PHAY, 2016), definiram alguns termos importantes para classificar os tipos de conexões remotas na execução de um ataques por stepping-stones:

Conexão: Uma conexão entre dois hosts ocorre quando um usuário de um computador efetua um login em outro computador;
Cadeia: Dado um conjunto de $n$ máquinas de $H = \{H_1, ..., H_n\}$, uma sequencia de conexões é definida como uma cadeia $C = \{C_1...C_n\}$, onde $C_i$ é uma conexão da máquina $H_i$ para o máquina $H_i+1$ para $i = \{1, .., n$}, conforme pode ser visto na Figura 2.1;

Figure 2.1: Conexão por stepping-stones

Download e Upload: As comunicações entre os computadores são divididas pela direção da troca de informações entre as máquinas. Para o tráfego do tipo download, a comunicação, por exemplo, de uma conexão por stepping-stones acontece entre a máquina $1$ para a máquina $n$. Em contrapartida, para uma comunicação definida por upload, os pacotes realizam o caminho inverso, originando-se da máquina $n$ para a máquina $1$;
Requisição: um pacote é definido como requisição se este participa de uma comunicação de *download} e possui o sinalizadores “client”nos pacotes ssh;
Resposta: Um pacote é definido como resposta, se este participa de uma comunicação de download ou upload e tem apenas flag “server”;
Distribuição RTT: É tempo calculado entre o envio de uma requisição para um destinatário, e recebimento de uma resposta pelo remetente. O cálculo do RTT é estimado para definir a média de tempo que o emissor pode esperar pela confirmação de entrega da mensagem ao destinatário (MITTAL et al., 2015);
Distribuição uRTT: É o cálculo do tempo entre o recebimento da primeira e segunda requisição pelo cliente, conforme pode ser visto na Figura 2.2;

Figure 2.2: Distribuição RTT e uRTT.

Limites Intra-gap: O limite intra-gap está associado ao intervalo de tempo existente entre o pressionamento de teclas individuais de um comando, Unix ou Windows, e, portanto, responsáveis pela formação de um pacote de dados que será enviado como requisição para o computador da vítima;
Limites Inter-gap: É o intervalo de tempo computado entre dois limites consecutivos. Conforme (HUANG; ZHANG; PHAY, 2016), esse limite consiste no gap entre o fim de uma sequência de caracteres determinando pela tecla enter e o primeiro caractere do próximo comando linux. Os limites inter-gaps são aplicados na técnica de estimativa do tamanho da cadeia de máquinas;

As propostas de (DING; HUANG, 2011) e (ZHANG, 2014) são baseadas em duas técnicas distintas na detecção de intrusos. A abordagem de (DING; HUANG, 2011), sugeriu um algoritmo para estimar a distância das conexões a partir do cálculo de ida e volta dos pacotes. Os autores introduziram o conceito de uRTT para mensurar o gap existente entre a máquina do intruso e o computador a ser invadido. Entretanto, o autor apresenta como principal limitação, a presença de cruzamento de pacotes nas conexões de ataque que influenciou no índice de precisão do algoritmo.

Em (ZHANG, 2014), as limitações de (DING; HUANG, 2011) foram aplicadas para criar uma nova estratégia de detecção de stepping-stones. A abordagem crossover computa o cruzamento de pacotes durante a comunicação das conexões. O autor observou que em conexões de ataques, o índice de pacotes crossover pode chegar em $53.64\%$, enquanto as conexões normais possui uma estimativa de $2.63\%$ pacotes crossover por experimento. Embora essa estratégia inicie uma nova era para detectar ataques por stepping-stones, ela foi projetada apenas para o protocolo SSH. Estudos sobre crossover aplicados a uma cadeia de proxies HTTP, TCP/IP, SOCKS ou Voip são necessários para validá-la como uma prova de conceito.

3 Processo de Análise no Trabalho de Zhang

Para o desenvolvimento deste trabalho, foram utilizados os dados e o algoritmo do trabalho de (HUANG; ZHANG; PHAY, 2016), com o objetivo de reanalisar a técnica crossover estudada e validar ou elicitar uma nova metodologia que complemente o índice de precisão do algoritmo.

3.1 Características Experimentais do Trabalho de Zhang

A principal pergunta da pesquisa de (HUANG; ZHANG; PHAY, 2016) inclui a possibilidade de classificar stepping-stones formada por três máquinas entre as conexões formadas por uma máquina. Para responder essa pergunta, foi necessário a configuração de experimentos, com os seguintes requisitos mínimos:

a configuração de dois computadores para exercer as funções de cliente e servidor localizadas na Universidade de Houston;
formação de uma stepping-stones com duas máquinas situadas na cidade de Pittsburg, Pensilvânia;
a interconectividade de todas as máquinas, uma a uma, entre si por conexões remotas por SSH;
a execução do algoritmo em Python e o uso do analisador de protocolos Wireshark para captura do tráfego de pacotes na rede.

A coleta dos dados decorreu da configuração de quarenta experimentos, divididas entre longa e curtas conexões. A variável independente utilizado no experimento é o timestamp das conexões normais e de ataques, coletados individualmente pelo protocolo wireshark. As variáveis de resposta são: os limites intra-gaps, os limites inter-gaps e a eficiência dos limites intra-gaps e inter-gaps classificados pela média desses valores.

Após uma primeira análise, o autor sugeriu remover a variável intra-gap, pois estas medem essencialmente a velocidade de digitação de um usuário e não dependem do comprimento da cadeia. Entretanto, a variável inter-gap dependem do tamanho da cadeia e apresentam um número maior de pacotes crossover. Os dados foram disponibilizados em planilhas do tipo CSV para uma futura reanálise dos resultados.

Sobre a análise dos resultados do trabalho de (HUANG; ZHANG; PHAY, 2016) , foi utilizado uma matriz de confusão para avaliar as métricas de acurácia e a taxa de incidência de alarmes falso-positivo na classificação das conexões. Entretanto, não foi realizado teste de hipóteses ou determinação de intervalos de confiança das conexões, para verificar a significância estatística dos métodos abordados.

3.2 Importanto as bibliotecas

As principais bibliotecas usadas na reanálise deste trabalho são: o resample, usado nos testes de permutação e o boot, para realizar bootstrap dos dados.

3.3 Análise e exploração dos dados

Os dados analisados, são provenientes do trabalho de (HUANG; ZHANG; PHAY, 2016), após uma configuração de quarenta experimentos, sendo vinte para longas conexões (long-chain) e vinte para curtas conexões (short-chain).

Cada coluna é composta por um experimento que são classificados pelos limites inter-gaps calculados pelo algoritmo. Nos dados, é possível verificar a presença de valores NA`s. Portanto, para não ocasionar problemas, é necessário limpar os dados para removê-los.

$\label{fig:fig2}Análise do dataset$

Figure 3.1: Análise do dataset

O gráfico de boxplot 3.1, representa os dois tipos de datasets. Nele, é possível verificar uma presença maior de outliers nos limites inter-gaps das longas conexões. Também, é possível visualizar uma presença de outliers superiores nas longas conexões, podendo enfatizar que os dados das longas conexões apresentam um comportamento diferente das conexões normais.

3.4 Calculando Maximum Gap Ratios (mgr)

Para calcular Maximum Gap Ratios, primerio é realizado cálculo do ratio dos limites inter-gaps. Assim, seja $i = [1,...,n]$, um vetor de valores dos limites inter-gaps em ordem crescente, e $i$ é o número de iterações de $1$ até o $n$-ésimo valor do limite inter-gap, temos:

\[\begin{equation} \begin{aligned} ratio(x) = \sum_{i=1}^{n} \frac{|x_i|} {x_{i - 1}}\left \{ \begin{matrix}x_i \ne 0\\x_i > x_{i - 1} \end{matrix}\right. \end{aligned} \end{equation}\]

Após o cálculo do ratio(x), é necessário classificar o Maximum Gap Ratios com a seguinte equação:

\[\begin{equation} \begin{aligned} mgr(x) = max\{ratio(x)\}. \end{aligned} \end{equation}\]

O Maximum Gap Ratios são responsáveis pela computação dos pacotes crossovers de uma conexão.

Após um total de quarenta experimentos, os autores delimitaram um limiar para detecção de intrusos por stepping-stones. Os valores ordenados em ordem crescente e o threshold podem ser visualizados na Figura 3.2.

$\label{fig:fig3}MRG das Conexões$

Figure 3.2: MRG das Conexões

No gráfico da Figura 3.2, são apresentados os Maximum Gap Ratios para longas conexões (cículos vermelhos) e os Maximum Gap Ratios para curtas conexões. Para longas conexões, um valor foi detectado como falso positivo, ou seja, um gap de uma conexão normal foi detectado como ataque. Nas curtas conexões, três valores foram detectados como falso negativos, ou como gaps provenientes de ataques.

Um ponto importante observado no trabalho atual, foi a delimitação de uma limiar diferente do citado pelo autores em (HUANG; ZHANG; PHAY, 2016). O limiar delimitado pelos autores no artigo original foi $threshold = 6$. Entretanto, na reanálise para os mesmos dados, e aplicando a mesma técnica, o limiar apresentou uma alteração. Para que os resultados apresentassem a mesma acurácia, foi delimitado um $threshold = 5$.

O fator de erro humano pode explicar o trade-off entre os valores originais e os valores da reanálise. Na análise do artigo original, o processo foi totalmente manual, com o uso da ferramenta microsoft excel. No trabalho atual, usou-se o rstudio como ferramenta de exploração dos dados. Sabe-se assim que, uma análise manual pode ocasionar problemas e até mesmo um erro de cálculo, como pode ser visto nos resultados apresentados na Figura .

Para verificar a acurácia do trabalho, os autores aplicaram uma matriz de confusão nos valores do Maximum Gap Ratios. A tabela abaixo apresenta os resultados concluídos pelos autores:

#Reorganizando os dados para calcular a matriz de confusão
novo_dataset <- original %>% 
    select(mgr, type, sequencia) %>%
    mutate(type = ifelse(type == "long",  yes = 1, no = 0))

# Métricas da matriz de confusão
get_metrics<- function(df,cutoff)
{
  tp<-0
  fp<-0
  fn<-0
  tn<-0
  
  for (i in 1:nrow(df))
  {
    true_val<- df[i,2]
    pred_val<- df[i,1]
    if(pred_val>=cutoff && true_val =="long")
      tp<-tp+1 
    if(pred_val<cutoff && true_val =="long")
      fn<- fn+1
    if(pred_val>=cutoff && true_val =="short")
      fp<- fp+1
    if(pred_val<cutoff && true_val =="short")
      tn<- tn+1
  }
  n<- tp+tn+fp+fn
  tp_rate<- tp/(tp+fn)
  fp_rate<- fp/(tn+fp)
  fn_rate<- fn/(tn+fp)
  accuracy<- (tp+tn)/n
  recall<- tp/(tp+fn)
  precision<- tp/(tp+fp)
  fmeasure<-(2*precision*recall)/(precision + recall)
  threshold <- cutoff
  
  out<- data.frame(tp_rate,fp_rate, fn_rate,accuracy,recall, threshold)
  colnames(out)<- c("tp_rate","fp_rate","fn_rate" ,"accuracy","recall", "threshold")
  return ( out )
}



get_metrics(original, 5)

Para um $threshold = 5$ a taxa de precisão do algoritmo foi de $85\%$ de detecção das longas conexões. Assim, das vinte conexões de ataque testadas, apenas três não foram detectadas pelo algoritmo, e assim consideradas falso negativa. A taxa de falso positivo foi de $5\%$, ou seja, das vinte conexões normais testadas, apenas uma foi detectada como ataque.

Na figura 3.3, é possível verificar as conexões detectadas pelo algoritmo:

$\label{fig:fig4}Distribuição das Métricas de Deteção$

Figure 3.3: Distribuição das Métricas de Deteção

A Figura 3.3 fornece uma avaliação visual simples da taxa de falsos alarmes do método na detecção de conexão longas apresentadas por (HUANG; ZHANG; PHAY, 2016). Os autores afirmam que a quantidade de falsos positivos/negativos podem ser toleráveis, devido ao alto índice de detecção do algoritmo. Assim, é possível notar sucesso no objetivo do trabalho em identificar longas cadeias formadas por três máquinas contra uma conexão normal formada por uma máquina. Os autores ainda afirmam uma taxa de detecção de 100% em longas conexões formadas por mais de cinco computadores.

4 Reanálise dos dados com uma nova metodologia

O objetivo deste estudo é reanalisar os dados do trabalho de (HUANG; ZHANG; PHAY, 2016), para fins de avaliação no que diz respeito às diferenças de classificação de stepping-stone baseada na técnica crossover. É importante enfatizar que, este estudo limita-se a analisar os dados de uma específica experimentação, fazendo-se necessário a aplicação da mesma técnica de análise em outros ambientes e abordagens para stepping-stone, como por exemplo, detectar intrusões em pacotes do tipo HTTP. Este estudo estende a melhorar a abordagem anterior e propor alguns trabalhos futuros.

4.1 Seleção das variáveis

O valor dos limites inter-gaps é a variável independente da reanálise, apresentados uma medida em microssegundos. As variáveis dependentes são: (i) a mediana dos valores inter-gaps, em microssegundos, para avaliar a distribuição central dos valores; (ii) a significância estatística pelo Wilcoxon rank-sum dos valores inter-gaps, em microssegundos. Essa métrica calcula a diferença entre as medianas dos limites inter-gaps, para avaliar a significância estatística dos resultados.

4.2 Questões da Pesquisa e Hipóteses Atuais

As métricas acurácia e a taxa de incidência de alarmes falso-positivo de uma matriz de confusão são amplamente utilizadas para avaliar a eficácia de um sistema de detecção de intrusos. A acurácia do algoritmo está relacionada com a quantidade de longas e curtas conexões que foram corretamente classificadas para cada etapa dos experimentos. A taxa de incidência de alarmes falso-positivo determina a quantidade de conexões normais que são detectadas como ataque.Sendo assim, principal pergunta da pesquisa objetiva classificar a existência de longas conexões, entre conexões normais, em um computador classificado como vítima.

$P1$ - Os valores inter-gaps das conexões apresentam diferenças nas métricas de eficiência quando temos como entrada dados de longas e curtas conexões?

A questão da pesquisa apresentou às seguintes hipóteses:

$H_1-0$: Os valores inter-gaps das conexões normais e ataque são iguais.

\[H_1-0: V_{inter-gaps} = V_{inter-gaps}\]

$H_1-1$: Os valores inter-gaps das conexões normais e ataque são diferentes.

\[H_1-1: V_{inter-gaps} \neq V_{inter-gaps}\]

$H_2-0$: A eficiência dos limites inter-gaps das conexões normais e ataque são iguais.

\[H_2-0: M_{inter-gaps} = M_{inter-gaps}\]

$H_2-1$: A eficiência dos limites inter-gaps das conexões normais e ataque são diferentes.

\[H_2-1: M_{inter-gaps}\neq M_{inter-gaps}\]

Caso alguma das hipóteses nulas sejam refutadas, a técnica usada como verificação da tendência central dos experimentos (mediana), será analisada para que se possa estabelecer uma nova abordagem que proporcione uma distinção entre longas e curtas conexões.

4.3 Características da Reanálise dos Dados

Os métodos estatísticos adotados na reanálise são não-paramétrico, dividido em descritivo e inferencial. Na estatística descritiva, foi selecionado o método da mediana dos limites inter-gaps para verificar os valores centrais em cada tipo de conexão. O método de Wilcoxon rank-sum foi usado como estatística de inferência, para verificar a significância estatística das diferenças entre duas medianas. As estatísticas não-paramétricas são menos sensíveis a outliers, os dados apresentaram uma incidência alta de *outliers} para as conexões de ataque. A probabilidade de rejeitar as hipóteses nulas ($\alpha$), foi definido para o valor de $\alpha = 0,05$, apresentando um nível de confiança de $0,95$ ao aceitar as hipóteses nulas.

As técnicas de bootstrap e permutação foram adotadas para cada tipo de método estatístico, para evitar erros de estimação dos valores observados e a possibilidade de representar toda a população dos dados. Um teste de *resampling} foi usado no método estatístico aplicado por Zhang, e foi verificado que em casos de reamostragem e permutação, o algoritmo proposto pelos autores não apresentou um alto índice de detecção. Na reanálise atual, pretendeu-se mitigar os erros cometidos na análise original dos dados.

4.4 Análise de ameaças à validade

A validade de um experimento está relacionada ao nível de confiança que se pode ter no processo de investigação experimental (WAINER, 2007). Assim, nesse tópico são destacadas as principais ameças à validade da reanalise dos dados.

4.4.1 Ameaças à validade interna

A validade interna da pesquisa original, pode ser comprometida na instrumentação dos experimentos. A técnica crossover está associada a velocidade de digitação do usuário em uma stepping-stone. Dessa forma, caso o invasor ou experimentador utilize scripts para enviar ataques, poderá existir uma diferença nos resultados que pode invalidar o algoritmo de detecção.

4.4.2 Ameaças à validade de constructo

A validade de constructo pode ser ameaçada, na seleção dos valores inter-gaps. É possível que uma quantidade mínima de gaps, não sejam suficientes para observar as diferenças significativas entre as conexões normais e de ataque. Desse modo, temos uma ameaça à validade de construção causada pela má definição do projeto experimental.

4.4.3 Ameaças à validade de conclusão

Os valores experimentais da pesquisa são selecionadas a partir de uma única base de dados, que pode ter características que não valem para todas as arquiteturas de rede. Logo, há uma ameaça à validade externa na generalização dos resultados para todos os tipos de stepping-stone. Ainda, os dados foram coletados a partir de um determinado espaço de tempo em uma específica arquitetura. Assim, os trade-offs de uma rede, como atrasos de pacotes por uma grande demanda da rede, podem influenciar nos resultados, o que configura uma ameaça à validade externa na supressão do tempo.

4.5 Avaliação dos resultados

A inferência estatística baseada em Intervalos de Confiança avaliam representatividade de cada conexão analisada na reanálise dos dados. Uma questão a ser verificada baseia-se na diferença significativa das longas e curtas conexões. Por exemplo, os limites inter-gaps das conexões normais podem ser inferiores às conexões de ataque. Essa hipótese é apontada, pois em uma longa conexão por stepping-stone, os pacotes gastariam mais tempo ao fazer o uRTT, pelo grande número de máquinas conectadas (mínimo de 3 a 5 computadores), comparadas a uma conexão normal (dois computadores). Para verificar essa afirmação, a Figura 4.1 apresenta os intervalos de confiança para cada tipo de conexão.

$\label{fig:fig5}Intervalo de Confiança por Conexão$

Figure 4.1: Intervalo de Confiança por Conexão

O gráfico dos Intervalos de Confiança (Figura 4.1) das conexões apresentam uma significativa diferença das conexões normais em relação as conexões de ataque com $95\%$ de confiança. O intervalo de confiança das curtas conexões foi de $0.06\%$ a $0.10\%$ e das longas conexões foi de $0.02\%$ a $0.05\%$. A média do para curtas conexões foi de $0.08\%$ e para longas conexões foi de $0.03\%$.

Analisando a diferença dos limites inter-gaps entre longas e curtas conexões, os intervalos de confiança evidenciam o aposto à afirmação apresentada. Os dados das conexões normais são superiores aos dados das conexões de ataque. Como principal explicação, podemos citar a presença da técnica de adulteração do tempo dos pacotes (chaff), muito utilizada pelos intrusos para burlar os algoritmos de detecção de stepping-stone.

A variação dos valores inter-gaps das conexões normais é maior em comparação aos valores das conexões de ataque. Sobre este fato, é possível inferir a hipótese da presença de adulteração no timestamp dos pacotes, uma vez que os inter-gaps estão associados ao uRTT das conexões. A modificação do timestamp dos pacotes em conexões de ataque em stepping-stones, é definida como a técnica chaff.

colnames(mean_short)[1] <- "value"
colnames(mean_long)[1] <- "value"
mean_short["type"] <- "short"
mean_long["type"] <- "long"

experimentos = mean_long %>%
  rbind(mean_short)

experimentos = unique(experimentos)

experimentos = experimentos[order(experimentos$value, decreasing=FALSE), ]

experimentos <- experimentos %>%
  mutate(sequence = as.numeric(1:n()))

model = lm(value ~ type, experimentos)
tidy(model, conf.int = TRUE, conf.level = 0.95)

glance(model)

Para verificar a representatividade das conexões avaliadas na reánalise, foi realizada uma regressão linear que avaliou os limites inter-gaps em cada tipo de conexão. Os dois limites explicam $51\%$ da classificação entre longas e curtas conexões ($R^2 = 0,5061$), sugerindo que as curtas conexões são os valores menos avaliativos para classificar um ataque. As duas conexões são representativas ($p-valor \leq 0,0004$) em $\alpha = 0,05$, além dos testes, o que sugere que existe uma variação nos limites inter-gaps entre longas e curtas conexões.

Um teste usando bootstrap e o método Wilcoxon rank-sum foram usados para verificar as diferenças entre os limites inter-gaps de cada conexão. O teste de hipótese two-tailed foi aplicado, com nível de significância $\alpha=0.05$ para aceitar ou rejeitar a primeira hipótese nula. Também, foi usado um algoritmo de aleatoriedade para selecionar aleatoriamente um coluna para cada tipo de conexão, e calcular a diferença significativa das medianas. Os resultados, seriam os $p-values$ de $100$ comparações e podem ser visualizados na Figura 4.2.

Figure 4.2: Comparações dos p-values para as conexões

Na Figura 4.2, é possível verificar que os valores $p-values$ para todas as conexões, ficaram muito abaixo do valor $\alpha$, ($P-value \leq 0.0000000005$). Dado os valores de $p$, é possível rejeitar $H_1-0$ com a segurança de um $p-value < 0.05$, como foi suposto inicialmente. Ou seja, os valores inter-gaps das conexões normais e ataque não são iguais. Também é possível concluir que podemos aceitar $H_1-1$, pois existe uma diferença significativa entre os limites inter-gaps das longas e curtas conexões. A aceitação da hipótese alternativa, apresenta também a confirmação sobre a presença de chaff nas longas conexões, uma vez que o timestamp das curtas conexões são menores em relação as longas conexões, como foi apresentado nos intervalos de confiança (Figura 4.1). Essa hipótese poderá ser verificada em trabalhos futuros.

Para verificar a eficiência dos limites inter-gaps, os testes de permutação foram aplicados para verificar a mediana dos limites inter-gaps. Também foi aplicado aplicado foi o teste two-tailed, com nível de significância $\alpha=0.05$ para aceitar ou rejeitar a hipótese nula. Foram testados $1000$ conexões aleatórias e verificados as suas medianas.

Um ponto importante a destacar é o uso da mediana nesse teste. Na análise de Zhang a média foi aplicada, e a presença de outliers considerados nessa reanálise como chaff, influenciam nos resultados.

Os testes de hipótese, apresentaram uma diferença significativa entre a eficiência das longas e curtas conexões, com $95\%$ de confiança. O $p-value$ com um valor $p$ pouco abaixo de $\alpha$, ($P-value = 0.017$), pode evidenciar que é possível rejeitar $H_2-0$ com a segurança de um $p-value < 0.05$. Dessa forma, podemos concluir que a eficiência das curtas conexões são diferentes das longas conexões, podendo aceitar $H_2-1$ como verdadeira.

	median_chain(value): long-short
Observed	0.0001647615
Mean	-4.890687e-05
Alternative	two.sided
PValue	0.9559044

Analisando a classificação da mediana das conexões entre normais e ataques, podemos verificar que o método apresentou resultados inferiores da técnica aplicada por Zhang. Logo, a eficiência da mediana, pode ser verificada na Figura abaixo.

plot3 = experimentos %>%
  ggplot(aes(1:nrow(experimentos), value, color = type)) +
  geom_point() +
  labs(title = "Mediana das conexões (inter-gaps)\n",
       x ="Experimentos", 
         y = "Mediana(inter-gaps)",
         color = "Conexão") + 
  geom_hline(yintercept = quantile(experimentos$value, 0.6)[[1]], colour="black", lty = 2)  +
  geom_text(aes(2.8,0.05,label=sprintf("Threshold"), vjust = -0.5, angle= 0), colour="black") +
  theme_classic() +
   theme( plot.title = element_text(color="#201d1d", size=12, 
                                    face="bold", hjust = 0.5),
          axis.title = element_text(color="#201d1d", 
                                    face="bold", size=11),
          panel.grid.major.y = element_blank())

print(plot3)

#ggsave("plot-f.pdf", width = 6, height = 4)

Na Figura acima, verifica-se que um $threshold = 0.5$, apresentou a classificação de $15$ das $20$ conexões de ataque estudadas. As conexões normais foram detectadas em $100\%$ dos testes classificados. O índice de falso positivo foi de $3\%$ e a acurácia da nova técnica foi de $83\%$, provando que a técnica da mediana classifica melhor as conexões comparadas a abordagem da média. Os resultados sobre o índice de falso positivo e acurácia, podem ser visualizados na Tabela 3.

get_metrics(experimentos, 0.05)

Referencias

DAUD, A. Y.; GHAZALI, O.; OMAR, M. N. Stepping-stone Detection Technique for Recognizing Legitimate and Attack Connections. (Z. Jamaludin, N. ChePa, W. H. W. Ishak, S. B. Zaibon, Eds.) In: 5th International Conference on Computing and Informatics, Istanbul, Turkey. Anais… Istanbul, Turkey: School of Computing, University Utara Malaysia, 2015. Disponível em: <http://icoci.uum.edu.my>.

DING, W.; HUANG, S.-H. S. Detecting Intruders Using a Long Connection Chain to Connect to a Host. In: 2011 IEEE International Conference on Advanced Information Networking and Applications, Biopoles, Singapure. Anais… Biopoles, Singapure: IEEE, mar. 2011. Disponível em: <http://ieeexplore.ieee.org/document/5763356/>.

HERD, G. P.; KRIENDLER, J. Understanding NATO in the 21st Century: Alliance Strategies, Security and Global Governance. Traducao. 1. ed. Abingdon, UK: Taylor & Francis, 2013. 288 p.

HUANG, S.-H. S.; ZHANG, H.; PHAY, M. Detecting Stepping-Stone Intruders by Identifying Crossover Packets in SSH Connections. In: 2016 IEEE 30th International Conference on Advanced Information Networking and Applications (AINA), Anais…IEEE, mar. 2016. Disponível em: <http://ieeexplore.ieee.org/document/7474204/>.

KUMAR, R.; GUPTA, B. Neural Network Based Approach for Stepping Stone Detection under Delay and Chaff Perturbations. Procedia Computer Science, v. 85, n. Cms, p. 155–165, 2016. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S187705091630552X>.

KUO, Y.-W.; HUANG, S.-H. S.; DING, W.; KERN, R.; YANG, J. Using Dynamic Programming Techniques to Detect Multi-hop Stepping-Stone Pairs in a Connection Chain. In: 2010 24th IEEE International Conference on Advanced Information Networking and Applications, Anais…IEEE, 2010. Disponível em: <http://ieeexplore.ieee.org/document/5474700/>.

MITTAL, R.; LAM, V. T.; DUKKIPATI, N.; BLEM, E.; WASSEL, H.; GHOBADI, M.; VAHDAT, A.; WANG, Y.; WETHERALL, D.; ZATS, D. TIMELY: RTT-based Congestion Control for the Datacenter. In: Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication, New York, NY, USA. Anais… New York, NY, USA: ACM, 2015. Disponível em: <http://doi.acm.org/10.1145/2785956.2787510>.

OMAR, M. N.; SIREGAR, L.; BUDIARTO, R. Hybrid stepping stone detection method. In: 2008 First International Conference on Distributed Framework and Applications, Anais…IEEE, out. 2008. Disponível em: <http://ieeexplore.ieee.org/document/4784426/>.

SANTOS, A. S.; TENÓRIO, M. A. R.; A. A. SANTOS, A. B. Santos’: Algoritmo para Detecção de Ataques do Tipo Stepping-stones. In: XVII Simpósio Brasileiro de Segurança da Informação e Sistemas Computacionais (SBSeg 2017), Anais…2017.

STANIFORD-CHEN, S.; HEBERLEIN, L. Holding intruders accountable on the Internet. In: Proceedings 1995 IEEE Symposium on Security and Privacy, Anais…IEEE Comput. Soc. Press, 1995. Disponível em: <files/650/Staniford-Chen and Heberlein - 1995 - Holding intruders accountable on the Internet.pdf http://ieeexplore.ieee.org/document/398921/>.

WAINER, J. Métodos de pesquisa quantitativa e qualitativa para a Ciência da Computação. 2007. Disponível em: <http://bibliotecadigital.sbc.org.br/?module=Publicaction=Publicatio nObjectsubject=228publicationobjectid=70>.

ZHANG, H. Detecting Network Intruders by Examining Packet Crossovers in Connections. 2014. 39 f. Dissertação (Mestrado em Ciências da Computação) – University of Houston, Texas, 2014. Disponível em: <https://uh-ir.tdl.org/uh-ir/handle/10657/867>.