Informe Data Set: Escenarios de Phishing

Integrantes del Grupo

Jilver Pepe Rodriguez Neyra
José Luis Rentería Piérola
Gustavo Adolfo Bazalar Herrera
Christian Danny Esteban Ricse

1. Descripción del Tema propuesto

Es uno de los métodos de estafa favoritos de los ciberdelincuentes para conseguir información sensible de personas para cometer actos delictivos y generar un perjuicio en las victimas. En este punto el uso de ingeniería social o engaño es el punto principal de ataque al momento de engañar a su víctima. Los atacantes usan diferentes medios digitales para cometer sus fechorías.

A continuación, haremos análisis a un dataset que contiene información sobre la veracidad o no de URL determinadas y encontraremos los patrones que nos permitan responder a preguntas necesarias para resolver problemas, tomar medidas de seguridad y/o tener estadísticas de comportamiento anormal bajo ciertas circunstancias.

En el siguiente gráfico presentamos una estructura común de URL, donde encontraremos el dominio principal y el subdominio y hosts. En internet estos nombres son traducidos a direcciones públicas a través de servidores de nombres:

Fuente: https://www.kaggle.com/unstructuredrahul/deep-learning-pytorch-binary-classification

2. Descripción del Data Set que utilizaremos

Utilizaremos el Dataset con información de URL de phishing publicado en la web: https://www.kaggle.com/shashwatwork/web-page-phishing-detection-dataset, el cual tiene las siguientes características:

Consta de 89 columnas y 11,235 registros.
- 2 Campos de tipo Texto:
  - URL: Describe específicamente la URL origen.
  - status: Identifica la clasificación de la URL. Phishing ó Legítimo.
- 87 Campos de tipo numérico con características de la URL.

3. Planteamiento de Preguntas

Los atacantes usan métodos para cometer el engaño y podríamos enunciar algunos.

Cambios en la URL
Se incluyen o esconden URLs
Cambios de nombre o con errores.

Usando las herramientas que R nos da y la data procesada, veremos responder las siguientes preguntas:

¿Es posible encontrar una relación en las variables que nos permita demostrar si una URL es phishing?
¿Podemos encontrar tendencias al momento de obtener la respuesta a la primera pregunta?

4. Exploración de Datos.

Cargamos una vista preliminar de los datos incluidos en el Dataset que utilizaremos:

5. Datos utilizados en el análisis.

Descripción de los campos que utilizaremos en los gráficos a presentar en el reporte:

URL: Url que se analiza en sus diferentes atributos.
length_url: Se refiere al número de caracteres numéricos que hay en toda la URL.
phish_hints: Palabras sensibles en el contenido que sirven para ganar la confianza de la víctima.
shortest_word_host: Palabra más larga en la parte de host.
page_rank: Ranking de las páginas basada en puntuaciones que se les da a los URLs por conexión.
ratio_intHyperlinks: La cantidad de marcas de hipervínculos internos
nb_hyperlinks: El número de hipervínculos en la página web.
safe_anchor: Se refiere al número de enlaces (anchors) que tiene una página

6. Presentación de gráficos de análisis del DataSet.

6.1. Gráfico inicial exploratorio 1. Se incluye en el eje x los valores de shortest_word_host; en el eje y los datos de length_url. Se visualiza que las direcciones URL que tienen una longitud con mayor número de caracteres, identifican a una URL Phishing.

6.2. Gráfico inicial exploratorio 2. Se incluye en el eje x los valores de shortest_word_host; en el eje y los datos de phish_hints. Se identifican datos iniciales exploratorios para determinar escenarios de Phishing.

6.3. Gráfico de tipo densidad. Se analiza la columna: page_rank. Se visualiza que las URL legítimas forman más una distribución gaussiana a medida que aumenta la clasificación de la columna page_rank, mientras que las de phishing presentan una distribución menos marcada a la derecha. Esto nos brinda un parámetro de identificación de un origen con dominio probable de Phishing.

6.4. Gráfico de tipo Histograma. Se analiza la columna: page_rank con un gráfico de tipo Histograma, logrando visualizar que la mayor frecuencia determina escenarios de Phishing.

6.6. Gráfico de tipo geometrics utilizando la función geom_count. Analizamos los valores de los campos page_rank y phish_hints, clasificamos los valores con Status para determinar escenarios de Phishing:

6.7. Gráfico de tipo Histograma. Análisis de los valores incluidos en links_in_tags cuyos valores altos identifican a un sitio web legítimo.

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.