Integrantes del Grupo

1. Descripción del Tema propuesto

Es uno de los métodos de estafa favoritos de los ciberdelincuentes para conseguir información sensible de personas para cometer actos delictivos y generar un perjuicio en las victimas. En este punto el uso de ingeniería social o engaño es el punto principal de ataque al momento de engañar a su víctima. Los atacantes usan diferentes medios digitales para cometer sus fechorías.

A continuación, haremos análisis a un dataset que contiene información sobre la veracidad o no de URL determinadas y encontraremos los patrones que nos permitan responder a preguntas necesarias para resolver problemas, tomar medidas de seguridad y/o tener estadísticas de comportamiento anormal bajo ciertas circunstancias.

En el siguiente gráfico presentamos una estructura común de URL, donde encontraremos el dominio principal y el subdominio y hosts. En internet estos nombres son traducidos a direcciones públicas a través de servidores de nombres:

Fuente: https://www.kaggle.com/unstructuredrahul/deep-learning-pytorch-binary-classification

2. Descripción del Data Set que utilizaremos

Utilizaremos el Dataset con información de URL de phishing publicado en la web: https://www.kaggle.com/shashwatwork/web-page-phishing-detection-dataset, el cual tiene las siguientes características:

3. Planteamiento de Preguntas

Los atacantes usan métodos para cometer el engaño y podríamos enunciar algunos.

Usando las herramientas que R nos da y la data procesada, veremos responder las siguientes preguntas:

  1. ¿Es posible encontrar una relación en las variables que nos permita demostrar si una URL es phishing?
  2. ¿Podemos encontrar tendencias al momento de obtener la respuesta a la primera pregunta?

4. Exploración de Datos.

Cargamos una vista preliminar de los datos incluidos en el Dataset que utilizaremos:

5. Datos utilizados en el análisis.

Descripción de los campos que utilizaremos en los gráficos a presentar en el reporte:

  • URL: Url que se analiza en sus diferentes atributos.
  • length_url: Se refiere al número de caracteres numéricos que hay en toda la URL.
  • phish_hints: Palabras sensibles en el contenido que sirven para ganar la confianza de la víctima.
  • shortest_word_host: Palabra más larga en la parte de host.
  • page_rank: Ranking de las páginas basada en puntuaciones que se les da a los URLs por conexión.
  • ratio_intHyperlinks: La cantidad de marcas de hipervínculos internos
  • nb_hyperlinks: El número de hipervínculos en la página web.
  • safe_anchor: Se refiere al número de enlaces (anchors) que tiene una página

6. Presentación de gráficos de análisis del DataSet.

6.1. Gráfico inicial exploratorio 1. Se incluye en el eje x los valores de shortest_word_host; en el eje y los datos de length_url. Se visualiza que las direcciones URL que tienen una longitud con mayor número de caracteres, identifican a una URL Phishing.

6.2. Gráfico inicial exploratorio 2. Se incluye en el eje x los valores de shortest_word_host; en el eje y los datos de phish_hints. Se identifican datos iniciales exploratorios para determinar escenarios de Phishing.

6.3. Gráfico de tipo densidad. Se analiza la columna: page_rank. Se visualiza que las URL legítimas forman más una distribución gaussiana a medida que aumenta la clasificación de la columna page_rank, mientras que las de phishing presentan una distribución menos marcada a la derecha. Esto nos brinda un parámetro de identificación de un origen con dominio probable de Phishing.

6.4. Gráfico de tipo Histograma. Se analiza la columna: page_rank con un gráfico de tipo Histograma, logrando visualizar que la mayor frecuencia determina escenarios de Phishing.

6.6. Gráfico de tipo geometrics utilizando la función geom_count. Analizamos los valores de los campos page_rank y phish_hints, clasificamos los valores con Status para determinar escenarios de Phishing: