Integrantes del Grupo
- Jilver Pepe Rodriguez Neyra
- José Luis Rentería Piérola
- Gustavo Adolfo Bazalar Herrera
- Christian Danny Esteban Ricse
1. Descripción del Tema propuesto
Es uno de los métodos de estafa favoritos de los ciberdelincuentes para conseguir información sensible de personas para cometer actos delictivos y generar un perjuicio en las victimas. En este punto el uso de ingeniería social o engaño es el punto principal de ataque al momento de engañar a su víctima. Los atacantes usan diferentes medios digitales para cometer sus fechorías.
A continuación, haremos análisis a un dataset que contiene información sobre la veracidad o no de URL determinadas y encontraremos los patrones que nos permitan responder a preguntas necesarias para resolver problemas, tomar medidas de seguridad y/o tener estadísticas de comportamiento anormal bajo ciertas circunstancias.
En el siguiente gráfico presentamos una estructura común de URL, donde encontraremos el dominio principal y el subdominio y hosts. En internet estos nombres son traducidos a direcciones públicas a través de servidores de nombres:
Fuente: https://www.kaggle.com/unstructuredrahul/deep-learning-pytorch-binary-classification
2. Descripción del Data Set que utilizaremos
Utilizaremos el Dataset con información de URL de phishing publicado en la web: https://www.kaggle.com/shashwatwork/web-page-phishing-detection-dataset, el cual tiene las siguientes características:
- Consta de 89 columnas y 11,235 registros.
- 2 Campos de tipo Texto:
- URL: Describe específicamente la URL origen.
- status: Identifica la clasificación de la URL. Phishing ó Legítimo.
- 87 Campos de tipo numérico con características de la URL.
3. Planteamiento de Preguntas
Los atacantes usan métodos para cometer el engaño y podríamos enunciar algunos.
- Cambios en la URL
- Se incluyen o esconden URLs
- Cambios de nombre o con errores.
Usando las herramientas que R nos da y la data procesada, veremos responder las siguientes preguntas:
- ¿Es posible encontrar una relación en las variables que nos permita demostrar si una URL es phishing?
- ¿Podemos encontrar tendencias al momento de obtener la respuesta a la primera pregunta?
4. Exploración de Datos.
Cargamos una vista preliminar de los datos incluidos en el Dataset que utilizaremos:
5. Datos utilizados en el análisis.
Descripción de los campos que utilizaremos en los gráficos a presentar en el reporte:
- URL: Url que se analiza en sus diferentes atributos.
- length_url: Se refiere al número de caracteres numéricos que hay en toda la URL.
- phish_hints: Palabras sensibles en el contenido que sirven para ganar la confianza de la víctima.
- shortest_word_host: Palabra más larga en la parte de host.
- page_rank: Ranking de las páginas basada en puntuaciones que se les da a los URLs por conexión.
- ratio_intHyperlinks: La cantidad de marcas de hipervínculos internos
- nb_hyperlinks: El número de hipervínculos en la página web.
- safe_anchor: Se refiere al número de enlaces (anchors) que tiene una página
6. Presentación de gráficos de análisis del DataSet.
6.1. Gráfico inicial exploratorio 1. Se incluye en el eje x los valores de shortest_word_host; en el eje y los datos de length_url. Se visualiza que las direcciones URL que tienen una longitud con mayor número de caracteres, identifican a una URL Phishing.

6.2. Gráfico inicial exploratorio 2. Se incluye en el eje x los valores de shortest_word_host; en el eje y los datos de phish_hints. Se identifican datos iniciales exploratorios para determinar escenarios de Phishing.

6.3. Gráfico de tipo densidad. Se analiza la columna: page_rank. Se visualiza que las URL legítimas forman más una distribución gaussiana a medida que aumenta la clasificación de la columna page_rank, mientras que las de phishing presentan una distribución menos marcada a la derecha. Esto nos brinda un parámetro de identificación de un origen con dominio probable de Phishing.

6.4. Gráfico de tipo Histograma. Se analiza la columna: page_rank con un gráfico de tipo Histograma, logrando visualizar que la mayor frecuencia determina escenarios de Phishing.

6.5. Gráfico múltiple (facets). Analizamos el campo nb_hyperlinks, agrupado por Status. Mientras más alto el valor, mayor ceteza de que se trata de una URL Phishing.

6.6. Gráfico de tipo geometrics utilizando la función geom_count. Analizamos los valores de los campos page_rank y phish_hints, clasificamos los valores con Status para determinar escenarios de Phishing:
