Como ya mencionamos, otra forma de analizar datos adicional al uso de estadística descriptiva e inferencial, es la de visualizar información mediante gráficos.

Antes de iniciar, carguemos nuestras librerías:

library(tidyverse)
library(lubridate)

Adicionalmente, importemos nuestro dataframe de sesiones web que se encuentra en el link https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/sesiones_web.csv.

df_sesiones <- read_csv(file = "https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/sesiones_web.csv",
                          col_names = TRUE)

-- Column specification -------------------------------------------------------
cols(
  Usuario_IP = col_character(),
  Fecha = col_date(format = ""),
  DiaSemana = col_character(),
  Paginas = col_double(),
  Duracion_Min = col_double(),
  Num_Sesion = col_double(),
  Tipo_Dispositivo = col_character(),
  Dispositivo = col_character(),
  Navegador = col_character(),
  TipoFuente_Analisis = col_character(),
  Hora = col_double(),
  HoraEC = col_double()
)

Y como complemento importamos también una tabla que se encuentra en el link https://drive.google.com/file/d/1LbfeWrzKJzxGRZffBt6jr5zier3ddpVJ/view?usp=sharing, y que contiene la geolocalización de distintas IP alrededor del mundo.

Para esta importación descarguemos el archivo existente en el link y luego, definiendo el directorio pertienente donde se aloja este archivo importémoslo usando la funcion readRDS.

setwd("C:/Users/jsara/OneDrive/Documentos/UHemisferios/BI 2021-2/Datasets") #Este comando depende de cada persona y de donde fue guardado el archivo descargado
df_geo <- readRDS(file = "usuarios_geo(1).rds")

Los archivos RDS como el que vemos aquí, son aquellos que guardan objetos propios de R para su uso posterior.

Ahora bien, antes de iniciar con los gráficos aprendamos a usar una nueva función del tidyverse, equivalente a la familia de lookup (buscar) de Excel, que nos permitirá unir dos tablas sobre la base de un campo de referencia común: el inner_join. Para usarla, veamos en primer lugar nuestras tablas, e identifiquemos el campo que debemos usar para la unión.

View(df_sesiones)
View(df_geo)

Resulta evidente que en df_sesiones y en df_geo los campos comunes son “Usuario_IP” y “Usuario”, respectivamente. Por tanto, usémoslos como referencia para la unión creando un nuevo objeto df_ses_geo.

df_ses_geo <- df_sesiones %>%
  inner_join(df_geo,
             by = c("Usuario_IP" = "Usuario"))

Veamos la estructura de nuestra tabla resultante, y verifiquemos que unimos de forma adecuada.

glimpse(df_ses_geo)
Rows: 174,313
Columns: 19
$ Usuario_IP          <chr> "1.0.149.137", "1.0.197.59", "1.0.197.59", "1.0.21~
$ Fecha               <date> 2020-06-15, 2020-04-27, 2020-04-27, 2020-02-23, 2~
$ DiaSemana           <chr> "1.Lu", "1.Lu", "1.Lu", "7.Do", "3.Mi", "2.Ma", "2~
$ Paginas             <dbl> 2, 1, 1, 1, 1, 1, 1, 1, 1, 4, 2, 1, 2, 1, 1, 1, 2,~
$ Duracion_Min        <dbl> 0.003888900, 0.119444450, 0.119444450, 1.277129633~
$ Num_Sesion          <dbl> 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 3, 1, 1, 1, 1,~
$ Tipo_Dispositivo    <chr> "Escritorio", "Movil", "Movil", "Movil", "Escritor~
$ Dispositivo         <chr> "PC", "Android", "Android", "iPhone", "PC", "Mac",~
$ Navegador           <chr> "Google Chrome", "Google Chrome", "Google Chrome",~
$ TipoFuente_Analisis <chr> "SearchEngine", "SearchEngine", "SearchEngine", "S~
$ Hora                <dbl> 8, 7, 7, 15, 12, 21, 17, 14, 18, 6, 19, 20, 20, 16~
$ HoraEC              <dbl> 20, 19, 19, 3, 0, 9, 3, 0, 3, 15, 5, 5, 6, 1, 1, 4~
$ ZIP                 <chr> "91130", "84160", "84160", "80130", "10200", "1020~
$ Ciudad              <chr> "Khuan Don", "Kanchanadit", "Kanchanadit", "Ron Ph~
$ CiudadRegion        <chr> "Khuan Don.Satun", "Kanchanadit.Surat Thani", "Kan~
$ Region              <chr> "Satun", "Surat Thani", "Surat Thani", "Nakhon Si ~
$ Pais                <chr> "Tailandia", "Tailandia", "Tailandia", "Tailandia"~
$ Lat                 <dbl> 6.78758, 9.16611, 9.16611, 8.17911, 13.75000, 13.7~
$ Lon                 <dbl> 100.0780, 99.4701, 99.4701, 99.8542, 100.5170, 100~

PUNTOS EXTRAS: adicional al inner_join existen otras funciones similares como son left_join, right_join y full_join. El primer estudiante que envíe por correo electrónico una explicación con las diferencias entre éstas recibirá 5 puntos para la evaluación final.

Empecemos entonces con nuestras visualizaciones usando este data frame con datos de las sesiones y de geolocalización.

1. Gramática de gráficos

Para empezar, entendamos lo que es la gramática de gráficos, para lo cual usaremos una sub-librería del tidyverse llamada ggplot2.

Desde la perspectiva de este curso, entenderemos un gráfico es un objeto (así como lo son los data frames, los vectores y las variables) que posee como principal característica una estructura aditiva definida conforme lo que llamamos gramática de gráficos.

Como primer componente de dicha estructura están los DATOS con los que se va a trabajar. En el caso que estamos estudiando, los datos se corresponden con nuestro data frame df_ses_geo. Construyamos nuestro primer gráfico graf_01 identificando este componente y usando para esto la función ggplot y veamoslo en nuestra área de visualización.

graf_01 <- ggplot(data = df_ses_geo)
graf_01

Como se puede apreciar, nuestro gráfico todavía no tiene nada que “ver”. Agreguemos entonces el siguiente componente que son las ESTÉTICAS, las cuales toman variables en los datos y nos van a permitir evidenciar características específicas de los gráficos (por ejemplo, los ejes). Para esto, usemos el parámetro adicional “mapping” de la función ggplot, y creemos un nuevo objeto graf_02.

graf_02 <- ggplot(data = df_ses_geo,
                  mapping = aes(x = HoraEC))
graf_02

Hemos conseguido, “ver” algo nuevo ahora como es la estética del eje horizontal “x”. Lo que tenemos que tenemos que agregar ahora es el contenido del gráfico, lo cual viene representado específicamente por lo que se conoce como la GEOMETRÍA. Usemos entonces como ejemplo una función que nos permita visualizar un conteo de casos de las sesiones por hora aplicando la función geom_bar, a fin de saber cuales son las horas de Ecuador con mayor tráfico web. Creemos el gráfico nuevo a partir del anterior.

graf_02 + geom_bar()

Una vez que tenemos el gráfico deseado, el último componente relevante de la gramática es el de los FORMATOS, lo cual se asocia a todos aquellos elementos que permiten una visualización más agradable para el usuario final (colores, tipos de letra, nombres, etc.).

Creemos entonces un nuevo gráfico graf_03 que incluya también la capa de formato. En concreto, quisiéramos lo siguiente:

graf_03 <- graf_02 +
  geom_bar(fill = "blue",
           color = "darkblue") +
  xlab("Hora Ecuador") +
  ylab("Conteo") +
  ggtitle("Comportamiento de sesiones por hora") +
  theme_classic()

graf_03

NA

Hemos hecho nuestro primer gráfico, sobre la base de la lógica dada por la gramática de gráficos. Notemos que los formatos son el último punto que hemos tomado en cuenta, pues antes que eso debemos siempre preocuparnos de saber qué datos son los que voy a analizar, cómo los quiero visualizar, y qu+e tipo de gráfico necesito.

Empecemos entonces a ver algunos tipos de gráficos que tenemos disponibles.

2. Gráficos Univariables

2.1 Barras

Al momento de entender la gramática, hemos ya visto la sintaxis de los gráficos de barra, los cuales nos permiten conocer el conteo de casos que existen para una variable en específico.

Volvamos a repasar esto, intentando conocer cuál la provincia de Ecuador que tiene más sesiones. Creemos un objeto llamado bar_prov. No nos preocupemos por ahora de los formatos, sino de los otros componentes.

df_ecu <- df_ses_geo %>%
  filter(Pais == "Ecuador")

bar_prov <- ggplot(data = df_ecu,
                     mapping = aes(x = Region)) +
  geom_bar()

bar_prov

Arreglemos los formatos, de forma que al menos:

  • Los nombres de las provincias se encuentren de forma vertical.
  • No existan nombres de ejes.
  • El gráfico tenga título.
bar_prov <- ggplot(data = df_ecu,
                     mapping = aes(x = Region)) +
  geom_bar() +
  xlab("") +
  ylab("") +
  ggtitle("Sesiones por provincia (EC)") +
  theme(axis.text.x = element_text(angle = 90))

bar_prov

Notamos que los nombres en algunos casos están equivocados, podriamos corregir esto quitando la expresión “Provincia de[l]” usando la función conocida str_remove. También podríamos sustituir los símbolos extraños como guiones por espacios, y arreglar “Manab??”.

df_ecu <- df_ses_geo %>%
  filter(Pais == "Ecuador") %>%
  mutate(Region = str_remove(Region, "Provincia de[l]{0,1} ")) %>%
  mutate(Region = str_replace(Region, "-", " ")) %>%
  mutate(Region = str_replace(Region, "\\?\\?", "i"))

bar_prov <- ggplot(data = df_ecu,
                     mapping = aes(x = Region)) +
  geom_bar(fill = "tomato",
           color = "red") +
  xlab("") +
  ylab("") +
  ggtitle("Sesiones por provincia (EC)") +
  theme_classic() +
  theme(axis.text.x = element_text(angle = 90))

bar_prov

2.2 Histograma

Los histogramas cumplen la misma función que las barras, con la diferencia que los primeros sirven para visualizar variables numéricas decimales y sus respectivos conteos.

Construyamos un histograma que nos permita visualizar el comportamiento de la duración de sesiones. Utilizemos ahora la función geom_histogram para crear el objeto hist_dur. Recordemos que no tiene sentido ver duraciones de 0, por lo que las podemos quitar.

df_dur <- df_ses_geo %>%
  filter(Duracion_Min > 0)

hist_dur <- ggplot(data = df_dur,
                   mapping = aes(x = Duracion_Min)) +
  geom_histogram()

hist_dur

Apliquemos ahora formatos que incluyan al menos:

  • Título del gráfico.
  • Nombres de eje x pero no del vertical.
  • Fondo del gráfico limpio o en blanco.
  • Escala del eje x en logaritmo para una mejor visualización.
hist_dur <- ggplot(data = df_dur,
                   mapping = aes(x = Duracion_Min)) +
  geom_histogram(fill = "yellow",
                 color = "goldenrod") +
  xlab("Duración en Minutos (log)") +
  ylab("") +
  ggtitle("Distribución de Duración de Sesiones") +
  theme_classic() +
  scale_x_log10()

hist_dur

2.3 Densidad

En muchas ocasiones, los histogramas puedes llegar a generar confusión dada la gran cantidad de barras que se generan, por lo que suele emplearse un gráfico de densidad a fin de mostrar de una manera simplificada el comportamiento de una variable.

Como muestra de esto, veamos nuevamente la distribución de la duración de las sesiones, pero ahora cambiemos la geometría a geom_density en un objeto llamado dens_dur.

dens_dur <- ggplot(data = df_dur,
                   mapping = aes(x = Duracion_Min)) +
  geom_density()

dens_dur

Apliquemos nuevamente formatos para una mejor visualización:

dens_dur <- ggplot(data = df_dur,
                   mapping = aes(x = Duracion_Min)) +
  geom_density(fill = "yellow",
               color = "goldenrod") +
  xlab("Duración en Minutos (log)") +
  ylab("") +
  ggtitle("Distribución de Duración de Sesiones") +
  theme_classic() +
  scale_x_log10()

dens_dur

Notemos que la información que entrega el histograma y la densidad, y que está asociada al comportamiento de la variable “Duracion_Min” es equivalnete. Por lo que este gráfico resulta una alternativa válida, en caso de estimar conveniente por parte del analista.

2.4 Cajones (con bigotes)

Otro gráfico muy usado a nivel de análisis de una variable, es el cajón con bigotes, En el cual podemos visualizar de forma inmediata, medidas de centralidad y de posición de una variable, así como también los potenciales datos atípicos que existan.

Sigamos estudiando la duración de las sesiones, pero en esta ocasión hagamos un cajón de la duración para aquellas sesiones cuyo país sea Estados Unidos. Utilicemos la función geom_boxplot y creemos el objeto box_dur.

df_eeuu <- df_ses_geo %>%
  filter(Pais == "Estados Unidos") %>%
  filter(Duracion_Min > 0)

box_dur <- ggplot(data = df_eeuu,
                   mapping = aes(x = Duracion_Min)) +
  geom_boxplot()

box_dur

Como se puede evidenciar, los potenciales casos atípicos, generan confusión, por lo que sería preferible quitarlos y volver a graficar. Apliquemos la regla de exclusión de 1.5 rangos intercuartiles para quitarlos de nuestro cajón, recordando que un valor x es outlier si

\[ x > cuartil_3 + 1.5*IQR \]

df_eeuu <- df_ses_geo %>%
  filter(Pais == "Estados Unidos") %>%
  filter(Duracion_Min > 0) %>%
  filter(Duracion_Min <= quantile(Duracion_Min,0.75) + 1.5*IQR(Duracion_Min))

box_dur <- ggplot(data = df_eeuu,
                   mapping = aes(x = Duracion_Min)) +
  geom_boxplot()

box_dur

Terminemos entonces con el formato.

box_dur <- ggplot(data = df_eeuu,
                   mapping = aes(x = Duracion_Min)) +
  geom_boxplot(fill = "orange",
               color = "black") +
  xlab("Duración en Minutos") +
  ggtitle("Duración de Sesiones de Estados Unidos") +
  theme_classic() +
  theme(axis.text.y = element_blank())

box_dur

3. Gráficos Bivariables

Una vez que hemos desarrollado visualizaciones con una sola variable, pasemos ahora a estudiar los gráficos de dos variables. Este tipo de gráficos son muy útiles para relacionar el comportamiento de atributos específicos y ser el primer paso para un análisis de causalidad, así como para otro tipo de análisis como las segmentaciones.

3.1 Dispersión

Los diagramas de dispersión, comúnmente denominados gráficos “de puntos”, permiten visualizar pares de coordenadas \(x,y\) donde cada uno de éstos representa un registro dentro de mis datos.

Para ejemplificar, estudiemos el comportamiento de las páginas visitadas con la duración de las sesiones, filtrando solamente las primeras sesiones de cada usuario de Italia y Alemania, y excluyendo también aquellas con duraciones de 0. Usemos para esto la geometría geom_point.

df_disp <- df_ses_geo %>%
  filter(Num_Sesion == 1) %>%
  filter(Pais == "Alemania" | Pais == "Italia") %>%
  filter(Duracion_Min > 0)

disp_durpag <- ggplot(data = df_disp,
                      mapping = aes(x = Duracion_Min,
                                    y = Paginas)) +
  geom_point()

disp_durpag

De forma, general se puede avidenciar que gran parte de los datos se encuentran en un intervalo de tiempo entre 0 y 1 minuto y con páginas ebtre 1 y 15. Para mejorar la visibilidad de la información usemos un reescalamiento, pero esta vez solamente ajustemos el rango de los ejes con las funciones xlim y ylim.

disp_durpag <- ggplot(data = df_disp,
                      mapping = aes(x = Duracion_Min,
                                    y = Paginas)) +
  geom_point() +
  ylim(c(0,10)) +
  xlim(c(0,1))

disp_durpag

Pongamos ahora los formatos que necesitemos a nuestro gráfico.

disp_durpag <- ggplot(data = df_disp,
                      mapping = aes(x = Duracion_Min,
                                    y = Paginas)) +
  geom_point(color = "tomato",
             alpha = 0.75) + #Este parametro permite dar transparencia
  ylim(c(0,10)) +
  xlim(c(0,1)) +
  ylab("Paginas visitadas") +
  xlab("Duración en Minutos") +
  ggtitle("Paginas vs. Duración de Sesiones") +
  theme_classic()

disp_durpag

A nivel general, se evidencia que, salvo unos pocos casos, existe una relación positiva entre las dos variables. A menor duración, mayores páginas visitadas. Intente como experto de negocio encontrar una explicación a este comportamiento.

3.2 Curva de suavizamiento

Así como vimos en el gráfico anterior, al parece existiría una relación negativa entre las variables Paginas y Duracion_Min. Sin embargo, para un ojo poco entrenado esto podría no ser tan evidente. Por esta razón existen las curvas de suaviamiento incorporando una nueva geometría al gráfico mediante geom_smooth.

smooth_durpag <- ggplot(data = df_disp,
                      mapping = aes(x = Duracion_Min,
                                    y = Paginas)) +
  geom_point(color = "tomato",
             alpha = 0.75) +
  ylim(c(0,10)) +
  xlim(c(0,1)) +
  ylab("Paginas visitadas") +
  xlab("Duración en Minutos") +
  ggtitle("Paginas vs. Duración de Sesiones") +
  theme_classic() +
  geom_smooth(method = "lm")

smooth_durpag

El parámetro method utilizado hace referencia a que queremos un ajuste mediante un modelo lineal (lm por sus siglas en inglés).

En efecto, notemos que existe una leve relación inversa entre las variables, sin embargo, esto parece aún no ser suficientemente claro. Para facilitar aún más la visualización incorporemos un parámetro adicional a esta geometría llamado formula tal que la variable páginas esté dada en función del logaritmo de la duración.

\[ Paginas = f(log(Duracion_{Min})) \]

smooth_durpag <- ggplot(data = df_disp,
                      mapping = aes(x = Duracion_Min,
                                    y = Paginas)) +
  geom_point(color = "tomato",
             alpha = 0.75) +
  ylim(c(0,10)) +
  xlim(c(0,1)) +
  ylab("Paginas visitadas") +
  xlab("Duración en Minutos") +
  ggtitle("Paginas vs. Duración de Sesiones") +
  theme_classic() +
  geom_smooth(method = "lm",
              formula = y ~ log(x))
smooth_durpag

3.3 Columnas

Un gráfico que resulta muy útil para estudiar una variable numérica y su relación con otra que no lo es (texto, factor), es el gráfico de columnas. Un punto de cuidado aquí es que no debemos confundir las barras de las columnas. Las primeras se utilizan para visualizar la frecuencia o distribución de una sola variable, mientras que las segundas miden el comperamiento de una variable, con relación a otra.

Para entender de mejor forma, supongamos que deseamos conocer la duración promedio en segundos de las primeras sesiones, y como esta duración cambia en función del dispositivo utilizado. PAra esto usamos la geometría dada por la función geom_col, y antes creamos una tabla que resuma la métrica que deseamos visualizar.

df_durdisp <- df_ses_geo %>%
  filter(Num_Sesion == 1) %>%
  filter(Duracion_Min > 0) %>%
  group_by(Dispositivo) %>%
  summarise(Duracion_Prom = mean(Duracion_Min)*60) %>%
  ungroup()

col_durdisp <- ggplot(data = df_durdisp,
                      mapping = aes(x = Dispositivo,
                                    y = Duracion_Prom)) +
  geom_col()

col_durdisp

Resulta interesante observar que las personas que utilizan Android y PC, mantienen sesiones entre un 25% y un 30% más largas en duración que aquellos con dispositivos Apple.

Pongamos ahora el formato que nos facilite la visualización del gráfico obtenido.

col_durdisp <- ggplot(data = df_durdisp,
                      mapping = aes(x = Dispositivo,
                                    y = Duracion_Prom)) +
  geom_col(fill = "purple",
           alpha = 0.5,
           color = "purple") +
  xlab("Dispositivo") +
  ylab("Duración Promedio (en segundos)") +
  ggtitle("Duración vs Dispositivo en Sesiones") +
  theme_gray()

col_durdisp

3.4 Cajones (con bigotes)

Ya vimos que los cajones con bigotes permiten conocer la distribución y las principales medidas de centralidad y posición de una variable, si ahora añadimos la estética “y”, podemos además comparar las distribuciones de una variable con relación a otra.

Continuando ocn el ejemplo anterior, dados otros resultados que hemos obtenido previamente, podría discutirse que la duración de las sesiones puede estar sesgada o presentar valores atípicos, por lo que la conclusión de que la duración es diferente por dispositivo no es suficientemente robusta. Para comprobar esto, usemos cajones con bigotes, donde excluyamos los datos atípicos, como ya lo hicimos previamente.

df_durdisp2 <- df_ses_geo %>%
  filter(Num_Sesion == 1) %>%
  filter(Duracion_Min > 0) %>%
  filter(Duracion_Min <= quantile(Duracion_Min,0.75 + 1.5*IQR(Duracion_Min))) %>%
  mutate(Duracion_Seg = Duracion_Min*60)

box_durdisp <- ggplot(data = df_durdisp2,
                      mapping = aes(x = Dispositivo,
                                    y = Duracion_Seg)) +
  geom_boxplot()

box_durdisp

Mejoremos nuestra visualización con un escalamiento de l´+imites en el eje y formatos.

box_durdisp <- ggplot(data = df_durdisp2,
                      mapping = aes(x = Dispositivo,
                                    y = Duracion_Seg)) +
  geom_boxplot(fill = "goldenrod1",
               color = "goldenrod4") +
  ylim(c(0,20)) +
  ylab("Duracion (Segundos)") +
  xlab("Dispositivo") +
  ggtitle("Comportamiento de la Duración por Dispositivo") +
  theme_classic()

box_durdisp

¿Cree que la concslusión alcanzada previamente por las columnas cambia a la luz de este gráfico?

3.5 Líneas de series temporales

El uso de líneas en gráficos de datos, suele ser mal entendido y sobreutilizado para visualizar cosas que no deberían representarse por esta geometría. La naturaleza de una línea es la de continuidad por lo que su uso se restrinje a aquellas variables con una naturaleza “de flujo”. El tipo de variable que mejor cumple esta característica es justamente la de fechas, pues es la forma de presentar el flujo temporal.

Como un primer ejemplo, veamos el número de sesiones que se han tenido en nuestros datos por fecha. Usemos la función geom_line.

df_sesfecha <- df_ses_geo %>%
  count(Fecha)

line_ses <- ggplot(data = df_sesfecha,
                   mapping = aes(x = Fecha,
                                 y = n)) +
  geom_line()

line_ses

NA

A partir del segundo semestre de 2019 se evidencia un incremento importante a nivel de sesiones registradas, pasando de un promedio diario de aproximadamente 150 a uno de 300. Completemos este gráfico con un formato adecuado.

line_ses <- ggplot(data = df_sesfecha,
                   mapping = aes(x = Fecha,
                                 y = n)) +
  geom_line(color = "lightgreen",
            size = 1) + #Este parametro permite definir el grosor de la linea
  ylab("# Sesiones") +
  xlab("") +
  ggtitle("Evolución de Sesiones") +
  theme_dark()

line_ses

Hagamos otro ejemplo, pero ahora en vez de estudiar las sesiones por fecha, veamos la duración promedio de sesiones en segundos, pero agrupado por mes y año.

df_durmes <- df_ses_geo %>%
  mutate(Periodo = year(Fecha)) %>%
  mutate(Mes = month(Fecha)) %>%
  mutate(PeriodoMes = Periodo*100 + Mes) %>%
  group_by(PeriodoMes) %>%
  summarise(Duracion_Prom = mean(Duracion_Min)*60) %>%
  ungroup() %>%
  arrange(PeriodoMes)

line_durmes <- ggplot(data = df_durmes,
                      mapping = aes(x = PeriodoMes,
                                    y = Duracion_Prom)) +
  geom_line()

line_durmes

Notemos que en la gráfica resultante, existe un espacio con valores de PeriodoMes sin sentido (i.e. 201930). Esto sucede porque R entiende esta variable como numérica e intenta completarla al momento de graficar. Para arreglar esto incluyamos la estética group con un valor de 1, lo cual nos permite consolidar los valores y no considerar este autocompletado; y además definamos la variable como factor al momento de graficarla para que no se asuma que es de tipo numérica.

line_durmes <- ggplot(data = df_durmes,
                      mapping = aes(x = as.factor(PeriodoMes),
                                    y = Duracion_Prom,
                                    group = 1)) +
  geom_line()

line_durmes

Finalicemos con el formato para una visualización adecuada.

line_durmes <- ggplot(data = df_durmes,
                      mapping = aes(x = as.factor(PeriodoMes),
                                    y = Duracion_Prom,
                                    group = 1)) +
  geom_line(color = "darkred",
            size = 0.75,
            linetype = 2) + #Este parametro me permite escoger el tipo de linea a utilizar
  ylab("Duración Promedio de Sesiones") +
  xlab("PeriodoMes") +
  ggtitle("Evolución Mensual de la Duración") +
  theme_classic() +
  theme(axis.text.x = element_text(angle = 90))

line_durmes

4. Gráficos Multivariables

Usando gráficos en coordenadas cartesianas $ x,y $ igualmente podemos visualizar más de dos variables. Para esto, es importante hacer uso del componente de ESTETICAS como iremos viendo en los siguientes casos.

4.1 Densidades

Recordemos el ejemplo del gráfico de distribución que habíamos visto en la sección de una variable,

dens_dur

Nos interesa ahora ver si la distribución difiere por tipo de dispositivo (Escritorio, Móvil). Para esto, volvamos a hacer este gráfico pero ahora usemos como ESTETICA el relleno (fill) y ya no solamente como parámetro.

dens_dur2 <- ggplot(data = df_dur,
                   mapping = aes(x = Duracion_Min,
                                 fill = Tipo_Dispositivo)) +
  geom_density(color = "goldenrod") +
  xlab("Duración en Minutos (log)") +
  ylab("") +
  ggtitle("Distribución de Duración de Sesiones") +
  theme_classic() +
  scale_x_log10()

dens_dur2

Mejoremos este gráfico adicionando como formatos un grado de transparencia del 50%, y un parámetro adicional a la geometríca llamado “bw” (ancho de banda) con un valor de 0.25.

dens_dur2 <- ggplot(data = df_dur,
                   mapping = aes(x = Duracion_Min,
                                 fill = Tipo_Dispositivo)) +
  geom_density(color = "goldenrod",
               alpha = 0.5,
               bw = 0.25) +
  xlab("Duración en Minutos (log)") +
  ylab("") +
  ggtitle("Distribución de Duración de Sesiones") +
  theme_classic() +
  scale_x_log10()

dens_dur2

Al parecer la duración de las sesiones en móvil es levemente inferior a la de aquellas que se dan por dispositivos de escritorio.

Como ejercicio, pruebe con otros anchos de banda menores y mayores al mostrado para ver qué efecto tienen en su gráfico.

4.2 Lineas de series de tiempo

Sobre la base de usar como estética el parámetro fill en el caso anterior, veamos ahora el uso de color para hacer una línea de series de tiempo del número de primeras sesiones pero diferenciando por fuente.

df_sesfecha_f <- df_ses_geo %>%
  filter(Num_Sesion == 1) %>%
  count(Fecha,
        TipoFuente_Analisis)

line_ses2 <- ggplot(data = df_sesfecha_f,
                   mapping = aes(x = Fecha,
                                 y = n,
                                 color = TipoFuente_Analisis)) +
  geom_line()

line_ses2

El gráfico obtenido resulta un tanto confuso en vista de que existen muchas fuentes. Mejoremos esto, añadiendo una transparencia del 75% en las líneas y adicionando una geometría de suavizamiento con parámetro method de “loess”. Incorpore además otros formatos que estime adecuados.

line_ses2 <- ggplot(data = df_sesfecha_f,
                   mapping = aes(x = Fecha,
                                 y = n,
                                 color = TipoFuente_Analisis)) +
  geom_line(alpha = 0.25) +
  geom_smooth(method = "loess") +
  ylab("# Sesiones") +
  xlab("") +
  labs(color = "Fuente") + #Esta función permite cambiar el nombre de la leyenda
  ggtitle("Evoluciones de Sesiones por Fuente") +
  theme_classic() +
  theme(legend.position = "top")

line_ses2

¿Qué puede inferir respecto a las fuentes de las sesiones, siendo usted un experto de negocio?

Así como fill y color, otros parámetros que hemos visto en los gráficos precedentes igualmente pueden transformarse en ESTETICAS a fin de representar alguna otra variable. Como ejercicio intente probar el uso de estéticas adicionales en gráficos de puntos y de columnas.

4.3 Mapas de calor

Los mapas de calor son representaciones espaciales de dos variables que permiten visualizar zonas de interés definidas en base a una tercera variable.

Para entender mejor su funcionamiento, supongamos que ahora queremos conocer la cantidad de sesiones por día de la semana y hora (del usuario). Para mayor facilidad, creemos una nueva variable llamada Grupo_Hora donde las opciones sean:

  • 1.Madrugada (entre las 0 y las 5 horas)
  • 2.Manana (6-10)
  • 3.MedioDia (11-15)
  • 4.Tarde (16-20)
  • 5.Noche (21-23)

Usemos además la geometría geom_tile y como estética nueva fill.

df_sestime <- df_ses_geo %>%
  mutate(Grupo_Hora = ifelse(Hora <= 5,
                             "1.Madrugada",
                             ifelse(Hora <= 10,
                                    "2.Manana",
                                    ifelse(Hora <= 15,
                                           "3.MedioDia",
                                           ifelse(Hora <= 20,
                                                  "4.Tarde",
                                                  "5.Noche"))))) %>%
  count(DiaSemana,
         Grupo_Hora)

map_sestime <- ggplot(data = df_sestime,
                      mapping = aes(x = DiaSemana,
                                    y = Grupo_Hora,
                                    fill = n)) +
  geom_tile()

map_sestime

Para una mejor visualización, controlemos el color de relleno de forma que sea rojo para el caso de pocas sesiones, y verde para el de muchas; además que estos colores sigan un gradiente. Usemos una función adicional llamada scale_fill_gradiente. Aprovechemos y adicionemos todos los formatos que veamos conveniente.

map_sestime <- ggplot(data = df_sestime,
                      mapping = aes(x = DiaSemana,
                                    y = Grupo_Hora,
                                    fill = n)) +
  geom_tile() +
  scale_fill_gradient(low = "red", high = "green") +
  ylab("Momento del Día") +
  xlab("Dia de la Semana") +
  labs(fill = "# Sesiones") +
  ggtitle("Sesiones por Día y Hora") +
  theme_minimal()

map_sestime

Con nuestro mapa de calor podemos ver que los lunes al medio día hay mayor tráfico. Así mismo, en las noches y madrugadas de todos los días hay poco tráfico, y en las tardes de los fines de semana el tráfico es moderado.

4.4 Mapas geográficos

Una de las aplicaciones más interesantes de los mapas de calor hace referencia a su uso para análisis geolocalizado.

Una pregunta recurrente que podría salir de este conjunto de datos es saber cuál es la ciudad de Ecuador con mayor número de sesiones, y para esto podemos usar una base de datos específica de ggplot llamada map_data.

df_mapa_ec <- map_data(map = "world", region = "Ecuador")
view(df_mapa_ec)

Visualicemos en primera instancia nuestro mapa de Ecuador usando la geometría geom_polygon.

mapa_sesec <- ggplot(data = df_mapa_ec,
                     mapping = aes(x = long,
                                   y = lat,
                                   group = group)) +
  geom_polygon()

mapa_sesec

Apliquemos ciertos formatos, que hagan que nuestro mapa se vea mejor;

mapa_sesec <- ggplot(data = df_mapa_ec,
                     mapping = aes(x = long,
                                   y = lat,
                                   group = group)) +
  geom_polygon(fill = "lightblue",
               color = "gray50",
               alpha = 0.5) +
  theme_void() #Borra todo lo asociado a ejes y fondos

mapa_sesec

Ahora bien, sobre este mapa vamos a montar otra geometria que nos muestre puntos en las ciudades donde hay sesiones web, y donde el color de cada punto corresponda a un criterio de muchas (verde) o pocas (rojo) sesiones, de forma equivalente al mapa de calor de la sección anterior. Para esto vamos a hacer lo siguiente:

  • En primer lugar construimos un data frame que contenga solo el total de sesiones en las ciudades de Ecuador, así como sus respectivas latitudes y longitudes.
df_geo_ec <- df_ses_geo %>%
  filter(Pais == "Ecuador") %>%
  group_by(Ciudad) %>%
  summarise(Sesiones = n(),
            lat = mean(Lat),
            long = mean(Lon))
  • Una vez tenemos esto, añadimos al mapa que ya habíamos hecho previamente.
mapa_sesec <- ggplot(data = df_mapa_ec,
                     mapping = aes(x = long,
                                   y = lat,
                                   group = group)) +
  geom_polygon(fill = "lightblue",
               color = "gray50",
               alpha = 0.5) +
  theme_void() +
  geom_point(data = df_geo_ec,
             mapping = aes(x = long,
                           y = lat,
                           group = 1,
                           color = Sesiones),
             size = 1.5) +
  scale_color_gradient(low = "red", high = "green")

mapa_sesec

Notemos que hay muchas ciudades con tonalidades rojas, lo cual hace que se pierda información. Usemos el parámetro trans para corregir esto dando un reescalamiento logarítmico a los colores.

mapa_sesec <- ggplot(data = df_mapa_ec,
                     mapping = aes(x = long,
                                   y = lat,
                                   group = group)) +
  geom_polygon(fill = "lightblue",
               color = "gray50",
               alpha = 0.5) +
  theme_void() +
  geom_point(data = df_geo_ec,
             mapping = aes(x = long,
                           y = lat,
                           group = 1,
                           color = Sesiones),
             size = 1.5) +
  scale_color_gradient(low = "red", high = "green", trans = "log")

mapa_sesec

PUNTOS EXTRAS: Recibirá 10 puntos extras, el primer estudiante que remita el script con un mapa equivalente al hecho en este documento, pero ahora para las ciudades de Estados Unidos, y excluyendo del mapa las subregiones de Alaska y Hawaii.

4.5 Etiquetas

Un aspecto importante que facilita la visualización de gráficos es la inclusión de etiquetas que guíen y faciliten el entendimiento. En este sentido, las etiquetas deben entenderse como una GEOMETRÍA adicional dentro de la ¨gramática de los gráficos.

Recordemos entonces el gráfico de columnas que realizamos para evaluar la duración promedio por dispositivo.

col_durdisp

Incluyamos ahora etiquetas para que muestren el valor de cada columna, para esto usemos una estética adicional dada por label y la función de geometría geom_label.

etiq_dur_disp <- ggplot(data = df_durdisp,
                      mapping = aes(x = Dispositivo,
                                    y = Duracion_Prom,
                                    label = Duracion_Prom)) +
  geom_col(fill = "purple",
           alpha = 0.5,
           color = "purple") +
  xlab("Dispositivo") +
  ylab("Duración Promedio (en segundos)") +
  ggtitle("Duración vs Dispositivo en Sesiones") +
  theme_gray() +
  geom_label()

etiq_dur_disp

Ajustemos el formato de estas etiquetas tal que:

  • Los valores estén redondeados al primer decimal.
  • Tengan un fondo con un color adecuado.
  • Tengan un color de letra adecuado.
  • Tengan un tamaño tal que sean facilmente visibles.
etiq_dur_disp <- ggplot(data = df_durdisp,
                      mapping = aes(x = Dispositivo,
                                    y = Duracion_Prom,
                                    label = round(Duracion_Prom,1))) +
  geom_col(fill = "purple",
           alpha = 0.5,
           color = "purple") +
  xlab("Dispositivo") +
  ylab("Duración Promedio (en segundos)") +
  ggtitle("Duración vs Dispositivo en Sesiones") +
  theme_gray() +
  geom_label(fill = "purple",
            color = "white",
            size = 3)

etiq_dur_disp

Como otro ejemplo de etiquetas, tomemos nuestro mapa de calor de dias de la semana y horas.

map_sestime

Incorporemos las etiquetas con los valores alcanzados en cada cuadrante y eliminemos a su vez la leyenda pues resultaría irrelevante.

etiq_sestime <- ggplot(data = df_sestime,
                       mapping = aes(x = DiaSemana,
                                     y = Grupo_Hora,
                                     fill = n,
                                     label = n)) +
  geom_tile() +
  scale_fill_gradient(low = "red", high = "green") +
  ylab("Momento del Día") +
  xlab("Dia de la Semana") +
  labs(fill = "# Sesiones") +
  ggtitle("Sesiones por Día y Hora") +
  theme_minimal() +
  geom_label() +
  theme(legend.position = "none")

etiq_sestime

Finalmente, y como un ejemplo más desafiante, en nuestro mapa georeferenciado de Ecuador, pongamos etiquetas a las top 5 ciudades en número de sesiones, que incluyan tanto el nombre de la ciudad como su cantidad. Coloquemos esta etiqueta a la derecha de cada punto.

df_geo_ec2 <- df_geo_ec %>%
  arrange(-Sesiones) %>%
  top_n(5,Sesiones)

etiq_sesec <- ggplot(data = df_mapa_ec,
                     mapping = aes(x = long,
                                   y = lat,
                                   group = group)) +
  geom_polygon(fill = "lightblue",
               color = "gray50",
               alpha = 0.5) +
  theme_void() +
  geom_point(data = df_geo_ec,
             mapping = aes(x = long,
                           y = lat,
                           group = 1,
                           color = Sesiones),
             size = 1.5) +
  scale_color_gradient(low = "red", high = "green", trans = "log") +
  geom_label(data = df_geo_ec2,
             mapping = aes(x = long,
                           y = lat,
                           group = 1,
                           label = paste(Ciudad,", ",Sesiones, sep = "")),
             fill = "white",
             size = 2,
             hjust = -0.15)
  

etiq_sesec

