Una vez que hemos preprocesado los datos con los que vamos a trabajar, estamos listos para iniciar nuestro análisis. Cuando ejecutamos análisis de datos en inteligencia de negocios tenemos que considerar dos formas importantes de llevarlo a cabo:

En este capítulo nos concentraremos en la primera forma de análisis, para lo cual empecemos importando nuestras librerías de trabajo tidyverse y lubridate:

library(tidyverse)
library(lubridate)

A continuación, importemos el conjunto de datos con el que vamos a trabajar y guardémoslo en el objeto df_sesiones. Éste se encuentra en el link https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/sesiones_web.csv.

df_sesiones <- read_csv(file = "https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/sesiones_web.csv",
                          col_names = TRUE)

-- Column specification ---------------------------------------------------------
cols(
  Usuario_IP = col_character(),
  Fecha = col_date(format = ""),
  DiaSemana = col_character(),
  Paginas = col_double(),
  Duracion_Min = col_double(),
  Num_Sesion = col_double(),
  Tipo_Dispositivo = col_character(),
  Dispositivo = col_character(),
  Navegador = col_character(),
  TipoFuente_Analisis = col_character(),
  Hora = col_double(),
  HoraEC = col_double()
)

Demos una mirada a este set de datos y a su estructura:

View(df_sesiones01)
glimpse(df_sesiones01)
Rows: 174,313
Columns: 12
$ Usuario_IP          <chr> "1.0.149.137", "1.0.197.59", "1.0.197.59", "1.0.216~
$ Fecha               <date> 2020-06-15, 2020-04-27, 2020-04-27, 2020-02-23, 20~
$ DiaSemana           <chr> "1.Lu", "1.Lu", "1.Lu", "7.Do", "3.Mi", "2.Ma", "2.~
$ Paginas             <dbl> 2, 1, 1, 1, 1, 1, 1, 1, 1, 4, 2, 1, 2, 1, 1, 1, 2, ~
$ Duracion_Min        <dbl> 0.003888900, 0.119444450, 0.119444450, 1.277129633,~
$ Num_Sesion          <dbl> 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 3, 1, 1, 1, 1, ~
$ Tipo_Dispositivo    <chr> "Escritorio", "Movil", "Movil", "Movil", "Escritori~
$ Dispositivo         <chr> "PC", "Android", "Android", "iPhone", "PC", "Mac", ~
$ Navegador           <chr> "Google Chrome", "Google Chrome", "Google Chrome", ~
$ TipoFuente_Analisis <chr> "SearchEngine", "SearchEngine", "SearchEngine", "Se~
$ Hora                <dbl> 8, 7, 7, 15, 12, 21, 17, 14, 18, 6, 19, 20, 20, 16,~
$ HoraEC              <dbl> 20, 19, 19, 3, 0, 9, 3, 0, 3, 15, 5, 5, 6, 1, 1, 4,~

Vale señalar que los datos que hemos cargado corresponden al detalle de sesiones web que recibió un dominio de una empresa de turismo receptivo entre el 2019 y el 2020, y que se utilizan para desarrollar estrategias de mercadeo digital.

Una vez cargados estos datos, empecemos su análisis. Es importante que consideremos en este punto que todo análisis que hagamos debe intentar responder una pregunta de negocio, de forma que con los resultados generados, se transformen los datos que tenemos en información para tomar decisiones.

1. Estadística descriptiva

La estadística descriptiva hace referencia a la capacidad de resumir datos mediante el uso de medidas representativas. Como nos daremos cuenta, gran parte de estas medidas ya las hemos venido utilizado.

1.1 Tendencia central

La primera pregunta que quisiéramos responder con estos datos sería conocer cuántas páginas en promedio se visitan en cada sesión. Entonces, usando la función summarise vamos a responder a estas preguntas, y vamos a calcular las medidas de media y mediana en las variables que correspondan.

df_sesiones %>%
  summarise(media_pags = mean(Paginas),
            mediana_pags = median(Paginas))

Viendo estos resultados, se puede concluir que en cada sesión en promedio se visitan entre 1.41 páginas distintas. Además que es frecuente que los usurios ingresen en una sola página por sesión.

Siguiendo con esta línea de ideas, la siguiente pregunta planteada es saber cuál es el tiempo promedio de estadía en cada sesión web. Aplicando la misma estrategia se obtienen los siguientes resultados:

df_sesiones %>%
  summarise(media_segs = mean(Duracion_Min)*60,
            mediana_segs = median(Duracion_Min)*60)

En consecuencia, se tiene que evidencia que en promedio las sesiones tienen una duración de aproximadamente 25 segundos. Adicionalmente, que en el 50% de los casos, los usuarios navegan durante 8 segundos o menos.

1.2 Posición

Siguiendo con la duración de las sesiones, se plantea la pregunta de saber un rango de tiempo referencial que duran las sesiones, diferenciando por tipo de dispositivo utilizado. Igualmente, usemos la función summarise, pero en esta ocasión agrupemos por el tipo de dispositivo utilizado (group_by) y calculemos el mínimo y el máximo de tiempo como medidas.

df_sesiones %>%
  group_by(Tipo_Dispositivo) %>%
  summarise(min_segs = min(Duracion_Min)*60,
            max_segs = max(Duracion_Min)*60) %>%
  ungroup()

Los resultados alcanzados dan cuenta que en móvil el rango de tiempo de las sesiones parece ser menor, sin embargo los umbrales observados no nos están dando una información totalmente asertiva ni concluyente. Usemos entonces otras medidas un poco más pertinentes: los cuartiles. La función que permite obtener cuartiles de una variable es quantile, donde se especifica el “percentil” que deseamos obtener (0.25 para el cuartil 1 y 0.75 para el cuartil 3.

df_sesiones %>%
  group_by(Tipo_Dispositivo) %>%
  summarise(cuartil1_segs = quantile(Duracion_Min, 0.25)*60,
            cuartil3_segs = quantile(Duracion_Min, 0.75)*60) %>%
  ungroup()

Resulta interesante observar que al usar cuartiles, los rangos de tiempo no parecen ser tan diferentes y tienen mayor sentido. Existiría una leve evidencia de que en móvil las sesiones tienden a durar más incluso.

El siguiente cuestionamiento que surge es saber cuál es el máximo de sesiones que un mismo usuario puede mantener en el dominio analizado, a fin de conocer el nivel de reingreso.

df_sesiones %>%
  summarise(max_sesiones = max(Num_Sesion))

Nuevamente, este resultado parece extraño pues es dificil que un usuario ingrese a un mismo dominio más de 5000 veces. Seguramente, este usuario es un bot. Para dar una medida más pertienente, usemos nuevamente la función quantile para conocer el 3er cuartil.

df_sesiones %>%
  summarise(max_sesiones = quantile(Num_Sesion,0.75))

Esto resulta más coherente. Se puede afirmar que como máximo un usuario ingresará hasta 14 veces al dominio.

1.3 Dispersión y Correlación

Ahora bien, interesa conocer que nivel de variabilidad tiene la cantidad de páginas visitadas en cada sesión, para saber si es generalizable el hecho de que una sesión corresponde a 1.41 páginas visitadas.

Sigamos con summarise, pero ahora usemos como medidas la desviación estándar y el coeficiente de variación.

df_sesiones %>%
  summarise(desv_pags = sd(Paginas),
            cv_pags = sd(Paginas)/mean(Paginas))

EStos resultados son interesantes pues quedaría evidenciado que hay mucha dispersión. Si bien en promedio cada usuario visita 1.4 páginas por sesión, un amplio porcentaje de casos registran sesiones de hasta 8 páginas.

La siguiente pregunta que nos planteamos es saber si la cantidad de páginas visitadas incide en la duración de las sesiones. En principio esto parece evidente, pero evaluemos esta hipótesis a la luz de los datos. Usemos la medida de correlación, y apliquemos filtros para solamente ver las sesiones con duraciones mayores a 0, y solamente aquellos casos que representen hasta la sesión 14 para un mismo usuario.

df_sesiones %>%
  filter(Duracion_Min > 0) %>%
  filter(Num_Sesion <= 14) %>%
  summarise(corr_pags_duracion = cor(Paginas,Duracion_Min))

Otra vez un resultado interesando, los datos arrojan que lo que parecía evidente, no lo es. En otras palabras, el tiempo que un usuario pase en el dominio no tiene tanta relación con las páginas visitadas, sino que se podría asociar con el contenido de las páginas (si por ejemplo, lo que aparece en la página es interesante o no para las personas).

1.4 Frecuencias

Hasta el momento hemos analizado variables numéricas, obteniendo infromación valiosa para tomar decisiones. Planteemos ahora inquietudes asociadas a las variables no numéricas.

Primeramente, sería util saber cómo se comporta el tráfico web por día de la semana. Usemos las funciones count y arrange.

df_sesiones %>%
  count(DiaSemana) %>%
  arrange(-n)

Los resultados nos evidencia que los días martes y lunes son los de mayor tráfico, mientras que los sábados y domingos son los de menos.

Complementemos esto, viendo en los 3 días de mayor tráfico, el comportamiento por horas.

df_sesiones %>%
  filter(DiaSemana == "1.Lu" | DiaSemana == "2.Ma" | DiaSemana == "3.Mi") %>%
  count(Hora) %>%
  arrange(-n)

El mayor tráfico en estos días claramente se da en el horario de “almuerzo”, es decir entre las 11 am y las 16 pm. Por su parte el menos, está en las madrugadas, entendiendo que gran parte de las personas estan dormidas. Es lógico.

Se pregunta ahora algo similar, cuál es el comportamiento del tráfico por fuente de acceso, pero solamente para las primeras sesiones de los usuarios.

df_sesiones %>%
  filter(Num_Sesion == 1) %>%
  count(TipoFuente_Analisis) %>%
  arrange(-n)

Considerando la realidad del marketing digital actual, estos resultados son bastante coherentes: los ingresos por buscadores web dominan, mientras que los ingresos por páginas referidas son las de menor tráfico.

2. Estadística inferencial

La estadística inferencial hace referencia a la capacidad de utilizar métodos matemáticos para caracterizar el comportamiento de los datos. En este curso vamos a concentrarnos en dos aspectos aspectos relevantes de la mencioada inferencia.

2.1 Pruebas de hipótesis

Hemos visto que los resultados arrojan que en promedio existen 1.4 páginas visitadas por sesión. Validemos estadísticamente esto, mediante una prueba de hipótesis, donde nuestra hipótesis es

\[ H_0: \mu_{pags} = 1.4 \]

t.test(df_sesiones$Paginas,
       mu = 1.4)

    One Sample t-test

data:  df_sesiones$Paginas
t = 1.5629, df = 174312, p-value = 0.1181
alternative hypothesis: true mean is not equal to 1.4
95 percent confidence interval:
 1.396852 1.427929
sample estimates:
mean of x 
  1.41239 

Con una significancia del 10%, podemos afirmar que efectivamente el promedio de páginas visitadas sería de 1.4. Tenemos la evidencia estadística del caso mirando el valor p obtenido.

Por otra parte, dijimos también que la duración de sesiones entre tipos de dispositivos son prácticamente iguales. Validemos esto con una nueva prueba de hipótesis donde

\[ H_0: \mu_{segs,escritorio} = \mu_{segs,movil}\] Antes de aplicar la función t.test creemos unos data frames de apoyo para los tipos de dispositivo

df_sesiones_esc <- df_sesiones %>%
  filter(Tipo_Dispositivo == "Escritorio")
df_sesiones_mov <- df_sesiones %>%
  filter(Tipo_Dispositivo == "Movil")
t.test(df_sesiones_esc$Duracion_Min,
       df_sesiones_mov$Duracion_Min)

    Welch Two Sample t-test

data:  df_sesiones_esc$Duracion_Min and df_sesiones_mov$Duracion_Min
t = 19.736, df = 171296, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.08753822 0.10684171
sample estimates:
mean of x mean of y 
0.4634422 0.3662523 

Aplicando métodos de inferencia, llegamos a la conclusión de que parece que sí existen diferencias en cuanto al tiempo de navegación por tipo de dispositivo. Aspecto que no pudimos evidenciar usando solamente estadística descriptiva.

2.2 Intervalos de confianza

Dado que vimos que mediante métodos de inferencia sí hay diferencias por tipo de dispositivo en los tiempos de visita. Aclaremos esto utilizando intervalos de confianza y la función quantile pero ahora apliquemos referencias de 0.975 y 0.025 para generar intervalos al 95% de confianza.

df_sesiones_esc %>%
  summarise(lim_inf = quantile(Duracion_Min, 0.025)*60,
            lim_sup = quantile(Duracion_Min, 0.975)*60)
df_sesiones_mov %>%
  summarise(lim_inf = quantile(Duracion_Min, 0.025)*60,
            lim_sup = quantile(Duracion_Min, 0.975)*60)

Los intervalos obtenidos muestran que en efecto existiría una diferencia a ser tomada en cuenta, los móviles tienen una menor duración de navegación.

---
title: "Estadística descriptiva e inferencial"
output: html_notebook
---

Una vez que hemos preprocesado los datos con los que vamos a trabajar, estamos listos para iniciar nuestro análisis. Cuando ejecutamos análisis de datos en inteligencia de negocios tenemos que considerar dos formas importantes de llevarlo a cabo:

* Estadística descriptiva e inferencial
* Visualización mediante gráficos

En este capítulo nos concentraremos en la primera forma de análisis, para lo cual empecemos importando nuestras librerías de trabajo **tidyverse** y **lubridate**:
```{r}
library(tidyverse)
library(lubridate)
```

A continuación, importemos el conjunto de datos con el que vamos a trabajar y guardémoslo en el objeto *df_sesiones*. Éste se encuentra en el link https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/sesiones_web.csv.
```{r}
df_sesiones <- read_csv(file = "https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/sesiones_web.csv",
                          col_names = TRUE)
```
Demos una mirada a este set de datos y a su estructura:
```{r}
View(df_sesiones)
```
```{r}
glimpse(df_sesiones)
```
Vale señalar que los datos que hemos cargado corresponden al detalle de sesiones web que recibió un dominio de una empresa de turismo receptivo entre el 2019 y el 2020, y que se utilizan para desarrollar estrategias de mercadeo digital.

Una vez cargados estos datos, empecemos su análisis. Es importante que consideremos en este punto que todo análisis que hagamos debe intentar responder una pregunta de negocio, de forma que con los resultados generados, se transformen los datos que tenemos en información para tomar decisiones.

## 1. Estadística descriptiva

La estadística descriptiva hace referencia a la capacidad de resumir datos mediante el uso de medidas representativas. Como nos daremos cuenta, gran parte de estas medidas ya las hemos venido utilizado.

### 1.1 Tendencia central

La primera pregunta que quisiéramos responder con estos datos sería conocer cuántas páginas en promedio se visitan en cada sesión. Entonces, usando la función *summarise* vamos a responder a estas preguntas, y vamos a calcular las medidas de media y mediana en las variables que correspondan.
```{r}
df_sesiones %>%
  summarise(media_pags = mean(Paginas),
            mediana_pags = median(Paginas))
```
Viendo estos resultados, se puede concluir que en cada sesión en promedio se visitan entre 1.41 páginas distintas. Además que es frecuente que los usurios ingresen en una sola página por sesión.

Siguiendo con esta línea de ideas, la siguiente pregunta planteada es saber cuál es el tiempo promedio de estadía en cada sesión web. Aplicando la misma estrategia se obtienen los siguientes resultados:
```{r}
df_sesiones %>%
  summarise(media_segs = mean(Duracion_Min)*60,
            mediana_segs = median(Duracion_Min)*60)
```
En consecuencia, se tiene que evidencia que en promedio las sesiones tienen una duración de aproximadamente 25 segundos. Adicionalmente, que en el 50% de los casos, los usuarios navegan durante 8 segundos o menos.

### 1.2 Posición

Siguiendo con la duración de las sesiones, se plantea la pregunta de saber un rango de tiempo referencial que duran las sesiones, diferenciando por tipo de dispositivo utilizado. Igualmente, usemos la función *summarise*, pero en esta ocasión agrupemos por el tipo de dispositivo utilizado (*group_by*) y calculemos el mínimo y el máximo de tiempo como medidas.
```{r}
df_sesiones %>%
  group_by(Tipo_Dispositivo) %>%
  summarise(min_segs = min(Duracion_Min)*60,
            max_segs = max(Duracion_Min)*60) %>%
  ungroup()
```
Los resultados alcanzados dan cuenta que en móvil el rango de tiempo de las sesiones parece ser menor, sin embargo los umbrales observados no nos están dando una información totalmente asertiva ni concluyente. Usemos entonces otras medidas un poco más pertinentes: los cuartiles. La función que permite obtener cuartiles de una variable es *quantile*, donde se especifica el "percentil" que deseamos obtener (0.25 para el cuartil 1 y 0.75 para el cuartil 3.
```{r}
df_sesiones %>%
  group_by(Tipo_Dispositivo) %>%
  summarise(cuartil1_segs = quantile(Duracion_Min, 0.25)*60,
            cuartil3_segs = quantile(Duracion_Min, 0.75)*60) %>%
  ungroup()
```
Resulta interesante observar que al usar cuartiles, los rangos de tiempo no parecen ser tan diferentes y tienen mayor sentido. Existiría una leve evidencia de que en móvil las sesiones tienden a durar más incluso.  

El siguiente cuestionamiento que surge es saber cuál es el máximo de sesiones que un mismo usuario puede mantener en el dominio analizado, a fin de conocer el nivel de reingreso.
```{r}
df_sesiones %>%
  summarise(max_sesiones = max(Num_Sesion))
```
Nuevamente, este resultado parece extraño pues es dificil que un usuario ingrese a un mismo dominio más de 5000 veces. Seguramente, este usuario es un bot. Para dar una medida más pertienente, usemos nuevamente la función *quantile* para conocer el 3er cuartil.
```{r}
df_sesiones %>%
  summarise(max_sesiones = quantile(Num_Sesion,0.75))
```
Esto resulta más coherente. Se puede afirmar que como máximo un usuario ingresará hasta 14 veces al dominio.

### 1.3 Dispersión y Correlación

Ahora bien, interesa conocer que nivel de variabilidad tiene la cantidad de páginas visitadas en cada sesión, para saber si es generalizable el hecho de que una sesión corresponde a 1.41 páginas visitadas. 

Sigamos con *summarise*, pero ahora usemos como medidas la desviación estándar y el coeficiente de variación.
```{r}
df_sesiones %>%
  summarise(desv_pags = sd(Paginas),
            cv_pags = sd(Paginas)/mean(Paginas))
```
EStos resultados son interesantes pues quedaría evidenciado que hay mucha dispersión. Si bien en promedio cada usuario visita 1.4 páginas por sesión, un amplio porcentaje de casos registran sesiones de hasta 8 páginas.

La siguiente pregunta que nos planteamos es saber si la cantidad de páginas visitadas incide en la duración de las sesiones. En principio esto parece evidente, pero evaluemos esta hipótesis a la luz de los datos. Usemos la medida de correlación, y apliquemos filtros para solamente ver las sesiones con duraciones mayores a 0, y solamente aquellos casos que representen hasta la sesión 14 para un mismo usuario.

```{r}
df_sesiones %>%
  filter(Duracion_Min > 0) %>%
  filter(Num_Sesion <= 14) %>%
  summarise(corr_pags_duracion = cor(Paginas,Duracion_Min))
```
Otra vez un resultado interesando, los datos arrojan que lo que parecía evidente, no lo es. En otras palabras, el tiempo que un usuario pase en el dominio no tiene tanta relación con las páginas visitadas, sino que se podría asociar con el contenido de las páginas (si por ejemplo, lo que aparece en la página es interesante o no para las personas).

### 1.4 Frecuencias

Hasta el momento hemos analizado variables numéricas, obteniendo infromación valiosa para tomar decisiones. Planteemos ahora inquietudes asociadas a las variables no numéricas.

Primeramente, sería util saber cómo se comporta el tráfico web por día de la semana. Usemos las funciones *count* y *arrange*.
```{r}
df_sesiones %>%
  count(DiaSemana) %>%
  arrange(-n)
```
Los resultados nos evidencia que los días martes y lunes son los de mayor tráfico, mientras que los sábados y domingos son los de menos.

Complementemos esto, viendo en los 3 días de mayor tráfico, el comportamiento por horas.
```{r}
df_sesiones %>%
  filter(DiaSemana == "1.Lu" | DiaSemana == "2.Ma" | DiaSemana == "3.Mi") %>%
  count(Hora) %>%
  arrange(-n)
```
El mayor tráfico en estos días claramente se da en el horario de "almuerzo", es decir entre las 11 am y las 16 pm. Por su parte el menos, está en las madrugadas, entendiendo que gran parte de las personas estan dormidas. Es lógico.

Se pregunta ahora algo similar, cuál es el comportamiento del tráfico por fuente de acceso, pero solamente para las primeras sesiones de los usuarios.
```{r}
df_sesiones %>%
  filter(Num_Sesion == 1) %>%
  count(TipoFuente_Analisis) %>%
  arrange(-n)
```
Considerando la realidad del marketing digital actual, estos resultados son bastante coherentes: los ingresos por buscadores web dominan, mientras que los ingresos por páginas referidas son las de menor tráfico.

## 2. Estadística inferencial

La estadística inferencial hace referencia a la capacidad de utilizar métodos matemáticos para caracterizar el comportamiento de los datos. En este curso vamos a concentrarnos en dos aspectos aspectos relevantes de la mencioada inferencia.

* Pruebas de hipótesis
* Intervalos de confianza

### 2.1 Pruebas de hipótesis

Hemos visto que los resultados arrojan que en promedio existen 1.4 páginas visitadas por sesión. Validemos estadísticamente esto, mediante una prueba de hipótesis, donde nuestra hipótesis es 

$$ H_0: \mu_{pags} = 1.4 $$ 
```{r}
t.test(df_sesiones$Paginas,
       mu = 1.4)
```
Con una significancia del 10%, podemos afirmar que efectivamente el promedio de páginas visitadas sería de 1.4. Tenemos la evidencia estadística del caso mirando el *valor p* obtenido.

Por otra parte, dijimos también que la duración de sesiones entre tipos de dispositivos son prácticamente iguales. Validemos esto con una nueva prueba de hipótesis donde

$$ H_0: \mu_{segs,escritorio} = \mu_{segs,movil}$$
Antes de aplicar la función *t.test* creemos unos data frames de apoyo para los tipos de dispositivo
```{r}
df_sesiones_esc <- df_sesiones %>%
  filter(Tipo_Dispositivo == "Escritorio")
df_sesiones_mov <- df_sesiones %>%
  filter(Tipo_Dispositivo == "Movil")
t.test(df_sesiones_esc$Duracion_Min,
       df_sesiones_mov$Duracion_Min)
```
Aplicando métodos de inferencia, llegamos a la conclusión de que parece que sí existen diferencias en cuanto al tiempo de navegación por tipo de dispositivo. Aspecto que no pudimos evidenciar usando solamente estadística descriptiva.

### 2.2 Intervalos de confianza

Dado que vimos que mediante métodos de inferencia sí hay diferencias por tipo de dispositivo en los tiempos de visita. Aclaremos esto utilizando intervalos de confianza y la función *quantile* pero ahora apliquemos referencias de 0.975 y 0.025 para generar intervalos al 95% de confianza.

```{r}
df_sesiones_esc %>%
  summarise(lim_inf = quantile(Duracion_Min, 0.025)*60,
            lim_sup = quantile(Duracion_Min, 0.975)*60)
```
```{r}
df_sesiones_mov %>%
  summarise(lim_inf = quantile(Duracion_Min, 0.025)*60,
            lim_sup = quantile(Duracion_Min, 0.975)*60)
```
Los intervalos obtenidos muestran que en efecto existiría una diferencia a ser tomada en cuenta, los móviles tienen una menor duración de navegación.

