Inferência via ICs

Js Lucas

21 de maio de 2018

Introdução

A Wikimedia Foundation é uma organização sem fins lucrativos que mantém projetos baseados em wiki como a Wikipedia.

Neste relatório, iremos responder algumas perguntas propostas por eles, em um desafio para seleção de analistas de dados:

  1. Qual é nossa taxa de click geral diária? Como ela varia entre os grupos?
  2. Qual resultados as pessoas tendem a tentar primeiro? Como ela muda dia a dia?
  3. Qual é nossa taxa de resultados zerados diária? Como ela varia entre os grupos?

Para responder essas perguntas, utilizaremos os dados fornecidos por eles e modificados pelo professor Nazareno Andrade Como os dados providos pela Wikimedia são apenas uma amostra, utilizaremos bootstrap e intervalo de confiança para inferir sobre a amostra. Nossas análises serão baseadas em um nível de 95% de confiança.

## here() starts at /home/jslucassf/Workspace/lab2-cp4-jslucassf
## 
## Attaching package: 'lubridate'
## The following object is masked from 'package:here':
## 
##     here
## The following object is masked from 'package:base':
## 
##     date
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:lubridate':
## 
##     intersect, setdiff, union
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Parsed with column specification:
## cols(
##   session_id = col_character(),
##   search_index = col_integer(),
##   session_start_timestamp = col_double(),
##   session_start_date = col_datetime(format = ""),
##   group = col_character(),
##   results = col_integer(),
##   num_clicks = col_integer(),
##   first_click = col_integer()
## )

Definições

Antes de mais nada, é importante para responder as perguntas a seguir, definir dois conceitos.

Taxa de cliques: A proporção de sessões em que o usuário clicou em ao menos um dos resultados. Taxa de resultados zerados: A proporção de sessões com 0 resultados.

Qual é nossa taxa de cliques geral diária? Como ela varia entre os grupos?

Vamos utilizar inferência para calcular a taxa diária.

Podemos observar, em geral a taxa diária de cliques é baixa. Assumindo com 95% de confiança, valores entre 0.36 e 0.41. Aparentemente existe pouca diferença entre os dias, uma vez que todos apresentam intervalos muito próximos, entretanto, há diferença entre os grupos?

A resposta é sim. As sessões do grupo B apresentaram intervalos com valores muito abaixo daquelas do grupo A. Para este, a maioria das sessões resulta em clique com 95% de confiança, uma vez que todos seus intervalos estão acima de 0.6. Já as sessões do grupo B possuem resultados ainda mais baixos, variando entre 0.1 e 0.2.

Que resultados as pessoas tendem a tentar primeiro? Como este resultado muda no dia a dia?

Para responder esta pergunta, iremos estimar a média da população através da amostra que temos disponível.

Podemos então afirmar com 95% de confiança, que em média, os usuários clicam primeiro entre o terceiro e o quinto resultado.

Veremos agora se este valor muda ao longo dos dias.

Através da visualização, podemos ver que o dia 1/3 se destaca por possuir uma grande variação, neste dia, usuários parecem clicar em páginas que vão da segunda até a décima primeira. Os demais dias, apresentam valores médios muito próximos de 2 com exceção do dia 4/3, que varia entre 6 e 8,5.

Qual é nossa taxa de resultados zerados diária? Como ela varia entre os grupos?

Aqui vemos, que a taxa de resultados zerada é muito baixa, estimamos com 95% de confiança, que sejam sempre menores que 15% por dia. As diferenças entre os dias não são muito significativas.

Assim como aconteceu com a pergunta 1, a diferença de verdade está entre os grupos. O grupo b possui valores muito maiores de pesquisas zeradas, chegando próximo a 20% no dia 5/3. Já o grupo a está em torno de 5% pesquisas sem resultados.