A Base de Dados

A base de dados deste trabalho é formada pela avaliação de usuários de uma plataforma de viagem. No total a base conta com a opinião de 5.456 usuários que avaliaram atrações relacionadas a: praias, restaurantes e resorts.

Questão 1

Considere as variáveis curtiu_praias e nota_media_restaurantes. A variável curtiu_praias é uma variável qualitativa que recebe uma das seguintes possibilidades: “curtiu”, “indiferente” e não “curtiu”. A variável nota_media_restaurantes é uma variável quantitativa que assumi valores contínuos em uma escala de 0 até 5.

  1. Veja o boxplot da variável salário separado pelas categorias da variável tipo. Quais resultados são possíveis concluir pela imagem?

  1. A partir da tabela abaixo calcule a medida de associação adequada para decidir o quanto associadas as variáveis salário e tipo são.
n Min. 1st Qu. Median Mean 3rd Qu. Max. sd var
curtiu praia 1080 0.84 1.74 2.48 2.82 3.83 5 1.35 1.81
indiferente 3558 0.87 2.40 3.03 3.37 5.00 5 1.34 1.78
não curtiu praia 818 0.87 1.52 2.51 2.48 2.80 5 1.16 1.34
total 5456 0.84 1.80 2.80 3.13 5.00 5 1.36 1.84

Questão 2

Considere agora as variáveis nota_media_resort e nota_media_restaurante. Ambas são variáveis quantitativas que podem assumir valores contínuos entre 0 e 5.

  1. Veja os gráficos de dispersão entre cada par das variáveis nota_media_praia, nota_media_resort e nota_media_restaurante. Analise os resultados e faça interpretações.

  1. Considere $x_i = $ a nota média do usuário \(i\) em relação às praias, $y_i = $ a nota média do usuário \(i\) em relação aos restaurantes e $z_i = $ a nota média do usuário \(i\) em relação aos resorts. Com as informações a seguir, calcule a medida adequada para mensurar a associação entre cada par destas três variáveis. Quais as interpretações para os valores encontrados?

\[ \begin{array} \displaystyle \sum_{i=1}^{5456} x_i = 13581.79 & \sum_{i=1}^{5456} x^2_i = 42303.24 & \sum_{i=1}^{5456} x_iy_i = 40426.58\\ \sum_{i=1}^{5456} y_i = 17055.56 & \sum_{i=1}^{5456} y^2_i = 63358.18 & \sum_{i=1}^{5456} y_iz_i = 39032.08\\ \sum_{i=1}^{5456} z_i = 12656.32 & \sum_{i=1}^{5456} z^2_i =40380.7 & \sum_{i=1}^{5456} z_ix_i = 34650.41\\ \end{array} \]

Questão 3

Considere a seguinte tabela de dupla entrada com a distribuição conjunta das frequências das variáveis curtiu_praias e curtiu_resort. Ambas são variábeis qualitativas que podem receber um dos seguintes valores: “curtiu”, “indiferente” e não “curtiu”.

Tabela de dupla entrada
curtiu resort indiferente não curtiu resort total
curtiu praia 469 97 514 1080
indiferente 219 307 292 818
não curtiu praia 447 167 2944 3558
total 1135 571 3750 5456
  1. Se um dos usuários deste estudo fosse selecionado ao acaso, qual a probabilidade dele não curtir praia e não curtir resorts?

  2. Se um dos usuários deste estudo fosse selecionado ao acaso e fosse informado que ele não curti praia, qual a probabilidade dele não curtir resorts?

  3. Entre os usuários que não curtem resort, qual a porcentagem que também não curti praia?

  4. O gráfico de barras empilhadas para estas duas variáveis está apresentado a seguir. Qual informação você consegue tirar do gráfico?

  1. Escolha a medida adequada para calcular a associação entre estas duas variáveis, faça as contas e interprete o resultado.

Fórmulas

\[ \chi^2 = \sum_{i=1}^s \sum_{j=1}^r \dfrac{(n_{i,j} - n_{i,j}^\star)^2}{n_{i,j}^\star} \qquad C = \sqrt{\dfrac{\chi^2}{\chi^2 + n} } \qquad C^\star = \sqrt{\dfrac{\chi^2}{\chi^2 + n} }\sqrt{\dfrac{k}{k - 1} }\\ \]

\[ var(X) = \dfrac{\sum_{i=1}^n x_i^2}{n} - \left(\dfrac{\sum_{i=1}^n x_i}{n}\right)^2 \qquad sd(X) = \sqrt{var(X)} \\ \]

\[ cov(X,Y) = \left(\dfrac{\sum_{i=1}^n x_i \ y_i}{n} \right) - \ \bar{x} \ \bar{y} \qquad cor(X,Y) = \dfrac{cov(X,Y)}{sd(X)sd(Y)} \\ \]

\[ \overline{var(X)} = \dfrac{\sum_{i=1}^s n_i var_i(X)}{n} \qquad R^2 = 1 - \dfrac{\overline{var}(Y)}{var(Y)}\\ \]