Estatística e Ciência de Dados Aplicada - MBA em Gestão Empresarial

Rafael Martins de Souza, FGV CERI, FGV IDE, FGV EPGE MFEE, UERJ

30/11/2022

Investir em micromedição ajuda a diminuir perdas?

A motivação da aula de hoje é ilustrar como o uso de análise estatística pode nos ajudar a responder uma pergunta de negócio relevante.

Seguindo a análise com os nossos dados …

Conseguimos reproduzir a análise da Aula 04 na aula de hoje?

Box-Plot

Aqui eu faço o box-plot da primeira e concluo que

Aqui eu faço o box-plot da segunda e concluo que ….

Violino

Histograma

Medidas Resumo

Vamos trabalhar agora com algumas estatísticas descritivas. Suponha que tenhamos uma amostra de um conjunto de observações de alguma característica de interesse:

\[ (X_1, \ldots, X_n) \] \[ X_i, i = 1, \ldots, n \] \[ x_i, i = 1, \ldots, n \] \[ x_1, \ldots, x_n ,\] na qual \(n\) é o tamanho da amostra.

Podemos obter algumas estatísticas descritivas para entender algumas características dos dados

Medidas de Tendência Central

Média aritmética

\[ \bar{x}_n = \frac{1}{n}\sum_{i}^{n} x_i, \] \(i = 1, \dots, n\).

No R:

A média de \(x\) é 65,03 e a média de \(y\) é 26,35.

Mediana

O mediana de \(x\) é 70,1% e a mediana de \(y\) é 24,54%.

Medidas de dispersão e de posição

Mínimo

O mínimo é a menor observação da amostra:

O mínimo de \(x\) é 0%

Máximo

O máximo é a maior observação da amostra:

O máximo de \(x\) é 99,93%.

Amplitude Amostral

Amplitude amostral é a diferença entre o maior e o menor valor da amostra.

Amplitude amostral de \(x\) é 99,93%.

Quantis

Um quantil de ordem \(p\) (com $ 0 < p < 1 $) é um valor, \(x_p\), que divide a amostra ordenada em duas partes, tal que:

  • à esquerda de \(x_p\) está uma proporção não inferior a \(p\) dos valores mais reduzidos da amostra e, também deve ser verificado,
  • à direita uma proporção não inferior a \((1−p)\) dos valores mais elevados da amostra.

Dizer que \(x_p\) é um quantil de ordem \(p\) significa que:

  • pelo menos $p % $ das observações da amostra são menores ou iguais a \(x_p\) e
  • pelo menos $(1−p)×100 % $ das observações são maiores ou iguais a 𝑥𝑝. Propriedade: há mais que um quantil de ordem p. Os softwares, calculadoras ou expressões em formulários podem determinar valores diferentes para um quantil, todos eles corretos, e dentro de um intervalo possível. Uns serão mais à esquerda, outros mais ao centro e outros mais à direita. Depende da maneira como se interpreta.

A seguinte expressão permite calcular um quantil de ordem \(p\):

$$ \[\begin{split}x_p = \left\{ \begin{array}{l} x_{\left( \lfloor np+1 \rfloor \right)} \text{, se } np \text{ não inteiro,}\\ \displaystyle \frac{x_{(np)} + x_{(np+1)}}{2} \text{, se } np \text{ inteiro.} \end{array} \right.\end{split}\]

$$

  • Se \(n_p\) não é inteiro, escolhe-se o inteiro seguinte para posição na amostra ordenada;

  • Se \(n_p\) é inteiro, faz-se média entre os dois valores consecutivos na amostra ordenada, a começar em \(n_p\).

Qual é a observação que separa as obserções que estão entre as $25 % $ menores das demais?

Como fazer no R?

O primeiro quartil de \(x\) é 0, 62,13 e o terceiro quartil de \(x\) é 0, 76,66.

Intervalo interquartílico

Uma medida de dispersão importante é dada pela diferença entre o terceiro e primeiro quartis: \(q_3 - q_1\).

14,53%

Variância amostral

\[ s^{'2} = \frac{1}{n} \sum_{i = 1}^{n} (x_i - \bar{x})^2 \] \[ s^{2} = \frac{1}{n-1} \sum_{i = 1}^{n} (x_i - \bar{x})^2 \]

Desvio-padrão amostral

\[ s = \sqrt{s^{2}} = \sqrt{\frac{1}{n-1} \sum_{i = 1}^{n} (x_i - \bar{x})^2} \]

Desvio absoluto médio

\[ dam = \frac{1}{n} \sum_{i = 1}^{n} |x_i - \bar{x}| \]

(desvio = sd(x, na.rm = TRUE))
## [1] 20,85

Coeficiente de Variação

\[ Coef. Var. = \frac{{s_x}}{\bar{x}} \]

(coefvar = desvio/media)
## [1] 0,32062

Scatter Plot

O Scatter Plot no Plotly.

Análise Bivariada

Análise das variáveis IN013_AE(Índice de perdas faturamento) e IN010_AE (Índ. de micromedição relativo ao vol. disponibilizado)

par = data.frame(cbind(x, y))
par = par %>% drop_na()

Coeficiente de Correlação

\[ cov(x, y) = \frac{1}{n} \sum_{i = 1}^{n}(x_i - \bar{x})(y_j - \bar{y})^2 \]

cov(par)
##         x       y
## x  434,74 -249,35
## y -249,35  328,13

Podemos escrever que o coeficiente de correlação entre as duas variáveis analisadas é dados por -249,35.

Coeficiente de Correlação

\[ r_{x,y} = cor(x, y) = \frac{cov(x, y)}{s_x s_y}. \] Propiedades:

  • \(-1 \leq r_{x,y} \leq 1\), e, evidentemente,
  • \(| r_{x,y} | \leq 1\).

Geralmente considera-se

  • Correlação nula: \(r_{x,y} = 0\) ;
  • Correlação fraca: \(0 < |r_{x,y}| < 0,3\);
  • Correlação regular: \(0,3 \leq |r_{x,y}| < 0,7\);
  • Correlação forte: \(0,7 \leq |r_{x,y}| < 1\);
  • Correlação perfeita: \(|r_{x,y}| = 1\).

Note-se que, evidentemente, \(r_{x,x} = 1\).

No R:

cor(par)
##          x        y
## x  1,00000 -0,66019
## y -0,66019  1,00000

No caso em tela, o coeficiente de correlação é negativo e grande em módulo. Ainda, podemos reportar o resultado como segue: -0,66.