Investir em micromedição ajuda a diminuir perdas?
A motivação da aula de hoje é ilustrar como o uso de análise estatística pode nos ajudar a responder uma pergunta de negócio relevante.
Seguindo a análise com os nossos dados …
Conseguimos reproduzir a análise da Aula 04 na aula de hoje?
Box-Plot
Aqui eu faço o box-plot da primeira e concluo que
Aqui eu faço o box-plot da segunda e concluo que ….
Violino
Histograma
Medidas Resumo
Vamos trabalhar agora com algumas estatísticas descritivas. Suponha que tenhamos uma amostra de um conjunto de observações de alguma característica de interesse:
\[ (X_1, \ldots, X_n) \] \[ X_i, i = 1, \ldots, n \] \[ x_i, i = 1, \ldots, n \] \[ x_1, \ldots, x_n ,\] na qual \(n\) é o tamanho da amostra.
Podemos obter algumas estatísticas descritivas para entender algumas características dos dados
Medidas de Tendência Central
Média aritmética
\[ \bar{x}_n = \frac{1}{n}\sum_{i}^{n} x_i, \] \(i = 1, \dots, n\).
No R:
A média de \(x\) é 65,03 e a média de \(y\) é 26,35.
Mediana
O mediana de \(x\) é 70,1% e a mediana de \(y\) é 24,54%.
Medidas de dispersão e de posição
Mínimo
O mínimo é a menor observação da amostra:
O mínimo de \(x\) é 0%
Máximo
O máximo é a maior observação da amostra:
O máximo de \(x\) é 99,93%.
Amplitude Amostral
Amplitude amostral é a diferença entre o maior e o menor valor da amostra.
Amplitude amostral de \(x\) é 99,93%.
Quantis
Um quantil de ordem \(p\) (com $ 0 < p < 1 $) é um valor, \(x_p\), que divide a amostra ordenada em duas partes, tal que:
- à esquerda de \(x_p\) está uma proporção não inferior a \(p\) dos valores mais reduzidos da amostra e, também deve ser verificado,
- à direita uma proporção não inferior a \((1−p)\) dos valores mais elevados da amostra.
Dizer que \(x_p\) é um quantil de ordem \(p\) significa que:
- pelo menos $p % $ das observações da amostra são menores ou iguais a \(x_p\) e
- pelo menos $(1−p)×100 % $ das observações são maiores ou iguais a 𝑥𝑝. Propriedade: há mais que um quantil de ordem p. Os softwares, calculadoras ou expressões em formulários podem determinar valores diferentes para um quantil, todos eles corretos, e dentro de um intervalo possível. Uns serão mais à esquerda, outros mais ao centro e outros mais à direita. Depende da maneira como se interpreta.
A seguinte expressão permite calcular um quantil de ordem \(p\):
$$ \[\begin{split}x_p = \left\{ \begin{array}{l} x_{\left( \lfloor np+1 \rfloor \right)} \text{, se } np \text{ não inteiro,}\\ \displaystyle \frac{x_{(np)} + x_{(np+1)}}{2} \text{, se } np \text{ inteiro.} \end{array} \right.\end{split}\]$$
Se \(n_p\) não é inteiro, escolhe-se o inteiro seguinte para posição na amostra ordenada;
Se \(n_p\) é inteiro, faz-se média entre os dois valores consecutivos na amostra ordenada, a começar em \(n_p\).
Qual é a observação que separa as obserções que estão entre as $25 % $ menores das demais?
Como fazer no R?
O primeiro quartil de \(x\) é 0, 62,13 e o terceiro quartil de \(x\) é 0, 76,66.
Intervalo interquartílico
Uma medida de dispersão importante é dada pela diferença entre o terceiro e primeiro quartis: \(q_3 - q_1\).
14,53%
Variância amostral
\[ s^{'2} = \frac{1}{n} \sum_{i = 1}^{n} (x_i - \bar{x})^2 \] \[ s^{2} = \frac{1}{n-1} \sum_{i = 1}^{n} (x_i - \bar{x})^2 \]
Desvio-padrão amostral
\[ s = \sqrt{s^{2}} = \sqrt{\frac{1}{n-1} \sum_{i = 1}^{n} (x_i - \bar{x})^2} \]
Desvio absoluto médio
\[ dam = \frac{1}{n} \sum_{i = 1}^{n} |x_i - \bar{x}| \]
(desvio = sd(x, na.rm = TRUE))
## [1] 20,85
Coeficiente de Variação
\[ Coef. Var. = \frac{{s_x}}{\bar{x}} \]
(coefvar = desvio/media)
## [1] 0,32062
Scatter Plot
Análise Bivariada
Análise das variáveis IN013_AE(Índice de perdas faturamento) e IN010_AE (Índ. de micromedição relativo ao vol. disponibilizado)
par = data.frame(cbind(x, y))
par = par %>% drop_na()
Coeficiente de Correlação
\[ cov(x, y) = \frac{1}{n} \sum_{i = 1}^{n}(x_i - \bar{x})(y_j - \bar{y})^2 \]
cov(par)
## x y
## x 434,74 -249,35
## y -249,35 328,13
Podemos escrever que o coeficiente de correlação entre as duas variáveis analisadas é dados por -249,35.
Coeficiente de Correlação
\[ r_{x,y} = cor(x, y) = \frac{cov(x, y)}{s_x s_y}. \] Propiedades:
- \(-1 \leq r_{x,y} \leq 1\), e, evidentemente,
- \(| r_{x,y} | \leq 1\).
Geralmente considera-se
- Correlação nula: \(r_{x,y} = 0\) ;
- Correlação fraca: \(0 < |r_{x,y}| < 0,3\);
- Correlação regular: \(0,3 \leq |r_{x,y}| < 0,7\);
- Correlação forte: \(0,7 \leq |r_{x,y}| < 1\);
- Correlação perfeita: \(|r_{x,y}| = 1\).
Note-se que, evidentemente, \(r_{x,x} = 1\).
No R:
cor(par)
## x y
## x 1,00000 -0,66019
## y -0,66019 1,00000
No caso em tela, o coeficiente de correlação é negativo e grande em módulo. Ainda, podemos reportar o resultado como segue: -0,66.