Probabilidade e Estatística

class: center, middle, inverse, title-slide

# Probabilidade e Estatística
## Aula 04 - Medidas Resumo - Parte 1
### Prof. Dr. Hidelbrando F. Rodrigues
### ICET/UFAM
### 2021-08-25

---

## Medidas de tendência central: Média, Mediana e Moda

### Média Aritmética

As medidas de tendência central são os resultados de certas operações feitas com os dados que nos dão uma ideia representativa da ordem de grandeza dos valores da 
variável medida, ou do valor que melhor representa os dados coletados.

Seja `$X$` a variável em questão. Seja `$xi$` para `$i=1,..., n$` os valores 
da variável medida em cada objeto da amostra, ou seja, a Resistencia à 
Compressao (em psi) pertencente à amostra, e simbolizamos a média desta variável 
por `$\overline{X}$`.

A fórmula da média pode então ser indicada por:

`$$\overline{X} = \frac{x_{1}+x_{2}+...x_{n}}{n} = \frac{\sum_{x=1}^{n}x_{i}}{n}$$`

---
### Média Aritmética

Tabela 1. Resistencia à Compressao (em psi) de 80 Corpos de Prova da Liga de Alumínio-Lítio. A base de dados está "guardada" num objeto (vetor de dados) chamado *dados_compressao*.

```r
dados_compressao <- c(105,	221,	183,	186,	121,	181,	180,	143, 97,	154,	153,	174,	120,	168,	167,	141,  245,	228,	174,	199,	181,	158,	176,	110, 163,	131,	154,	115,	160,	208,	158,	133, 207,	180,	190,	193,	194,	133,	156,	123, 134,	178,	 76,	167,	184,	135,	229,	146, 218,	157,	101,	171,	165,	172,	158,	169, 199,	151,	142,	163,	145,	171,	148,	158, 160,	175,	149,	 87,	160,	237,	150,	135, 196,	201,	200,	176,	150,	170,	118,	149)
```
--

`$\overline{x}=\frac{105+221+...+149}{80}$`

```r
sum(dados_compressao/length(dados_compressao))
```

```
## [1] 162.6625
```

##### outra forma é usando o comando `mean()`

```r
mean(dados_compressao)
```

```
## [1] 162.6625
```

---

### Mediana
A mediana é o valor central dos dados. Da mesma forma que a média, a mediana somente existe para dados de variáveis quantitativas.

> Para calculá-la, primeiramente temos de reorganizar os dados em ordem crescente e, em seguida, escolher o valor central.

> Se o número de dados for ímpar, então este valor central é único; se for par, fazemos
a média dos dois valores centrais.

Pass 1:Ordenar a base de dados

```r
dados_compressao_ord <- sort(dados_compressao)
```

Passo 2: Verificar se a quantidade é `par` ou `impar`

```r
length(dados_compressao)
```

```
## [1] 80
```
Como a quantidade é par, a mediana será a média aritmética dos termos centras `$\frac{n}{2}$` e `$\frac{n}{2}+1$`, que no nosso exemplo serão os termo de ordem 40 e 41.

Mas como localizar a posição de um elemento em uma base de dados?

Lembrando que nossa base de dados é, na verdade, um *vetor de dados*.

---

### Mediana

Temosa, a seguir, a base de dados ordenada:

```r
dados_compressao_ord
```

```
##  [1]  76  87  97 101 105 110 115 118 120 121 123 131 133 133 134 135 135 141 142
## [20] 143 145 146 148 149 149 150 150 151 153 154 154 156 157 158 158 158 158 160
## [39] 160 160 163 163 165 167 167 168 169 170 171 171 172 174 174 175 176 176 178
## [58] 180 180 181 181 183 184 186 190 193 194 196 199 199 200 201 207 208 218 221
## [77] 228 229 237 245
```

```r
# Elemento da posição 40
dados_compressao_ord[40]
```

```
## [1] 160
```

```r
# Elemento da posição 41
dados_compressao_ord[41]
```

```
## [1] 163
```

---
  
#### Calculando a mediana

```r
(dados_compressao_ord[40]+dados_compressao_ord[41])/2 
```

```
## [1] 161.5
```
##### este resultado é a média de 160 e 163

#### Outra forma de calcular a mediana é pelo comando R *`median()`*

```r
median(dados_compressao)
```

```
## [1] 161.5
```

```r
median(dados_compressao_ord)
```

```
## [1] 161.5
```

E qual a interpretação da mediana em nosso exemplo?

> Como o valor da mediana é 161,5 (psi), temos que metade das leituras (50% ou 40 observações) da leitura da compressão são menores que este valor e a outra metade, maior que a mediana.

---

### Moda

A moda é simplesmente o valor que mais vezes aparece no nosso
conjunto de dados.

Se todos os valores aparecem um número igual de vezes (em geral, uma vez cada), dizemos que nossos dados não têm moda, ou seja, a moda pode, muitas vezes, não existir.

Uma outra particularidade importante da moda é que ela é a única, das três medidas de tendência central, que pode ser calculada quando a variável medida é qualitativa.

Se olhamos para um gráfico de colunas, a moda é justamente a categoria que corresponde à coluna mais alta

---
### Cálculos da média, mediana e moda a partir de uma tabela de distribuição de frequência

Muitas vezes, conjuntos de dados, resultados de medidas de uma
variável quantitativa contínua, são repassados para você já organizados numa tabela de distribuição de fequência.

Isto quer dizer que você não terá acesso aos dados originais, mas somente às frequências dos intervalos de classe. Mesmo assim, como já foi dito em outro capítulo, se o número de intervalos é correto, perdemos muito poucas informações que os dados contêm.

Neste caso, ao calcular as medidas de tendência central a partir da tabela de distribuição de frequências, podemos ter certeza de que os resultados serão aproximações boas e confiáveis das medidas calculadas a partir dos dados originais.

Para calcular estas medidas, primeiramente, já que não conhecemos os valores originais, assumimos que todos os valores dos dados pertencentes a um dado intervalo de classe são iguais ao ponto médio (pm) deste intervalo, o que quer dizer que cada valor é repetido tantas vezes quanto seja a frequência do intervalo ao qual ele pertence. Depois calculamos a média para estes valores. Fazemos o mesmo para a mediana.

---
### Média para dados agrupados

Com isso podemos deduzir a fórmula para a média a partir da tabela de distribuição de frequência.

Seja `$k$` o número de intervalos de classe e n o número total de dados.
Seja também `$y_j$` para `$j = 1 . . . k$` os pontos médios dos intervalos de classe e `$f_j$` para `$j = 1 . . . k$` as frequências absolutas de cada intervalo. Então o valor de `$\overline{X}$` , usando somente a tabela de distribuição de frequência, é:

`$$\sum_j^k\frac{{y_i}f_i}{\sum_j^kf_i} = \sum_j^k\frac{{y_i}f_i}{n}$$`