Estatística Descritiva

Objetivos

Nessa aula trataremos dos temas

Conceitos básicos
Notações e estrutura comum para os dados.
Distribuição de frequência de variáveis.
Tabelas para apresentação de distribuições de frequências de variáveis.
Gráficos para apresentação de distribuição de frequências de variáveis.

Conceitos

Conceitos importantes

População: conjunto de elementos com pelo menos uma característica em comum que o delimita, podendo ser pensada como o conjunto que contém todos os indivíduos, fenômenos ou resultados que se pretende investigar.
Amostra: um subconjunto da população, uma parte que pode ou não representar a população inteira.
Variável: característica dos elementos da população que se deseja investigar.
Dados: observações de uma ou mais variáveis a partir de elementos de uma população.
Censo: as observações são realizadas a partir de todos os elementos da população.
Dados Amostrais: as observações são realizadas a partir de uma amostra, ou seja, de parte da população.
Unidade Amostral: entidade (ou elemento) da população sobre a qual a característica de interesse (a variável) é observada.

Exemplo

Considere que o interesse seja a investigação do número de focos do mosquito Aedes aegypti por bairro na cidade de Russas. Neste caso:

População:

Amostra:

Variável:

Dados:

Censo:

Dados amostrais:

Unidades amostrais:

Exemplo

Considere que o interesse seja a investigação do número de focos do mosquito Aedes aegypti por bairro na cidade de Russas. Neste caso:

População: conjunto formando pelos bairros;

Amostra: conjunto que não contém todos os bairros, mas parte deles;

variável: quantidade de focos (um número inteiro positivo);

Dados: resultados de observações de focos por bairro;

Censo: resultado de observações de focos de todos os bairros;

Dados amostrais: resultados de observações de focos por bairro, considerando apenas os bairros que compõem a amostra;

Unidades amostrais: bairros que serão efetivamente observados.

Classificação de Variáveis

Uma variável é uma quantidade ou atributo, cujo valor observado pode variar de uma unidade investigada para outra.

Obs: veja exercícios na página 11 da apostila.

Estrutura de Dados e Notação

Em geral, dados são dispostos em tabelas ou planilhas, de modo que em cada coluna podem ser observados os valores assumidos pelas variáveis.
Dependendo do objetivo, ou ferramenta a ser utilizada para a análise, outras estruturas podem ser requeridas.

Exemplo

Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.
Cidade	UF	Sexo	Idade	Peso	Altura	Curso
Limoeiro do Norte	CE	Feminino	17	40,2	1,61	Engenharia Mecânica
Aracati	CE	Feminino	17	100,0	1,60	Engenharia de Produção
Limoeiro do Norte	CE	Masculino	19	60,0	1,65	Engenharia de Produção
Quixadá	CE	Masculino	20	80,3	1,73	Engenharia Mecânica
Russas	CE	Masculino	17	59,0	1,68	Engenharia Mecânica

Notação

$X$, $Y$, etc,maiúsculas, representa variáveis;
$x$ representa um valor observado de $X$ e
$x_1, x_2, \cdots, x_n$ representam uma sequência de tamanho $n$ de valores observados de $X$;
$n$ representa a quantidade de elementos na amostra usada para obter os valores observados e
$N$ representa a quantidade de elementos na população de onde vem os dados observados.

Frequência das Variáveis

Frequência de Ocorrência das Variáveis

Aqui, o interesse é investigar o comportamento da variável em estudo, em termos de sua variabilidade entre as unidades amostrais (as vezes dentro dessas).

Unidades amostrais: elementos que fornecem as observações.
Assim é importante resumir os dados a fim de evidênciar essa variabilidade.
Ou seja, deseja-se estudar a distribuição de frequência das variáveis em estudo, no conjunto de observações (ou dados).
Para isso fazemos uso de ferramentas como: tabelas, gráficos e medidas de resumo.

Visualização da Frequência

Tabela de Frequência Simples

Distribução de frequência da variável Y=“sexo”.
Y	Frequência absoluta	Frequência relativa
Feminino	74	0,354
Masculino	133	0,636
Não Declarado	2	0,01
Total	209	1

Nota: Esse tipo de tabela é apropriado para variáveis qualitativas ou quantitativas discretas com poucos valores possíveis.

Exemplo

Frequência dos estudantes por sexo.

Exemplo

Gráficos em Setores

Para a variável “Sexo”, pode-se também usar o gráfico em setores, comumente utilizado para representar parte de um todo.

Apropriado para mostrar frequências de ocorrências de variáveis qualitativas.

Formato Geral da Tabela de Frequência

Tabela e Notação

Modelo para um tabela de frequência simples.
Variável	$n_i$	$f_i$	$F_{ac}$
$x_1$	$n_1$	$f_1=n_1/n$	$n_1/n$
$x_2$	$n_2$	$f_2=n_2/n$	$(n_1+n_2)/n$
$...$	$...$	$...$	$...$
$x_k$	$n_k$	$f_k=n_k/n$	$(n_1+n_2+ ... +n_k)/n$
Total	$n$	1

Outras Notações Importantes

$k$ sendo o número de classes da tabela, que neste caso é a quantidade de valores distíntos no conjunto de dados;
$n_i$ a frequência absoluta;
$f_i$ a frequência relativa;
$F_{ac}$ a frequência relativa acumulada;
$n$ total de elementos da amostra, se as medições são feitas em todos os elementos da população, tem-se $N$ maiúsculo em vez de minúsculo.

Dados de uso de um sistema para armazenamento de informações

Distribução de frequência da variável Z=“uso da versão de um sistema”.
Z	Frequência Absoluta	Frequência Relativa	Frequência Acumulada
2…0	153	0	0
2.2.03	3	0	0
3.2.00	276810	0,175	0,175
3.2.01	39844	0,025	0,2
3.2.02	98775	0,062	0,263
3.2.30	1166058	0,737	1

Tabela de Frequência com Intervalos de Classes

Dados de Altura dos Entrevistados

##   [1] 1,49 1,49 1,50 1,50 1,51 1,52 1,53 1,53 1,53 1,53 1,53 1,53 1,54 1,54 1,55
##  [16] 1,55 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,57 1,57 1,57 1,57 1,57 1,58
##  [31] 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,60 1,60 1,60 1,60 1,60 1,60 1,60 1,60
##  [46] 1,60 1,60 1,61 1,61 1,61 1,61 1,62 1,62 1,62 1,62 1,63 1,63 1,63 1,63 1,63
##  [61] 1,63 1,63 1,63 1,63 1,63 1,63 1,64 1,64 1,64 1,64 1,64 1,64 1,65 1,65 1,65
##  [76] 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,66 1,66 1,66
##  [91] 1,66 1,67 1,67 1,67 1,67 1,67 1,68 1,68 1,68 1,69 1,70 1,70 1,70 1,70 1,70
## [106] 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70
## [121] 1,70 1,70 1,70 1,71 1,71 1,71 1,71 1,71 1,71 1,71 1,72 1,72 1,72 1,72 1,72
## [136] 1,72 1,72 1,72 1,72 1,73 1,73 1,73 1,73 1,73 1,73 1,73 1,73 1,73 1,73 1,74
## [151] 1,74 1,74 1,74 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,76
## [166] 1,76 1,76 1,76 1,76 1,77 1,78 1,78 1,78 1,78 1,78 1,78 1,78 1,78 1,78 1,78
## [181] 1,78 1,79 1,79 1,80 1,80 1,80 1,80 1,80 1,80 1,80 1,80 1,81 1,81 1,82 1,82
## [196] 1,83 1,83 1,83 1,84 1,84 1,85 1,85 1,85 1,85 1,87 1,93 1,93 1,93 1,94

Estratégia para o número de linhas da tabela

A escolha do número de classe é feita pelo anista, mas algumas regras podem ser usadas para se ter um valor de $k$ a partir do range dos dados.\ Algumas regras que podem ser adotadas são:
- $k\approx1+ \log_{2}(n),$
- $k\approx \log(n),$
- $k\approx 1+ 3.3 \times \log(n),$

Início e último valor considerado nos intervalos

É importante obter o valor máximo e o valor mínimo do conjunto de dados para decidir:
- $L_{inf}$ um valor menor ou igual ao valor mínimo;
- $L_{sup}$ um valor maior o igual ao valor máximo; que irão nortear a construção dos intervalos.

Procedimentos para construção da tabela com intervalos

Com isso tem-se a amplitude total de um intervalo que irá conter todas as observações:

\[AT=L_{sup}-L_{inf}\ \mbox{ (Amplitude Total)}\]

obtém-se a amplitude para cada classe fazendo: \[\delta=AT/k.\]

Dados de Altura dos Entrevistados

Para os dados da variável Altura, vamos fixar:
- $L_{inf}=1,48$
- $L_{sup}=1,94$
- $AT=L_{sup}-L_{inf}=1,94-1,48=0,46.$
Como $n=209$,
- $k\approx 1+log_{2}(209)\approx 8,71\approx 9$,
$k=9$ fornece:

\[\delta=0,46/9 = 0,0511...\approx 0,051\]

que é a amplitude dos intervalos das classes da tabela.

Dados de Altura dos Entrevistados

$1,48+0,0512=1,53$ $\Rightarrow$ $(1,48; 1,53]$
$1,53 +0,0512=1,58$ $\Rightarrow$ $(1,53; 1,58]$
$1,58 +0,0512=1,63$ $\Rightarrow$ $(1,58; 1,63]$
$1,63+0,0512=1,68$ $\Rightarrow$ $(1,63; 1,68]$
$1,68+0,0512=1,74$ $\Rightarrow$ $(1,68; 1,74]$
$1,73+0,0512=1,79$ $\Rightarrow$ $(1,74; 1,79]$
$1,79+0,0512=1,84$ $\Rightarrow$ $(1,79; 1,84]$
$1,84+0,0512=1,89$ $\Rightarrow$ $(1,84; 1,89]$
$1,89+0,0512=1,94$ $\Rightarrow$ $(1,89; 1,94]$

Distribuição de Frequência da Altura

Distribução de frequência da variável Z=“Altura”.
Z	Frequência Absoluta	Frequência Relativa	Frequência Acumulada
(1,48,1,53]	12	0,057	0,057
(1,53,1,58]	21	0,1	0,158
(1,58,1,63]	33	0,158	0,316
(1,63,1,68]	33	0,158	0,474
(1,68,1,74]	50	0,239	0,713
(1,74,1,79]	32	0,153	0,866
(1,79,1,84]	17	0,081	0,947
(1,84,1,89]	7	0,033	0,981
(1,89,1,94]	4	0,019	1

Gráficos para Variáveis Quantitativas

Um dos gráficos mais importantes para exibir distribuição de frequência de variáveis quantitativas é o histograma.

Histograma

Dados

Vamos considerar a variável “Nota do Enem” que diz respeito ao desempenho dos entrevistados na seleção antes do ingresso na universidade.

Construção do histograma

Para os dados da variável “Nota do ENEM”, vamos fixar $L_{sup}=766$ e $L_{inf}=450$

\[AT=L_{sup}-L_{inf}=766-450=316.\]

Com $n=157$, tem-se $k\approx 1+log_{2}157\approx 8,29\approx 8$,
assim $k=8$ que fornece $\delta=316/8 \approx 40$.
Logo, tem-se:
$450+40=490$ $\Rightarrow$ $[450; 490)$

Construção do histograma

$450+40=490$ $\Rightarrow$ $[450; 490)$
$490+40=530$ $\Rightarrow$ $[490; 530)$

Construção do histograma

$450+40=490$ $\Rightarrow$ $[450; 490)$
$490+40=530$ $\Rightarrow$ $[490; 530)$
$530+40=570$ $\Rightarrow$ $[530; 570)$

Construção do histograma

$450+40=490$ $\Rightarrow$ $[450; 490)$
$490+40=530$ $\Rightarrow$ $[490; 530)$
$530+40=570$ $\Rightarrow$ $[530; 570)$
$570+40=610$ $\Rightarrow$ $[570; 610)$

Construção do histograma

$450+40=490$ $\Rightarrow$ $[450; 490)$
$490+40=530$ $\Rightarrow$ $[490; 530)$
$530+40=570$ $\Rightarrow$ $[530; 570)$
$570+40=610$ $\Rightarrow$ $[570; 610)$
$610+40=650$ $\Rightarrow$ $[610; 650)$
$650+40=690$ $\Rightarrow$ $[650; 690)$
$690+40=730$ $\Rightarrow$ $[690; 730)$
$730+40=770$ $\Rightarrow$ $[730; 770)$

Tabela

Distribução de frequência da variável X=“Nota”.
X	Frequência Absoluta	Frequência Relativa	Frequência Acumulada
[450,490)	1	0,006	0,006
[490,530)	2	0,013	0,019
[530,570)	8	0,051	0,07
[570,610)	27	0,172	0,242
[610,650)	51	0,325	0,567
[650,690)	52	0,331	0,898
[690,730)	13	0,083	0,981
[730,770)	3	0,019	1

Altura para primeira barra do histograma

$[450; 490)$: $f_1=1/157\approx 0,006$,

a primeira barra tem área 0,006, a altura ($h$) deve ser obtida como:

\[\delta \times h=0,006\]

em que $\delta=490-450=40$ é a amplitude do intervalo em cada classe, então:

\[40\times h_1=0,006 \Rightarrow h_1=0,000159 \]

Por outro lado

\[ h_1=0,000159 \Rightarrow \delta \times h_1 = f_1 \approx 0,006\]

Altura da segunda barra do histograma

Obtém-se a segunda frequência relativa do intervalo $[490; 530)$;
calcula-se a altura da barra dividindo essa frequência pela amplitudoe da classe:

-\[f_2=2/157 = 0,01273885 \Rightarrow h_2=\frac{f_2}{40}=0,00032.\]

Logo a altura da segunda barra é $\approx 0.000318$,

Alturas para as demais barras do histograma

$[530; 570)$: $f_3=8/157 = 0,05095541 \Rightarrow h_3=\frac{f_3}{40}= 0,00127.$
$[570; 610)$:$f_4=27/157 = 0,1719745 \Rightarrow h_4=\frac{f_4}{40}= 0,00429.$
$[610; 650)$: $f_5=51/157=0,32484$ $\Rightarrow h_5=\frac{f_5}{40}=0,00812$
$[650; 690)$: $f_6=52/157=033121$ $\Rightarrow h_5=\frac{f_6}{40}=0,00828$
$[690; 730)$: $f_7=13/157 =0,08280 $ $\Rightarrow h_5=\frac{f_6}{40}=0,00207$
$[730; 770)$: $f_8=3/157=0,191$ $\Rightarrow h_5=\frac{f_8}{40}=0,00048.$

Alturas para as demais barras do histograma

Deste modo, têm-se os seguinte valores de alturas para as barras:

$h_1= 0,00016 =1,6\mbox{ e}^{-4}$
$h_2= 0,00032 =3,2 \mbox{ e}^{-4}$
$h_3= 0,00127 =12,7\mbox{ e}^{-4}$
$h_4= 0,00429 =42,9 \mbox{ e}^{-4}$
$h_5= 0,00812 = 81,2 \mbox{ e}^{-4}$
$h_6= 0,00828 = 82,8 \mbox{ e}^{-4}$
$h_7= 0,00207 = 20,7\mbox{ e}^{-4}$
$h_8= 0,00048 = 4,8 \mbox{ e}^{-4}$

Histograma: primeira barra

Histograma: segunda barra

Histograma

Polígono de frequência

Histograma e polígono de frequência para a variável Nota.

Gráfico de Dispersão

Mostra a distribuição de frequência conjunta de duas variáveis.

Dados em Forma Longa e Gráfico de Linhas

Dados de produção Forma larga

Dados de produção em Forma Longa

Gráfico de linhas

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Variável	\(n_i\)	\(f_i\)	\(F_{ac}\)
\(x_1\)	\(n_1\)	\(f_1=n_1/n\)	\(n_1/n\)
\(x_2\)	\(n_2\)	\(f_2=n_2/n\)	\((n_1+n_2)/n\)
\(...\)	\(...\)	\(...\)	\(...\)
\(x_k\)	\(n_k\)	\(f_k=n_k/n\)	\((n_1+n_2+ ... +n_k)/n\)
Total	\(n\)	1