População: conjunto de elementos com pelo menos uma característica em comum que o delimita, podendo ser pensada como o conjunto que contém todos os indivíduos, fenômenos ou resultados que se pretende investigar.
Amostra: um subconjunto da população, uma parte que pode ou não representar a população inteira.
Variável: característica dos elementos da população que se deseja investigar.
Dados: observações de uma ou mais variáveis a partir de elementos de uma população.
Censo: as observações são realizadas a partir de todos os elementos da população.
Dados Amostrais: as observações são realizadas a partir de uma amostra, ou seja, de parte da população.
Unidade Amostral: entidade (ou elemento) da população sobre a qual a característica de interesse (a variável) é observada.
Considere que o interesse seja a investigação do número de focos do mosquito Aedes aegypti por bairro na cidade de Russas. Neste caso:
População:
Amostra:
Variável:
Dados:
Censo:
Dados amostrais:
Unidades amostrais:
Considere que o interesse seja a investigação do número de focos do mosquito Aedes aegypti por bairro na cidade de Russas. Neste caso:
População: conjunto formando pelos bairros;
Amostra: conjunto que não contém todos os bairros, mas parte deles;
variável: quantidade de focos (um número inteiro positivo);
Dados: resultados de observações de focos por bairro;
Censo: resultado de observações de focos de todos os bairros;
Dados amostrais: resultados de observações de focos por bairro, considerando apenas os bairros que compõem a amostra;
Unidades amostrais: bairros que serão efetivamente observados.
Uma variável é uma quantidade ou atributo, cujo valor observado pode variar de uma unidade investigada para outra.
Obs: veja exercícios na página 11 da apostila.
Em geral, dados são dispostos em tabelas ou planilhas, de modo que em cada coluna podem ser observados os valores assumidos pelas variáveis.
Dependendo do objetivo, ou ferramenta a ser utilizada para a análise, outras estruturas podem ser requeridas.
| Cidade | UF | Sexo | Idade | Peso | Altura | Curso |
|---|---|---|---|---|---|---|
| Limoeiro do Norte | CE | Feminino | 17 | 40,2 | 1,61 | Engenharia Mecânica |
| Aracati | CE | Feminino | 17 | 100,0 | 1,60 | Engenharia de Produção |
| Limoeiro do Norte | CE | Masculino | 19 | 60,0 | 1,65 | Engenharia de Produção |
| Quixadá | CE | Masculino | 20 | 80,3 | 1,73 | Engenharia Mecânica |
| Russas | CE | Masculino | 17 | 59,0 | 1,68 | Engenharia Mecânica |
\(X\), \(Y\), etc,maiúsculas, representa variáveis;
\(x\) representa um valor observado de \(X\) e
\(x_1, x_2, \cdots, x_n\) representam uma sequência de tamanho \(n\) de valores observados de \(X\);
\(n\) representa a quantidade de elementos na amostra usada para obter os valores observados e
\(N\) representa a quantidade de elementos na população de onde vem os dados observados.
Aqui, o interesse é investigar o comportamento da variável em estudo, em termos de sua variabilidade entre as unidades amostrais (as vezes dentro dessas).
Unidades amostrais: elementos que fornecem as observações.
Assim é importante resumir os dados a fim de evidênciar essa variabilidade.
Ou seja, deseja-se estudar a distribuição de frequência das variáveis em estudo, no conjunto de observações (ou dados).
Para isso fazemos uso de ferramentas como: tabelas, gráficos e medidas de resumo.
| Y | Frequência absoluta | Frequência relativa |
|---|---|---|
| Feminino | 74 | 0,354 |
| Masculino | 133 | 0,636 |
| Não Declarado | 2 | 0,01 |
| Total | 209 | 1 |
Frequência dos estudantes por sexo.
Para a variável “Sexo”, pode-se também usar o gráfico em setores, comumente utilizado para representar parte de um todo.
Apropriado para mostrar frequências de ocorrências de variáveis qualitativas.
| Variável | \(n_i\) | \(f_i\) | \(F_{ac}\) |
|---|---|---|---|
| \(x_1\) | \(n_1\) | \(f_1=n_1/n\) | \(n_1/n\) |
| \(x_2\) | \(n_2\) | \(f_2=n_2/n\) | \((n_1+n_2)/n\) |
| \(...\) | \(...\) | \(...\) | \(...\) |
| \(x_k\) | \(n_k\) | \(f_k=n_k/n\) | \((n_1+n_2+ ... +n_k)/n\) |
| Total | \(n\) | 1 |
\(k\) sendo o número de classes da tabela, que neste caso é a quantidade de valores distíntos no conjunto de dados;
\(n_i\) a frequência absoluta;
\(f_i\) a frequência relativa;
\(F_{ac}\) a frequência relativa acumulada;
\(n\) total de elementos da amostra, se as medições são feitas em todos os elementos da população, tem-se \(N\) maiúsculo em vez de minúsculo.
| Z | Frequência Absoluta | Frequência Relativa | Frequência Acumulada |
|---|---|---|---|
| 2…0 | 153 | 0 | 0 |
| 2.2.03 | 3 | 0 | 0 |
| 3.2.00 | 276810 | 0,175 | 0,175 |
| 3.2.01 | 39844 | 0,025 | 0,2 |
| 3.2.02 | 98775 | 0,062 | 0,263 |
| 3.2.30 | 1166058 | 0,737 | 1 |
## [1] 1,49 1,49 1,50 1,50 1,51 1,52 1,53 1,53 1,53 1,53 1,53 1,53 1,54 1,54 1,55 ## [16] 1,55 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,57 1,57 1,57 1,57 1,57 1,58 ## [31] 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,60 1,60 1,60 1,60 1,60 1,60 1,60 1,60 ## [46] 1,60 1,60 1,61 1,61 1,61 1,61 1,62 1,62 1,62 1,62 1,63 1,63 1,63 1,63 1,63 ## [61] 1,63 1,63 1,63 1,63 1,63 1,63 1,64 1,64 1,64 1,64 1,64 1,64 1,65 1,65 1,65 ## [76] 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,66 1,66 1,66 ## [91] 1,66 1,67 1,67 1,67 1,67 1,67 1,68 1,68 1,68 1,69 1,70 1,70 1,70 1,70 1,70 ## [106] 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 ## [121] 1,70 1,70 1,70 1,71 1,71 1,71 1,71 1,71 1,71 1,71 1,72 1,72 1,72 1,72 1,72 ## [136] 1,72 1,72 1,72 1,72 1,73 1,73 1,73 1,73 1,73 1,73 1,73 1,73 1,73 1,73 1,74 ## [151] 1,74 1,74 1,74 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,76 ## [166] 1,76 1,76 1,76 1,76 1,77 1,78 1,78 1,78 1,78 1,78 1,78 1,78 1,78 1,78 1,78 ## [181] 1,78 1,79 1,79 1,80 1,80 1,80 1,80 1,80 1,80 1,80 1,80 1,81 1,81 1,82 1,82 ## [196] 1,83 1,83 1,83 1,84 1,84 1,85 1,85 1,85 1,85 1,87 1,93 1,93 1,93 1,94
Com isso tem-se a amplitude total de um intervalo que irá conter todas as observações:
\[AT=L_{sup}-L_{inf}\ \mbox{ (Amplitude Total)}\]
\[\delta=0,46/9 = 0,0511...\approx 0,051\]
que é a amplitude dos intervalos das classes da tabela.
| Z | Frequência Absoluta | Frequência Relativa | Frequência Acumulada |
|---|---|---|---|
| (1,48,1,53] | 12 | 0,057 | 0,057 |
| (1,53,1,58] | 21 | 0,1 | 0,158 |
| (1,58,1,63] | 33 | 0,158 | 0,316 |
| (1,63,1,68] | 33 | 0,158 | 0,474 |
| (1,68,1,74] | 50 | 0,239 | 0,713 |
| (1,74,1,79] | 32 | 0,153 | 0,866 |
| (1,79,1,84] | 17 | 0,081 | 0,947 |
| (1,84,1,89] | 7 | 0,033 | 0,981 |
| (1,89,1,94] | 4 | 0,019 | 1 |
\[AT=L_{sup}-L_{inf}=766-450=316.\]
Com \(n=157\), tem-se \(k\approx 1+log_{2}157\approx 8,29\approx 8\),
assim \(k=8\) que fornece \(\delta=316/8 \approx 40\).
Logo, tem-se:
\(450+40=490\) \(\Rightarrow\) \([450; 490)\)
| X | Frequência Absoluta | Frequência Relativa | Frequência Acumulada |
|---|---|---|---|
| [450,490) | 1 | 0,006 | 0,006 |
| [490,530) | 2 | 0,013 | 0,019 |
| [530,570) | 8 | 0,051 | 0,07 |
| [570,610) | 27 | 0,172 | 0,242 |
| [610,650) | 51 | 0,325 | 0,567 |
| [650,690) | 52 | 0,331 | 0,898 |
| [690,730) | 13 | 0,083 | 0,981 |
| [730,770) | 3 | 0,019 | 1 |
\([450; 490)\): \(f_1=1/157\approx 0,006\),
\[\delta \times h=0,006\]
em que \(\delta=490-450=40\) é a amplitude do intervalo em cada classe, então:
\[40\times h_1=0,006 \Rightarrow h_1=0,000159 \]
\[ h_1=0,000159 \Rightarrow \delta \times h_1 = f_1 \approx 0,006\]
Obtém-se a segunda frequência relativa do intervalo \([490; 530)\);
calcula-se a altura da barra dividindo essa frequência pela amplitudoe da classe:
-\[f_2=2/157 = 0,01273885 \Rightarrow h_2=\frac{f_2}{40}=0,00032.\]
\([530; 570)\): \(f_3=8/157 = 0,05095541 \Rightarrow h_3=\frac{f_3}{40}= 0,00127.\)
\([570; 610)\):\(f_4=27/157 = 0,1719745 \Rightarrow h_4=\frac{f_4}{40}= 0,00429.\)
\([610; 650)\): \(f_5=51/157=0,32484\) \(\Rightarrow h_5=\frac{f_5}{40}=0,00812\)
\([650; 690)\): \(f_6=52/157=033121\) \(\Rightarrow h_5=\frac{f_6}{40}=0,00828\)
\([690; 730)\): $f_7=13/157 =0,08280 $ \(\Rightarrow h_5=\frac{f_6}{40}=0,00207\)
\([730; 770)\): \(f_8=3/157=0,191\) \(\Rightarrow h_5=\frac{f_8}{40}=0,00048.\)
Deste modo, têm-se os seguinte valores de alturas para as barras:
Histograma e polígono de frequência para a variável Nota.
Mostra a distribuição de frequência conjunta de duas variáveis.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0. ## ℹ Please use `linewidth` instead. ## This warning is displayed once every 8 hours. ## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was ## generated.