OBJECTIVOS
No final desta Unidade Curricular, espera-se que o estudante seja capaz de:
Compreender os conceitos fundamentais da estatística descritiva, organizar e sintetizar dados de forma adequada, bem como calcular e interpretar medidas estatísticas e representar graficamente os dados, analisando a distribuição de uma variável;
Identificar tipos de variáveis e escalas de medição, construir e interpretar tabelas de frequências e utilizar diferentes tipos de gráficos na representação de dados;
Determinar e interpretar medidas de tendência central e de dispersão, bem como avaliar a forma da distribuição, incluindo assimetria e curtose;
Analisar relações entre duas variáveis, interpretando medidas de correlação e associação e aplicando métodos estatísticos de análise bivariada, incluindo a avaliação da intensidade e direção da correlação e a interpretação de medidas como o coeficiente de Spearman e o R².
CONTEÚDOS
CAPÍTULO I – Exploração de Dados Univariados
Noções Fundamentais de Estatística Descritiva
Tabelas de Distribuição Frequências
Representações Gráficas
CAPÍTULO II – Medidas-Resumo (usuais em Estatística Descritiva Univariada)
Medidas de Localização
Tendência central: média, mediana, moda
Tendência não central: quartis, percentis
Medidas de Dispersão
Medidas de Forma
CAPÍTULO III – Exploração de Dados Bivariados
Representações Gráficas
Relações entre Variáveis
Correlação de Pearson
Correlação de Spearman
CAPÍTULO IV – Tópicos de Regressão Linear
Conceito de regressão
Ajuste de modelos simples
CAPÍTULO V – Números Índices
Índice Simples
Índice Agregados ou Composto
Índice de Laspeyres
Índice de Paasches
Índice de Valor
MÉTODOS DE ENSINO
A disciplina será leccionada através de aulas teóricas e práticas. Nas aulas teóricas serão apresentados os conceitos, definições e fundamentos necessários à compreensão dos conteúdos programáticos, recorrendo à exposição da matéria e à resolução de exemplos ilustrativos.
As aulas práticas destinam-se à consolidação dos conhecimentos, através da revisão de conceitos, resolução de exercícios e discussão dos resultados, recorrendo, quando necessário, ao Microsoft Excel como ferramentas de análise.
A avaliação será realizada por meio de provas escritas e trabalhos individuais, visando avaliar a compreensão dos conteúdos e a capacidade de aplicação dos métodos estudados.
A classificação final será obtida com base nos seguintes elementos de avaliação:
Primeira avaliação: 35% (Trinta e Cinco Porcentos)
Segunda avaliação: 50% (Cinquenta Porcentos)
Trabalho (individual ou em grupo): 15% (Quinze Porcentos)
Para serem admitidos à segunda avaliação, os estudantes deverão cumprir um mínimo de 75% de assiduidade nas aulas, de acordo com as normas de funcionamento da disciplina.
LISTA DAS PAUTAS
Convidamos todos os estudantes a consultarem o seu progresso académico através do link (não se esqueçam de inserir o código da turma):
Licenciatura em Educação de Infância:
Licenciatura em Enfermagem:
Ano Lectivo 2025/2026: PAUTA
Primeira avaliação: 35% (Trinta e Cinco Porcentos) - 13 de Novembro de 2025
Segunda avaliação: 50% (Cinquenta Porcentos) - 24 de Junho de 2026
Licenciatura em Ciências de Comunicação:
Ano Lectivo 2025/2026: PAUTA
Primeira avaliação: 35% (Trinta e Cinco Porcentos) - 20 de Novembro de 2025
Segunda avaliação: 50% (Cinquenta Porcentos) - 21 de Janeiro de 2026
Licenciatura em Matemática:
Ano Lectivo 2025/2026: PAUTA
Primeira avaliação: 35% (Trinta e Cinco Porcentos) - 14 de Novembro de 2025
Segunda avaliação: 50% (Cinquenta Porcentos) - 21 de Janeiro de 2026
Licenciatura em Gestão:
Ano Lectivo 2025/2026: PAUTA
Primeira avaliação: 35% (Trinta e Cinco Porcentos) - 14 de Novembro de 2025
Segunda avaliação: 50% (Cinquenta Porcentos) - 21 de Janeiro de 2026
Licenciatura em Economia:
Ano Lectivo 2025/2026: PAUTA
Primeira avaliação: 35% (Trinta e Cinco Porcentos) - 18 de Novembro de 2025
Segunda avaliação: 50% (Cinquenta Porcentos) - 21 de Janeiro de 2026
Licenciatura em Biologia:
Ano Lectivo 2025/2026: PAUTA
Primeira avaliação: 35% (Trinta e Cinco Porcentos) - 19 de Novembro de 2025
Segunda avaliação: 50% (Cinquenta Porcentos) - 21 de Janeiro de 2026
REFERÊNCIA BIBLIOGRÁFICA
REFERÊNCIA BIBLIOGRÁFICA
Marôco, J. (2018). Análise Estatística com o SPSS Statistics, 7ª edição. ReportNumber, Lda. (Disponível na Biblioteca da FCT/USTP)
Pestana, M. H., & Gageiro, J. N. (2020). Análise de dados para ciências sociais: a complementaridade do SPSS, 6ª Edição, 2ª Impressão – Lisboa, Outubro.
Reis, E., et al. (1999). Estatística aplicada. Lisboa: Edições Sílabo.
Hoffmann, R. (2006). Estatística para economistas. 4ª Edição. São Paulo: Pioneira Thomson Learning.
Fonseca, J. S. D., & Martins, G. D. A. (1993). Curso de estatística.
Martins, M. E. G. (2005). Introdução à Probabilidade e à Estatística com complementos de Excel.
INTRODUÇÃO A ESTATÍSTICA DESCRITIVA
Introdução
A origem da estatística remonta a tempos antigos, em que vários povos já coletavam e registravam dados cen sitários para eventual tomada de decisão. Também eram realizadas estimativas das riquezas individuais e familiares, e cálculos de arrecadação de impostos eram feitos com base nas informações obtidas.
A própria Bíblia traz informações estatísticas sobre a evolução ou involução territorial de diversos povos. A palavra estatística vem de status, que significa Estado em latim. O termo era utilizado para descrever e designar um conjunto de dados relativos aos Estados, tornando a estatística um meio de administração para os governantes com a finalidade de controle fiscal e segurança nacional.
No século XIX, ela começou a ganhar im portância em outras áreas do conhecimento humano.Já a partir do século XX, passou a ser utilizada, nas grandes empresas e organizações, com o enfoque da qua.1:idade total, tornando-se um atributo de diferencial competitivo.
Nesse contexto, a estatística desenvolveu-se, ao longo dos séculos, alicerçada em conjuntos de métodos e proces sos destinados a estudar e medir os fenômenos coletivos.
Neste sentido, a estatística pode ser definida como a ciência que tem por objetivo a coleta, análise e interpretação de dados qualitativos e quantitativos. Ou ainda, como um conjunto de métodos para coleta, organização, resumo, análise e interpretação de dados para tomada de decisões.
Objetivo Fundamental da Estatística
A Estatística fornece aos gestores instrumentos para que possam responder as preocupações e tomar decisões com alguma confiança, mesmo quando a quantidade de informação disponível é pequena e as situações futuras são de elevada incerteza.
O objectivo fundamental da Estatística é extrair informações confiáveis a partir dos dados recolhidos para a tomada de decisão.
A estatística está dividida em três grandes partes: estatística descritiva ou dedutiva, estatística probabilística e estatística inferencial ou indutiva. Alguns autores, porém, consideram a estatística probabilística como parte da estatística inferencial.
Principais Conceitos da Estatística
A Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados provenientes de estudos ou experimentos realizados em qualquer área do conhecimento.
A Estatística Descritiva constitui a etapa inicial da análise de dados, sendo utilizada para descrever e resumir informações. Com o avanço dos métodos computacionais e a crescente disponibilidade de dados, essa área ganhou ainda mais relevância. Ela permite sintetizar as principais características de um conjunto de dados por meio de: i) tabelas; ii) gráficos e iii) medidas-resumo (como média, mediana, etc.). Essas ferramentas ajudam o pesquisador a compreender melhor o comportamento dos dados.
A análise descritiva é feita apenas com base na amostra estudada, sem realizar generalizações ou inferências sobre a população. Dependendo do número de variáveis analisadas, a estatística descritiva pode ser: i) Univariada: análise de uma única variável; ii) Bivariada: análise de duas variáveis ou iii) Multivariada: análise de três ou mais variáveis
A Inferência Estatística envolve um conjunto de técnicas que permite generalizar ou extrapolar para uma população maior as conclusões obtidas a partir de uma amostra. Ou seja, enquanto a estatística descritiva apenas descreve os dados, a inferência estatística vai além, permitindo tirar conclusões e apoiar a tomada de decisões com base em evidências.
A Estatística fornece aos gestores instrumentos que lhes permitem responder às suas preocupações e tomar decisões com algum grau de confiança, mesmo quando a quantidade de informação disponível é pequena e as situações futuras são marcadas por elevada incerteza.
Dentre os elementos básicos da estatística, podemos citar população (ou universo), amostra, censo, variável, dados e parâmetros. As definições de cada termo estão a seguir.
População ou Universo é o conjunto que contém todos os indivíduos, objectos ou elementos a serem estudados, que apresentam uma ou mais características em comum.
Exemplo: O conjunto de idades de todos os alunos da USTP, o conjunto de rendas de todos os habitantes de Água Grande, o conjunto de pesos de todas as crianças nascidas em Mé-Zochi, etc.
Amostra é o subconjunto extraído da população para análise, devendo ser representativo daquele grupo. A partir das informações colhidas na amostra, os resultados obtidos poderão ser utilizados para generalizar, inferir ou tirar conclusões acerca dessa população (inferência estatística). O processo de escolha de uma amostra da população é denominado amostragem.
Como exemplo, podemos citar o caso em que a população é representada por todos os eleitores brasileiros e a amostra é extraída de municípios representativos, onde os eleitores são escolhidos de acordo com a proporcio nalidade de gênero, idade, grau de instrução e classe social.
Censo ou recenseamento, é o estudo dos dados relativos a todos os elementos da população. ONU define censo como o conjunto das operações que consiste em recolher, agrupar e publicar dados demográficos, económicos e sociais relativos a determinado momento ou em certos períodos, a todos os habitantes de um país ou território.
Um censo pode custar muito caro e demandar um tempo considerável, de forma que um estudo consideran do parte dessa população pode ser uma alternativa mais simples, rápida e menos custosa.
Dados: podem ser considerados a matéria-prima de qualquer análise estatística e de qualquer modelagem exploratória ou confirmatória. A partir deles, podem ser obtidas informações de interesse correspondentes a uma ou mais variáveis.
Rol: o arranjo dos dados em ordem crescente ou decrescente.
Parâmetro: medidas estatísticas numéricas que precisam ser estimadas a partir de critérios ou métodos definidos pelo pesquisador para representar determinadas características da população geralmente desconhecidas.
Variável é uma característica ou atributo que se deseja observar, medir ou contar, a fim de se obter algum tipo de conclusão. Como exemplos, podemos citar o sector de actuação, o facturamento ou a quantidade de funcionários de empresas listadas na Bolsa de Valores.
Etapas do Método Estatístico
Os resultados válidos só é possível seguindo os passos que definem o método estatístico de resolução do problemas:
Identificação do problema: Esta é a fase inicial e uma das mais importantes. O problema deve ser definido de forma clara e objetiva, pois disso dependem todas as etapas seguintes. Nesta fase, determina-se o que se pretende estudar e quais decisões poderão ser tomadas com base nos resultados. Pode-se recorrer a informação já existente para ajudar a formular melhor o problema.
Recolha de dados: Depois de definido o problema, procede-se à recolha de dados adequados, relevantes e tão completos quanto possível. Os dados podem ser: i) Primários: obtidos diretamente pelo investigador (inquéritos, entrevistas, observação), ou ii) Secundários: já existentes (publicações, estatísticas oficiais, relatórios). As fontes podem ser: i) Internas (dentro de uma organização) ou ii) Externas (instituições públicas, empresas, etc.). A recolha pode ser: i) Contínua, ii) periódica ou iii) ocasional
Caso a informação disponível seja insuficiente ou desatualizada, pode ser necessário recolher novos dados, o que aumenta a precisão, mas também os custos e o tempo do estudo.
Crítica dos dados: Após a recolha, os dados devem ser analisados criticamente. Esta etapa consiste em: i) detetar erros; ii) eliminar valores incoerentes ou extremos e iii) verificar a qualidade e fiabilidade dos dados
É essencial para garantir que os resultados finais não sejam distorcidos ou incorretos.
Apresentação dos dados: Os dados devem ser organizados de forma clara e lógica para facilitar a sua compreensão. Utilizam-se: i) tabelas; ii) gráficos; iii) medidas estatísticas (média, mediana, etc.)
Esta etapa está ligada à estatística descritiva e tem como objetivo tornar a informação mais acessível e interpretável.
Análise e interpretação dos resultados: Nesta fase, os dados são analisados e interpretados com o objetivo de tirar conclusões. Os resultados devem ser avaliados com cuidado, tendo em atenção possíveis erros ou enviesamentos, que podem surgir devido a: i) dados inadequados; ii) métodos mal escolhidos ou iii) comparações incorretas.
As conclusões obtidas permitem compreender o fenómeno estudado e apoiar a tomada de decisões.
TIPOS DE VARIÁVEIS
O tipo de variável recolhida é crucial no cálculo de estatísticas descritivas e na representação gráfica de resultados, bem como na escolha de métodos estatísticos a serem utilizados para analisar os dados.
Métricas ou quantitativas representam características de um indivíduo, objecto ou elemento resultantes de uma contagem (conjunto finito de valores) ou de uma mensuração (conjunto infinito de valores).
As variáveis quantitativas podem ser representadas de forma gráfica (gráfico de linhas, dispersão, histograma, ramo-e-folhas e boxplot), por meio de medidas de posição ou localização (média, mediana, moda, quartis, decis e percentis), medidas de dispersão ou variabilidade (amplitude, desvio-médio, variância, desvio-padrão, erro-padrão e coeficiente de variação) ou ainda por meio das medidas de forma como assimetria e curtose.
Não métricas ou qualitativas representam características de um indivíduo, objecto ou elemento que não podem ser medidas ou quantificadas. As respostas são dadas em categorias.
A representação das características da variável não métrica ou qualitativa pode ser feita por meio de tabelas de distribuição de frequências ou de forma gráfica, sem o cálculo de medidas de posição, dispersão e de formato. A única exceção é em relação à moda, medida que fornece o valor mais fre quente de uma variável, podendo também ser aplicada para variáveis não métricas.
Escala de Mensuração
As variáveis ainda podem ser classificadas de acordo com o nível ou escala de mensuração. Mensuração é o processo de atribuir números ou rótulos a objetos, pessoas, estados ou eventos de acordo com as regras específicas para representar quantidades ou qualidades dos atributos. Escala é um conjunto de símbolos ou números, construído com base em uma regra, e aplica-se a indivíduos ou a seus comportamentos ou atitudes. A posição de um indivíduo na escala é baseada na posse dele do atributo que a escala deve medir.
Segundo Stevens (1946), as escalas de mensuração das variáveis não métricas, categóricas ou qualitativas po dem ser classificadas como nominal e ordinal, enquanto as variáveis métricas ou quantitativas se classificam em escala intervalar e de razão (ou proporcional).
A escala nominal classifica as unidades em classes ou categorias em relação à característica representada, não estabelecendo qualquer relação de grandeza ou de ordem. É denominada nominal porque as categorias se diferenciam apenas pelo nome. Ex: Profissão, religião, cor, estado civil, localização geográfica ou país de origem.
A escala ordinal é uma escala de ordenação, designando uma posição relativa das classes segundo uma direcção. Ex: Opinião e escalas de preferência de consumidores, grau de escolaridade, classe social, faixa etária, etc.
A escala intervalar, além de ordenar as unidades quanto à característica mensurada, possui uma unidade de medida constante. A origem ou o ponto zero dessa escala de medida é arbitrário e não expressa ausência de quantidade. Ex: Temperatura, Altura, Velocidade.
A escala de razão ordena as unidades em relação à característica mensurada e possui uma unidade de medida constante. Por outro lado, a origem é única e o valor zero expressa ausência de quantidade. Ex: Renda, idade, quantidade produzida de determinado produto e distância percorrida.
Escala de Precisão
As variáveis qualitativas ou categóricas também podem ser classificadas em função do número de categorias: a) dicotômicas ou binárias (dummies), quando assumem apenas duas categorias; b) policotômicas, quando assu mem mais de duas categorias. Já as variáveis métricas ou quantitativas também podem ser classificadas em função da escala de precisão: dis cretas ou contínuas.
A variável dicotómica ou binária (dummy) pode assumir apenas duas categorias, sendo que os valores 0 ou 1 são atribuídos a essas categorias. O valor 1 é atribuído quando a característica de interesse está presente na variável e o valor 0, ou caso contrário. Ex: Fumantes (1) e não fumantes ( 0 ), país desenvolvido (1) e subdesenvolvido (0), pacientes vacinados (1) e não vacinados (0).
Uma variável qualitativa pode assumir mais do que duas categorias e nesse caso é chamada policotômica. Ex: Classe social (baixa, média e alta) e o grau de escolaridade (ensino fundamental, ensino médio, ensino superior e pós-graduado).
As variáveis quantitativas discretas podem assumir um conjunto finito ou enumerável de valores que são provenientes, frequentemente, de uma contagem. Ex: A quantidade de número de filhos (0, 1, 2, … ), a quantidade de senadores eleitos ou a quantidade de carros fabricados em determinada fábrica.
As variáveis quantitativas contínuas, por sua vez, são aquelas cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração métrica. Ex: Peso, altura ou o salário de um indivíduo.
Um banco de dados pode apresentar tanto variáveis em escalas métricas como não métricas, não precisando se restringir a apenas um tipo de escala. Essa combinação pode propiciar pesquisas interessantes e, juntamente com as modelagens adequadas, podem gerar informações voltadas à tomada de decisão.
O tipo de variável recolhida é crucial no cálculo de estatísticas descritivas e na representação gráfica de resul tados, bem como na escolha de métodos estatísticos a serem utilizados para analisar os dados.
ESTATÍSTICA DESCRIVIDA - Univariada
Introdução
A estatística descritiva descreve e sintetiza as características principais observadas em um conjunto de dados por meio de tabelas, gráficos e medidas-resumo, permitindo ao pesquisador melhor compreensão do comporta mento dos dados.
A análise é baseada no conjunto de dados em estudo (amostra), sem tirar quaisquer conclusões ou inferências acerca da população.
Pesquisadores podem fazer uso da estatística descritiva para estudar uma única variável (estatística descritiva univariada), duas variáveis (estatística descritiva bivariada) ou mais de duas variáveis (estatística descritiva multiva riada).
A estatística descritiva univariada contempla os seguintes tópicos:
a frequência de ocorrência de um conjunto de observações por meio de tabelas de distribuições de frequências;
a representação da distribuição de uma variável por meio de gráficos; e
medidas representativas de uma série de dados, como medidas de posição ou localização ou tendência central, medidas de dispersão ou variabilidade e medidas de forma (assimetria e curtose).
TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS
As tabelas de distribuições de frequência podem ser utilizadas para representar a frequência de ocorrências de um conjunto de observações de variáveis qualitativas ou quantitativas.
No caso de variáveis qualitativas, a tabela representa a frequência de ocorrências de cada categoria da variável. Para as variáveis quantitativas discretas, a frequência de ocorrências é calculada para cada valor discreto da variável.
Já os dados das variáveis contínuas são agrupados inicialmente em classes, e a partir daí são calculadas as frequências de ocorrências para cada classe.
Uma tabela de distribuição de frequências compõe os seguintes cálculos:
Frequência absoluta \(( 𝐹_𝑖 )\): número de ocorrências de cada elemento \(𝑖\) na amostra.
Frequência relativa \(( 𝐹𝑟_𝑖 )\): percentagem relativa à frequência absoluta.
Frequência absoluta acumulada \(( 𝐹_{𝑎𝑐} )\): soma de todas as ocorrências até o elemento analisado.
Frequência relativa acumulada \(( 𝐹𝑟_{𝑎𝑐} )\): soma de todas as frequências relativas até o elemento analisado.
Tabela para Variável Qualitativa
Exemplo: O Hospital Santo Augusto de Anjo realiza mensalmente 3.000 transfusões de sangue em pacientes interna dos. Para que o hospital consiga manter seus estoques, são necessárias 60 doações de sangue por dia. A tabela seguinte apresenta o total de doadores para cada tipo sanguíneo em determinado dia. Construa a tabela de distribuição de frequências para o problema em questão.
\[ \begin{array}{|c|c|} \hline \text{Tipo sanguíneo} & \text{A+} & \text{A} & \text{B+} & \text{B} & \text{AB+} & \text{AB} & \text{O+} & \text{O} \\ \hline \text{Doadores} &15 & 2 & 6 & 1 & 1 & 1 & 32 & 2 \\ \hline \end{array} \]
| Tipo Sanguíneo | Doadores (\(F_i\)) | \(F{ri}\) (%) | \(F{i_{ac}}\) | \(F{ri_{ac}}\) (%) |
|---|---|---|---|---|
| A+ | 15 | 25 | 15 | 25 |
| A- | 2 | 3.33 | 17 | 28.33 |
| B+ | 6 | 10 | 23 | 38.33 |
| B- | 1 | 1.67 | 24 | 40 |
| AB+ | 1 | 1.67 | 25 | 41.67 |
| AB- | 1 | 1.67 | 26 | 43.33 |
| O+ | 32 | 53.33 | 58 | 96.67 |
| O- | 2 | 3.33 | 60 | 100 |
| Total | 60 | 100 | —– | —– |
Tabela para Variável Quantitativa Discreta
Exemplo: Um restaurante japonês está definindo o novo layout das mesas e, para isso, fez um levantamento do número de pessoas que almoçam e jantam em cada mesa ao longo de uma semana. A Tabela seguinte mostra os 40 primeiros dados coletados. Construa a tabela de distribuição de frequências para esses dados.
\[ \begin{array}{|c|c|} \hline 2 & 4 & 4 & 2 & 5 & 12 & 7 & 10 & 4 & 8 & 2 & 6 & 7 & 6 & 5 & 4 & 4 & 4 & 6 & 3 \\ \hline1 & 5 & 4 & 4 & 6 & 2 & 1 & 6 & 2 & 8 & 5 & 3 & 2 & 2 & 10 & 8 & 5 & 6 & 2 & 4 \\ \hline \end{array} \]
| Número de Pessoas | \(F_i\) | \(F{ri}\) (%) | \(F{i_{ac}}\) | \(F{ri_{ac}}\) (%) |
|---|---|---|---|---|
| 1 | 2 | 5 | 2 | 5 |
| 2 | 8 | 20 | 10 | 25 |
| 3 | 2 | 5 | 12 | 30 |
| 4 | 9 | 22.5 | 21 | 52.5 |
| 5 | 5 | 12.5 | 26 | 65 |
| 6 | 6 | 15 | 32 | 80 |
| 7 | 2 | 5 | 34 | 85 |
| 8 | 3 | 7.5 | 37 | 92.5 |
| 10 | 2 | 5 | 39 | 97.5 |
| 12 | 1 | 2.5 | 40 | 100 |
| Total | 40 | 100 | —– | —– |
Tabela para Variável Contínua
As variáveis quantitativas contínuas são aquelas cujos possíveis valores pertencem a um intervalo de números reais. Desta forma, não faz sentido calcular a frequência para cada valor possível, já que eles raramente se repetem.
Torna-se necessário agrupar os dados em classes ou faixas. O intervalo a ser definido entre as classes é arbitrário. Porém, devemos tomar cuidado se o número de classes for muito pequeno, pois as informações são perdidas; por outro lado, se o número de classes for muito grande, o resumo das informações fica prejudicado (Bussab e Morettin, 2011).
Os seguintes passos devem ser tomados para a construção de uma tabela de distribuição de frequências para dados contínuos:
Passo 1: Ordenar os dados de forma crescente.
Passo 2: Determinar o número de classes \((𝒌)\), utilizando uma das opções a seguir:
Expressão de Sturges → \(𝑘 = 1 + 3,322 · \log(𝑛)\)
Pela expressão → \(𝑘 = \sqrt{n}\) em que \(𝑛\) é o tamanho da amostra. O valor de \(𝑘\) deve ser um número inteiro.
Passo 3: Determinar o intervalo entre as classes \((𝒉)\), calculado como a amplitude da amostra \((𝐴 = \text{Valor máximo} − \text{Valor mínimo})\) dividido pelo número de classes:
\[ h = \frac{A}{k} = \frac{\text{Valor máximo - Valor mínimo}}{k} \]
O valor de 𝒉 é aproximado para o maior inteiro.
Passo 4: Construir a tabela de distribuição de frequências (calcular a frequência absoluta, a frequência relativa, a frequência acumulada e a frequência relativa acumulada) para cada classe.
Nota: O limite inferior da primeira classe corresponde ao valor mínimo da amostra. Para determinar o limite superior de cada classe, devemos somar o valor de \(h\) ao limite inferior da respectiva classe. O limite inferior da nova classe corresponde ao limite superior da classe anterior.
Exemplo: Considere os dados da Tabela seguinte referentes às notas dos 30 alunos matriculados na disciplina de Mercado Financeiro. Construa uma tabela de distribuição de frequências para o problema em questão.
\[ \begin{array}{|c|c|} \hline 4,2 & 6,0 & 6,0 & 3,9 & 4,5 & 7,4 & 5,7 & 5,0 & 8,8 & 6,5 & 7,2 & 3,8 & 4,6 & 6,4 & 5,5 \\ \hline 6,3 & 7,2 & 5,0 & 8,0 & 5,0 & 6,6 & 4,4 & 6,8 & 7,1 & 5,0 & 4,7 & 5,3 & 5,5 & 3,5 & 4,7 \\ \hline \end{array} \]
Passo 1: Vamos ordenar os dados em forma crescente, conforme mostra a Tabela seguinte.
\[ \begin{array}{|c|c|} \hline 3,5 & 3,8 & 3,9 & 4,2 & 4,4 & 4,5 & 4,6 & 4,7 & 4,7 & 5,0 & 5,0 & 5,0 & 5,0 & 5,3 & 5,5 \\\hline 5,5 & 5,7 & 6,0 & 6,0 & 6,3 & 6,4 & 6,5 & 6,6 & 6,8 & 7,1 & 7,2 & 7,2 & 7,4 & 8,0 & 8,8 \\ \hline \end{array} \]
Passo 2: Determinaremos o número de classes \((k)\) pela expressão de Sturges:
\[ k = 1 + 3,3 \cdot \log(30) = 5,87 \approx 6 \]
Passo 3: O intervalo entre as classes \((h)\) é dado por:
\[ h = \frac{A}{k} = \frac{8,8 - 3,5}{6} = 0,88 \approx 1 \]
Passo 4: Por fim, construiremos a tabela de distribuição de frequências para cada classe.
O limite inferior da primeira classe corresponde à nota mínima 3,5. A partir desse valor, devemos somar o intervalo entre as classes (1), de forma que o limite superior da primeira classe será 4,5. A segunda classe se inicia a partir desse valor e assim sucessivamente, até que a última classe seja definida, conforme apresentada a seguir.
| Classes | \(F_i\) | \(F{ri}\) (%) | \(F{i_{ac}}\) | \(F{ri_{ac}}\) (%) |
|---|---|---|---|---|
| 3.5 ⊢ 4.5 | 5 | 16.67 | 5 | 16.67 |
| 4.5 ⊢ 5.5 | 9 | 30 | 14 | 46.67 |
| 5.5 ⊢ 6.5 | 7 | 23.33 | 21 | 70 |
| 6.5 ⊢ 7.5 | 7 | 23.33 | 28 | 93.33 |
| 7.5 ⊢ 8.5 | 1 | 3.33 | 29 | 96.67 |
| 8.5 ⊢ 9.5 | 1 | 3.33 | 30 | 100 |
| Total | 30 | 100 | —– | —– |
REPRESENTAÇÃO GRÁFICA DOS RESULTADOS
O comportamento dos dados de variáveis qualitativas e quantitativas também pode ser representado graficamente.
O gráfico é uma representação de dados numéricos, na forma de figuras geométricas (diagramas, desenhos ou imagens), permitindo ao leitor interpretação rápida e objetiva desses dados.
Os principais gráficos para variáveis qualitativas: gráfico de barras, gráfico de setores ou pizza e diagrama de Pareto.
Os gráficos para variáveis quantitativas: gráficos de linhas, gráfico de pontos ou dispersão, histograma, gráfico de ramo-e-folhas e boxplot (diagrama de caixa)
Gráfico - Variável Qualitativas
Gráfico de barras: Este tipo de gráfico é bastante utilizado para variáveis qualitativas nominais e ordinais, mas também pode ser usado para variáveis· quantitativas discretas, pois permite investigar a presença de tendência de dados.
Como o próprio nome diz, o gráfico representa, por meio de barras, as frequências absolutas ou relativas de cada possível categoria (ou valor numérico) de uma variável qualitativa (ou quantitativa).
No gráfico de barras vertical, cada categoria da variável é representada no eixo das abscissas por uma barra de largura constante, e a altura da respectiva barra indica a frequência da categoria no eixo das ordenadas.
Já no gráfico de barras ho rizontal, cada categoria da variável é representada no eixo das ordenadas por uma barra de altura constante, e o comprimento da respectiva barra indica a frequência da categoria no eixo das abscissas.
Exemplo 1: Um banco elaborou uma pesquisa de satisfação com 120 clientes buscando medir o grau agilidade no atendimento (excelente, bom, regular e ruim). As frequências absolutas para cada categoria estão representadas na tabela. Construa um gráfico de barras vertical e horizontal para o problema em questão.
Gráfico de setores ou pizza é outra forma de representar dados qualitativos, em termos de frequência relativa (porcentagem). O gráfico corresponde a um círculo de raio arbitrário (todo) dividido em setores ou pizzas de diversos tamanhos (partes do todo). Este gráfico permite ao pesquisador a oportunidade de visualizar os dados como fatias de pizza ou porções de um todo.
Exemplo 1: Uma pesquisa eleitoral foi aplicada na cidade de São Paulo para verificar a preferência dos eleitores em relação aos partidos na próxima eleição à prefeitura. A porcentagem de eleitores por partido está representada na tabela. Construa um gráfico de setores ou pizza.
O diagrama de Pareto é uma das Ferramentas da Qualidade e tem como objetivo investigar os tipos de problemas e, consequentemente, identificar suas respectivas causas, de forma que uma ação possa ser tomada a fim de reduzi-las ou eliminá-las.
O diagrama de Pareto é um gráfico de barras vertical combinado com um gráfico de linhas. As barras repre sentam as frequências absolutas de ocorrências dos problemas e as linhas representam as frequências relativas acumuladas. Os problemas são ordenados em forma decrescente de prioridade. Ilustraremos a seguir um exemplo prático do diagrama de Pareto.
Exemplo 1: Uma empresa fabricante de cartões de crédito e magnéticos tem como objetivo reduzir o número de car tões defeituosos. O inspetor de qualidade classificou a amostra de 1.000 cartões coletada durante uma semana de produção, de acordo com os tipos de defeitos detectados, como mostra a Tabela. Construa o diagrama de Pareto para o problema em questão.
Gráfico - Variável Quantitativas
Gráfico de linha: No gráfico de linhas, pontos são representados pela intersecção das variáveis envolvidas no eixo das abscissas \((X)\) e das ordenadas \((Y)\), e os mesmos são ligados por segmentos de reta.
Apesar de considerar dois eixos, o gráfico de linhas será utilizado neste capítulo para representar o comporta mento de uma única variável. O gráfico mostra a evolução ou tendência dos dados de uma variável quantitativa, geralmente contínua, em intervalos regulares. Os valores numéricos da variável são representados no eixo das ordenadas e o eixo das abscissas mostra apenas a distribuição dos dados de forma uniforme. Ilustraremos a seguir um exemplo prático do gráfico de linhas.
Exemplo 1: O supermercado Barato & Fácil registrou a porcentagem de perdas nos últimos 12 meses e, a partir daí, adotará novas medidas de prevenção:
Gráfico de pontos ou dispersão: O gráfico de pontos ou dispersão é muito semelhante ao gráfico de linhas; a maior diferença entre eles está na forma como os dados são plotados no eixo das abscissas.
Analogamente ao gráfico de linhas, os pontos são representados pela intersecção das variáveis envolvidas no eixo das abscissas e das ordenadas, porém, eles não são ligados por segmentos de reta.
O gráfico de pontos ou dispersão estudado neste capítulo é utilizado para mostrar a evolução ou tendência dos dados de uma única variável quantitativa, semelhante ao gráfico de linhas, porém, em intervalos irregulares (em geral). Analogamente ao gráfico de linhas, os valores numéricos da variável são representados no eixo das or denadas e o eixo das abscissas representa apenas o comportamento dos dados ao longo do tempo.
Exemplo 1: A empresa Papermisto é fornecedora de três tipos de matérias-primas para produção de papel: celulose, pasta mecânica e aparas. Para manter seus padrões de qualidade, a fábrica faz uma inspeção rigorosa dos seus produtos durante cada fase de produção. Em intervalos irregulares, o operador deve verificar as características estéticas e di mensionais do produto selecionado com instrumentos especializados. Por exemplo, na etapa de armazenamento da celulose, o produto deve ser empilhado em fardos com um peso de aproximadamente 250 kg por unidade. A Tabela apresenta registros dos pesos desses fardos coletados ao longo das últimas 5 horas, em intervalos irre gulares variando de 20 a 45 minutos.
Histograma: O histograma é um gráfico de barras vertical que representa a distribuição de frequências de uma variável quantitativa (discreta ou contínua). Os valores da variável em estudo são representados no eixo das abscissas (aba se de cada barra, de largura constante, representa cada valor possível da variável discreta ou cada classe de valores contínuos, ordenados em forma crescente). Já a altura das barras no eixo das ordenadas representa a distribuição de frequências (absoluta, relativa ou acumulada) dos respectivos valores da variável.
O histograma é muito semelhante ao diagrama de Pareto, sendo também uma das sete ferramentas da quali dade. Enquanto o diagrama de Pareto representa a distribuição de frequências de uma variável qualitativa (tipos de problema) cujas categorias representadas no eixo das abscissas são ordenadas por prioridade (da categoria com maior frequência para a menor), o histograma representa a distribuição de frequências de uma variável quantita tiva cujos valores representados no eixo das abscissas são ordenados em forma crescente.
O primeiro passo para a criação de um histograma é, portanto, a construção da tabela de distribuição de fre quências. Para cada valor possível de uma variável discreta ou pa ra classe de dados contínuos, calcula-se a frequência absoluta, relativa, acumulada e relativa acumulada. Os dados devem ser ordenados em forma crescente.
O histograma é então construído a partir dessa tabela. A primeira coluna da tabela de distribuição de frequências que apresenta os valores numéricos ou classes de valores da variável em estudo será representada no eixo das abscissas, e a coluna de frequência absoluta (ou relativa, acumulada ou relativa acumulada) será representada no eixo das ordenadas.
Muitos softwares estatísticos geram o histograma automaticamente a partir dos valores originais da variável quantitativa em estudo, sem a necessidade do cálculo das frequências.
Gráfico de ramo-e-folhas: Tanto o gráfico de barras quanto o histograma representam a distribuição de frequências de uma variável. O gráfico de ramo-e-folhas é uma alternativa para representar distribuições de frequências de variáveis quantitativas discretas e contínuas com poucas observações, com a vantagem de manter o valor original de cada observação (possibilita a visualização de toda a informação dos dados).
A representação de cada observação no gráfico é dividida em duas partes, separadas por uma linha vertical:
o ramo que fica do lado esquerdo dessa linha representa o(s) primeiro(s) dígito(s) da observação;
a folha que fica do lado direito da linha e representa o(s) último(s) dígito(s) da observação.
A escolha do número de dígitos iniciais que irá compor o ramo ou o número de dígitos complementares que irá compor a folha é arbitrária; os ramos geralmente compõem os dígitos mais significativos e as folhas os menos significativos. Os ramos são representados em uma única coluna e seus diferentes valores ao longo de várias linhas.
Para ca da ramo representado do lado esquerdo da linha vertical, têm-se as respectivas folhas exibidas do lado direito ao longo de várias colunas. Tanto os ramos quanto as folhas devem estar ordenados em forma crescente de valores.
Nos casos em que houver muitas folhas por ramo, pode-se ter mais de uma linha com o mesmo ramo. A escolha do número de linhas é arbitrária, assim como a definição do número ou do intervalo de classes em uma distri buição de frequências. Para a construção do gráfico de ramo-e-folhas, podemos seguir a seguinte sequência de passos:
Passo 1: Ordenar os dados em forma crescente, para facilitar a visualização dos dados.
Passo 2: Definir o número de dígitos iniciais que irão compor o ramo ou o número de dígitos complementares que irão compor a folha.
Passo 3: Construir os ramos, representados em uma única coluna do lado esquerdo da linha vertical. Seus dife rentes valores são representados ao longo de várias linhas, em ordem crescente. Quando o número de folhas por ramo for muito grande, criam-se duas ou mais linhas para o mesmo ramo.
Passo 4: Colocar as folhas correspondentes aos respectivos ramos, do lado direito da linha vertical, ao longo de várias colunas (em ordem crescente).
Boxplot ou diagrama de caixa: O boxplot (diagrama de caixa) é uma representação gráfica de cinco medidas de posição ou localização de determinada variável: valor mínimo, primeiro quartil \((Q_1)\), segundo quartil \((Q_2)\) ou mediana \((M_e)\), terceiro quartil \((Q_3)\) e valor máximo. A partir de uma amostra ordenada, a mediana corresponde à posição central e os quartis às subdivisões da amostra em quatro partes iguais, cada uma contendo 25% dos dados.
Dessa forma, o primeiro quartil \((Q_1)\) descreve 25% dos primeiros dados (ordenados em forma crescente);
O segundo quartil \((Q_2=M_e)\) corresponde à mediana (50% dos dados ordenados situam-se abaixo dela e os 50% restantes acima dela) e
O terceiro quartil \((Q_3)\) corresponde a 75% das observações.
A medida de dispersão proveniente dessas medidas de localização é a chamada amplitude interquartil \((AIQ)\) ou intervalo interquartil \((IQR)\) e cor responde à diferença entre \(Q_3\) e \(Q_1\).
A utilização do gráfico permite avaliar a simetria e distribuição dos dados, e também propicia a perspectiva visual da presença ou não de dados discrepantes (outliers univariados), uma vez que esses dados encontram-se aci ma dos limites superior e inferior.
MEDIDAS DA ESTATÍSTICA DESCRITIVA - Univariada
Introdução
As informações contidas em um conjunto de dados podem ser resumidas por meio de medidas numéricas adequadas, chamadas medidas-resumo.
As medidas-resumo mais utilizadas em estatística descritiva univariada têm como objetivo principal a repre sentação do comportamento da variável em estudo por meio de seus valores centrais e não centrais, suas disper sões ou formas de distribuição dos seus valores em torno da média.
As medidas-resumo que serão estudadas neste capítulo são: medidas de posição ou localização (medidas de tendência central e medidas separatrizes ou tendência não central), medidas de dispersão ou variabilidade e medidas de forma. Essas medidas são calculadas para variáveis métricas, ou quantitativas.
A única exceção é em relação à moda, que é uma medida de tendência central que fornece o valor mais frequente de determinada variável, podendo assim também ser calculada para variáveis não métricas ou qualitativas.
Medidas de Posição ou Localização
Essas medidas fornecem valores que caracterizam o comportamento de uma série de dados, indicando a posi ção ou localização dos dados em relação ao eixo dos valores assumidos pela variável ou característica em estudo. As medidas de posição ou localização são subdivididas em medidas de tendência central (média, mediana e moda) e medidas separatrizes (quartis, decis e percentis).
Medidas de Tendência Central
As medidas de tendência central mais utilizadas referem-se à média aritmética, à mediana e à moda.
A média aritmética simples, ou simplesmente média, é a soma do total de valores de determinada variável (discreta ou contínuo) dividida pelo número total de observações. Assim, a média aritmética amostral de deter minada variável X (\(\overline X\)) é:
\[ \overline X = \frac{\sum_{i=1}^n X_i}{n} \tag{3.1} \]
em que \(n\) é o número total de observações no conjunto de dados e \(X_i\), para \(i= 1,\,\, \ldots,\,\, n\), representa cada um dos valores da variável X.
Exemplo 3.1: Calcule a média aritmética simples para os dados referentes às notas dos alunos de pós-graduação na disciplina de Métodos Quantitativos.
| 5,7 | 6,5 | 6,9 | 8,3 | 8,0 | 4,2 | 6,3 | 7,4 | 5,8 | 6,9 |
No cálculo da média aritmética simples, todas as ocorrências têm a mesma importância ou peso. Quando se deseja atribuir diferentes pesos (\(p_i\)) para cada valor \(i\) da variável X, utiliza-se a média aritmética ponderada:
\[ \overline X = \underbrace{\frac{\sum_{i=1}^n X_i \cdot p_i}{\sum_{i=1}^n p_i}}_{\text{Discreto/Contínuo Desagrupado}} = \underbrace{\frac{\sum_{i=1}^n X_i \cdot F_i}{\sum_{i=1}^n F_i}}_{\text{Discreto Agrupado}} \tag{3.2} \]
Se os pesos estiverem expressos em termos percentuais (peso relativo - \(pr_i\)), a expressão (3.2) resume-se a:
\[ \overline X = \underbrace{\sum_{i=1}^n X_i \cdot pr_i}_{\text{Discreto/Contínuo Desagrupado}} = \underbrace{\sum_{i=1}^n X_i \cdot Fr_i}_{\text{Discreto Agrupado}} \]
Nota: Quando os valores discretos de \(X_i\) se repetem, os dados são agrupados em uma tabela de frequência. Para o cálculo da média aritmética, utilizaremos o mesmo critério da média ponderada, porém, os pesos para cada \(X_i\) passam a ser representados por frequências absolutas (\(F_i\)) e, ao invés de \(n\) observações com \(n\) diferentes valores, teremos \(n\) observações com \(m\) diferentes valores (dados agrupados)
Exemplo 3.2: Na escola da Vanessa, a média anual de cada matéria é calculada a partir das notas obtidas ao longo dos quatro bimestres, com os respectivos pesos: 1, 2, 3 e 4. A Tabela 3.2 apresenta as notas de matemática da aluna em cada bimestre. Calcule a média anual de Vanessa na matéria.
| Periodo | Nota | Peso |
|---|---|---|
| 1º Bimestre | 4.5 | 1 |
| 2º Bimestre | 7.0 | 2 |
| 3º Bimestre | 5.5 | 3 |
| 4º Bimestre | 6.5 | 4 |
Exemplo 3.3: Uma carteira de ações é composta por cinco ativos.A Tabela 3.3 apresenta o retorno médio de cada ativo no último mês, assim como a respectiva porcentagem investida. Determine o retorno médio da carteira.
| Ativo | Retorno (%) | % Investimento |
|---|---|---|
| Banco do Brasil ON | 1.05 | 10 |
| Bradesco PN | 0.56 | 25 |
| Eletrobrás PNB | 0.08 | 15 |
| Gerdau PN | 0.24 | 20 |
| Vale PN | 0.75 | 30 |
Exemplo 3.4: Uma pesquisa de satisfação com 120 entrevistados avaliou o desempenho de uma seguradora de saúde, por meio das notas atribuídas que variam de 1 a 10. Os resultados da pesquisa são apresentados na Tabela 3.4. Calcule a média aritmética.
| Notas | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| N.º Entrevistados | 9 | 12 | 15 | 18 | 24 | 26 | 5 | 7 | 3 | 1 |
Para o cálculo da média aritmética simples, da média aritmética ponderada e da média aritmética para dados discretos agrupados, \(X_i\) representa cada valor \(i\) da variável X.
Já para dados contínuos agrupados em classes, cada classe não tem valor único definido, e sim um conjunto de valores. Para que a média aritmética possa ser calculada nesse caso, assume-se que \(X_i\) é o ponto médio ou central da classe \(i\) (\(i=1,\,\,2,\,\, \ldots,\,\,k\)):
\[ \overline X = \frac{\sum_{i=1}^k X_i \cdot F_i}{\sum_{i=1}^k F_i}= \frac{\sum_{i=1}^k X_i \cdot F_i}{n} = \underbrace{\sum_{i=1}^k X_i \cdot Fr_i}_{\text{Quando está em forma decimal}} \tag{3.3} \]
Exemplo 3.5: A Tabela 3.5 apresenta as classes de salários pagos aos funcionários de determinada empresa e suas respectivas frequências absolutas e relativas. Calcule o salário médio.
| Classe | [1, 3[ | [3, 5[ | [5, 7[ | [7, 9[ | [9, 11[ | [11, 13[ | Soma |
| \(F_i\) | 240 | 480 | 320 | 150 | 130 | 80 | 1400 |
| \(Fr_i\) (%) | 17.14 | 34.29 | 22.86 | 10.71 | 9.29 | 5.71 | 100.00 |
A mediana da variável X (discreta ou contínua) pode ser calculada da seguinte forma:
\[ M_d(X) = \begin{cases} \dfrac{X_{\frac{n}{2}} + X_{\left(\frac{n}{2} + 1\right)}}{2}, & \text{se } n \text{ for par} \\ \\ X_{\frac{n+1}{2}}, & \text{se } n \text{ for ímpar} \end{cases} \]
em que \(n\) é o número total de observações e \(X_1 \leq \cdots \leq X_n\), tal que \(X_1\) é a menor observação e \(X_n\) é a maior observação.
Exemplo 3.6: A Tabela 3.6 apresenta a produção mensal de esteiras de determinada empresa em determinado ano. Calcule a mediana.
| Meses | Jan | Fev | Mar | Abr | Mai | Jun | Jul | Ago | Set | Out | Nov | Dez |
| Produção | 210 | 180 | 203 | 195 | 208 | 230 | 185 | 190 | 200 | 182 | 205 | 196 |
Aqui, o cálculo da mediana é semelhante ao caso anterior, porém, os dados estão agrupados em uma tabela de distribuição de frequências.
Analogamente ao Cenário 1, se \(n\) for ímpar, a posição do elemento central será \((n+1)/2\). Podemos verificar na coluna de frequência acumulada o grupo que contém essa posição e, consequentemente, seu valor correspon dente na primeira coluna (mediana).
Se \(n\) for par, verifica(m)-se o(s) grupo(s) que contém as posições centrais \(n/2\) e \((n/2)+1\) na coluna de fre quência acumulada. Se ambas as posições corresponderem ao mesmo grupo, obtém-se diretamente seu valor cor respondente na primeira coluna (mediana). Se cada posição corresponder a um grupo distinto, a mediana será a média entre os valores correspondentes definidos na primeira coluna.
Exemplo 3.7: A Tabela 3.7 apresenta o número de dormitórios de 70 imóveis em um condomínio fechado localizado na região metropolitana de São Paulo, e suas respectivas frequências absolutas e acumuladas. Calcule a mediana.
| N.º Dormitórios | 1 | 2 | 3 | 4 | 5 | 6 | 7 | Soma |
| \(F_i\) | 6 | 13 | 20 | 15 | 7 | 6 | 3 | 70 |
| \(F_{ac}\) | 6 | 19 | 39 | 54 | 61 | 67 | 70 |
Para variáveis contínuas agrupadas em classes em que os dados estão representados em uma tabela de distribuição de frequências, aplicam-se os seguintes passos para o cálculo da mediana:
\[ \text{Pos}(M_d) = \frac{n}{2} \]
Passo 2: Identificar a classe que contém a mediana (classe mediana) a partir da coluna de frequência acumulada.
Passo 3: Calcular a mediana pela seguinte expressão:
\[ M_d = LI_{M_d} + \left( \frac{\frac{n}{2} - F_{ac(M_d-1)}}{F_{M_d}} \right) \times A_{M_d} \]
onde: \(LI_{Md}\) = limite inferior da classe mediana; \(F_{Md}\) = frequência absoluta da classe mediana; \(F_{ac(Md-1)}\) = frequência acumulada da classe anterior à classe mediana; \(A_{Md}\) = amplitude da classe mediana; \(n\) = número total de observações
Exemplo 3.8: Considere os dados do Exemplo 3.5 referentes às classes de salários pagos aos funcionários de uma empresa e suas respectivas frequências absolutas e acumuladas (Tabela 3.8). Calcule a mediana.
| Classe | \(F_i\) | \(Fr_i\) (%) | \(F_{ac_i}\) |
|---|---|---|---|
| [1, 3[ | 240 | 17.14 | 240 |
| [3, 5[ | 480 | 34.29 | 720 |
| [5, 7[ | 320 | 22.86 | 1040 |
| [7, 9[ | 150 | 10.71 | 1190 |
| [9, 11[ | 130 | 9.29 | 1320 |
| [11, 13[ | 80 | 5.71 | 1400 |
| Soma | 1400 | 100.00 |
Considere um conjunto de observações \(X_1, \;X_2, \;X_3, \; \cdots, \; X_n\) de determinada variável. A moda é o valor que aparece com maior frequência.
Exemplo 3.9: A produção de cenouras em determinada empresa é composta por cinco etapas, incluindo a fase de acaba mento. A Tabela 3.9 apresenta o tempo médio de processamento (segundos) nesta fase para 20 observações. Calcule a moda.
| 45.0 | 44.5 | 44.0 | 45.0 | 46.5 | 46.0 | 45.8 | 44.8 | 45.0 | 46.2 |
| 44.5 | 45.0 | 45.4 | 44.9 | 45.7 | 46.2 | 44.7 | 45.6 | 46.3 | 44.9 |
Para dados qualitativos ou quantitativos discretos agrupados em uma tabela de distribuição de frequências, o cálculo da moda pode ser obtido diretamente da tabela; é o elemento com maior frequência absoluta.
Exemplo 3.10: Uma emissora de TV entrevistou 500 telespectadores buscando analisar suas preferências por categorias de interesse. O resultado da pesquisa está listado na Tabela 3.10. Calcule a moda.
| Categorias | Filmes | Novelas | Jornalismo | Humor | Esporte | Shows | Variedades |
| \(F_i\) | 71 | 46 | 90 | 98 | 120 | 35 | 40 |
Obs.: A moda é, portanto, a única medida de posição que também pode ser utilizada para variáveis qualitativas.
Para dados contínuos agrupados em classes, existem diversos procedimentos para o cálculo da moda, como o método de Czuber e o método de King.
O método de Czuber consiste nas seguintes etapas:
Passo 1: Identificar a classe que contém a moda (classe modal), que é aquela com maior frequência absoluta.
Passo 2: Calcular a moda (\(M_o\)):
\[ M_o = LI_{M_o} + \left( \frac{F_{M_o} - F_{(M_o-1)}}{2 \cdot F_{M_o} - (F_{(M_o-1)} + F_{(M_o+1)})} \right) \times A_{M_o} \]
onde: \(LI_{M_o}\) = limite inferior da classe modal; \(F_{M_o}\) = frequência absoluta da classe modal; \(F_{(M_o-1)}\) = frequência absoluta da classe anterior à classe modal; \(F_{(M_o+1)}\) = frequência absoluta da classe posterior à classe modal; \(A_{M_o}\) = amplitude da classe modal.
Exemplo 3.11: Um conjunto de dados contínuos com 200 observações está agrupado em classes com as respectivas frequências absolutas, conforme mostra a Tabela 2.30. Determine a moda utilizando o método de Czuber.
Tabela 2.30 Dados contínuos agrupados em classes e respectivas frequências.
| Classe | [01, 10[ | [10, 20[ | [20, 30[ | [30, 40[ | [40, 50[ | Soma |
| \(F_i\) | 21 | 36 | 58 | 24 | 19 | 158 |
Já o método de King consiste nas seguintes etapas:
Passo 1: Identificar a classe modal (com maior frequência absoluta).
Passo 2: Calcular a moda (\(M_o\)) pela seguinte expressão:
\[ M_o = LI_{M_o} + \left( \frac{F_{(M_o+1)}}{F_{(M_o-1)} + F_{(M_o+1)}} \right) \times A_{M_o} \]
onde: \(LI_{M_o}\) = limite inferior da classe modal; \(F_{(M_o-1)}\) = frequência absoluta da classe anterior à classe modal; \(F_{(M_o+1)}\) = frequência absoluta da classe posterior à classe modal; \(A_{M_o}\) = amplitude da classe modal.
Exemplo 3.12: Considere novamente os dados do exemplo anterior. Aplique o método de King para determinar a moda.
Medidas de Tendência Não Central ou Separatrizes
Segundo Bussab e Morettin (2011), a utilização apenas de medidas de tendência central pode não ser adequada para representar um conjunto de dados, uma vez que esses também são afetados por valores extremos e, apenas com o uso destas medidas, não é possível que o pesquisador tenha uma ideia clara de como a dispersão e a simetria dos dados se comportam.
Como alternativa, podem ser utilizadas medidas separatrizes, como quartis, decis e percentis. O 2° quartil (Q2), 5° decil (D5) ou 50° percentil (P50) correspondem à mediana, sendo, portanto, medidas de tendência central.
Assim, o \(1\text{º}\) Quartil (\(Q_1\) ou \(25\text{º}\) percentil) indica que 25% dos dados são inferiores a \(Q_1\) ou que 75% dos dados são superiores a \(Q_1\) .
O \(2\text{º}\) Quartil (\(Q_2\) ou \(5\text{º}\) decil ou \(50\text{º}\) percentil) corresponde à mediana, indicando que 50% dos dados são inferiores ou superiores a \(Q_2\).
Já o \(3\text{º}\) Quartil (\(Q_3\) ou \(75\text{º}\) percentil) indica que 75% dos dados são inferiores a \(Q_3\) ou que 25% dos dados são superiores a \(Q_3\).
Desta forma, o \(1\text{º}\) Decil (\(D_1\) ou \(10\text{º}\) percentil) indica que 10% dos dados são inferiores a \(D_1\) ou que 90% dos dados são superiores a \(D_1\).
O \(2\text{º}\) Decil (\(D_2\) ou \(20\text{º}\) percentil) indica que 20% dos dados são inferiores a \(D_2\) ou que 80% dos dados são superiores a \(D_2\).
E assim sucessivamente, até o \(9\text{º}\) decil (\(D_9\) ou \(90\text{º}\) percentil), que indica que 90% dos dados são inferiores a \(D_9\) ou que 10% dos dados são superiores a \(D_9\).
Desta maneira, o \(1\text{º}\) percentil (\(P_1\)) indica que 1 % dos dados é inferior a \(P_1\) ou que 99% dos dados são superiores a \(P_1\).
O \(2\text{º}\) percentil (\(P_2\)) indica que 2% dos dados são inferiores a \(P_2\) ou que 98% dos dados são superiores a \(P_2\).
E assim sucessivamente, até o \(99\text{º}\) percentil (\(P_{99}\)), que indica que 99% dos dados são inferiores a \(P_{99}\) ou que 1% dos dados é superior a \(P_{99}\) .
Se a posição do quartil, decil ou percentil desejado for um número inteiro ou estiver exatamente entre duas posições, o cálculo do respectivo quartil, decil ou percentil é facilitado. Porém, isso nem sempre acontece (imagine uma amostra com 33 elementos cujo objetivo é calcular o 67º percentil), de modo que existem vários mé todos propostos para esse cálculo que levam a resultados próximos, mas não idênticos.
Apresentaremos um método simples e genérico que pode ser aplicado para o cálculo de qualquer quartil, decil ou percentil de ordem \(i\), considerando dados discretos e contínuos não agrupados:
Passo 1: Ordenar as observações em forma crescente.
Passo 2: Determinar a posição do quartil, decil ou percentil desejado de ordem i:
\[ \begin{aligned} \text{Quartil} \;\rightarrow\; \text{Pos}(Q_i) &= \left\lfloor \frac{n}{4} \times i \right\rfloor + \frac{1}{2}, \quad i = 1,2,3 \\[16pt] \text{Decil} \;\rightarrow\; \text{Pos}(D_i) &= \left\lfloor \frac{n}{10} \times i \right\rfloor + \frac{1}{2}, \quad i = 1,2,\ldots,9 \\[16pt] \text{Percentil} \;\rightarrow\; \text{Pos}(P_i) &= \left\lfloor \frac{n}{100} \times i \right\rfloor + \frac{1}{2}, \quad i = 1,2,\ldots,99 \end{aligned} \tag {3.4} \]
Suponha que \(\text{Pos}(Q_1)=3{,}75\), isto é, o valor de \(Q_1\) está entre a 3ª e 4ª posição (75% mais próximo da 4ª posição e 25%, da 3ª posição). Desta forma, o cálculo de \(Q_1\) será a soma do valor correspondente à 3ª posição multiplicado por 0,25 com o valor correspondente à 4ª posição multiplicado por 0,75.
Exemplo 3.13: Considere os dados do Exemplo 3.9 referentes ao tempo médio de processamento da cenoura na fase de aca bamento, conforme especificado na Tabela 3.13. Determine \(Q_1\) (1º quartil), \(Q_3\) (3º quartil), \(D_2\) (2º decil) e \(P_{64}\) (64º percentil).
| 45.0 | 44.5 | 44.0 | 45.0 | 46.5 | 46.0 | 45.8 | 44.8 | 45.0 | 46.2 |
| 44.5 | 45.0 | 45.4 | 44.9 | 45.7 | 46.2 | 44.7 | 45.6 | 46.3 | 44.9 |
Interpretação
\(Q_1 = 44{,}85\) indica que, em 25% das observações (as 5 primeiras observações listadas no passo 1), o tempo de processamento da cenoura na fase de acabamento é inferior a 44,85 segundos, ou que em 75% das observações (as 15 observações restantes), o tempo de processamento é superior a 44,85.
\(Q_3 = 45{,}9\) indica que, em 75% das observações (15 delas), o tempo de processamento é inferior a 45,9 segundos, ou que em 5 observações, o tempo de processamento é superior a 45,9.
\(D_2 = 44{,}75\) indica que, em 20% das observações (4 delas), o tempo de processamento é inferior a 44,75 segundos, ou que em 80% das observações (16 delas), o tempo de processamento é superior a 44,75.
\(P_{64} = 45{,}63\) indica que, em 64% das observações (12,8 delas), o tempo de processamento é inferior a 45,63 segundos, ou que em 36% das observações (7,2 delas) o tempo de processamento é superior a 45,63.
Aqui, o cálculo dos quartis, decis e percentis é semelhante ao caso anterior, porém, os dados estão agrupados em uma tabela de distribuição de frequências.
Na tabela de distribuição de frequências, os dados devem estar ordenados de forma crescente com as respec tivas frequências absolutas e acumuladas. Primeiro, devemos determinar a posição do quartil, decil ou percentil desejado de ordem \(i\) por meio de uma das expressões (3.4).
Na sequência, a partir da coluna de frequência acumulada, devemos verificar o(s) grupo(s) que contém essa posição. Se a posição for um número discreto, seu valor correspondente é obtido diretamente na primeira coluna. Se a posição for um número fracionário, por exemplo \(2{,}5\), porém, se tanto a 2ª como a 3ª posição pertencerem ao mesmo grupo, seu respectivo valor também será obtido diretamente.
Por outro lado, se a posição for um número fracionário, por exem plo \(4{,}25\), e as posições 4 e 5 pertencerem a grupos diferentes, devemos calcular a soma do valor correspondente à 4ª posição multiplicado por \(0{,}75\) com o valor correspondente à 5ª posição multiplicado por \(0{,}25\) (semelhante ao caso 1).
Exemplo 3.14: Considere os dados do Exemplo 3.7 referentes ao número de dormitórios de 70 imóveis em um condomínio fechado localizado na região metropolitana de São Paulo, e suas respectivas frequências absolutas e acumuladas (Tabela 3.14). Calcule \(Q_1\), \(D_4\) e \(P_{96}\) •
| N.º Dormitórios | 1 | 2 | 3 | 4 | 5 | 6 | 7 | Soma |
| \(F_i\) | 6 | 13 | 20 | 15 | 7 | 6 | 3 | 70 |
| \(F_{ri}\) | 8.57 | 18.57 | 28.57 | 21.43 | 10.00 | 8.57 | 4.29 | 100.00 |
| \(F_{ac}\) | 6 | 19 | 39 | 54 | 61 | 67 | 70 |
Interpretação
\(Q_1 = 2\) indica que 25% dos imóveis têm menos do que 2 dormitórios ou que 75% dos imóveis têm mais do que 2 dormitórios.
\(D_4 = 3\) indica que 40% dos imóveis têm menos do que 3 dormitórios ou que 60% dos imóveis têm mais do que 3 dormitórios.
\(P_{96} = 6{,}7\) indica que 96% dos imóveis têm menos do que 6,7 dormitórios ou que 4% dos imóveis têm mais do que 6,7 dormitórios.
Medidas de Dispersão ou Variabilidade
Para estudar o comportamento de um conjunto de dados, utilizam-se medidas de tendência central, medidas de dispersão, além da natureza ou forma de distribuição dos dados.As medidas de tendência central determinam um valor representativo do conjunto de dados. Para caracterizar a dispersão ou variabilidade dos dados, são ne cessárias medidas de dispersão.
As medidas de dispersão mais comuns referem-se à amplitude, ao
desvio-médio, à variância, ao desvio-padrão, ao
erro-padrão e ao coeficiente de variação (CV).
\[ A = X_\text{máx} - X_\text{mín} \]
Em vez de considerar a média dos desvios absolutos, é mais comum o cálculo da média dos desvios quadrados, medida conhecida como variância:
\[ S^2 \;=\; \frac{\sum_{i=1}^{n} (X_i - \overline{X})^2}{n - 1} \;=\; \frac{\sum_{i=1}^{n} X_i^2 \;-\; \frac{\left(\sum_{i=1}^{n} X_i\right)^2}{n}}{n - 1} \]
Exemplo 3.15: A Tabela 3.15 apresenta as distâncias percorridas (em km) por um veículo para a entrega de 10 encomendas ao longo do dia. Calcule a variância.
| 12.4 | 22.6 | 18.9 | 9.7 | 14.5 | 22.5 | 26.3 | 17.7 | 31.2 | 20.4 |
Para dados agrupados, representados em uma tabela de distribuição de frequências por m grupos, a variância pode ser calculada da seguinte forma:
\[ S^2 \;=\; \frac{\sum_{i=1}^{n} (X_i - \overline{X})^2 \cdot F_i}{n - 1} \;=\; \frac{\sum_{i=1}^{n} X_i^2 \cdot F_i \;-\; \frac{\left(\sum_{i=1}^{n} X_i \cdot F_i\right)^2}{n}}{n - 1} \]
Obs.: Já para dados contínuos agrupados em classes, cada classe não tem valor único definido, e sim um conjunto de valores. Para que a variância possa ser calculada nesse caso, assume-se que \(X_i\) é o ponto médio ou central da classe \(i\) (\(i=1,\,\,2,\,\, \ldots,\,\,k\)).
Exemplo 3.16: A Tabela 3.16 apresenta o número de gols efetuados pelo time do Ubatuba nos últimos 30 jogos, com as respectivas frequências absolutas. Calcule a variância.
| N.º de Gols | 0 | 1 | 2 | 3 | 4 | 5 | 6 | Soma |
| \(F_i\) | 5 | 8 | 6 | 4 | 4 | 2 | 1 | 30 |
| \(F_{ri}\) | 16.67 | 26.67 | 20.00 | 13.33 | 13.33 | 6.67 | 3.33 | 100.00 |
| \(F_{ac}\) | 5 | 13 | 19 | 23 | 27 | 29 | 30 |
Exemplo 3.17: Uma pesquisa com 100 recém-nascidos coletou informações sobre o peso dos bebês, a fim de detectar a sua variação em função de fatores genéticos. A Tabela 3.17 apresenta os dados agrupados em classes e suas respectivas frequências absolutas. Calcule a variância.
| Classe | [2.0, 2.5[ | [2.5, 3.0[ | [3.0, 3.5[ | [3.5, 4.0[ | [4.0, 4.5[ | Soma |
| \(F_i\) | 10 | 24 | 31 | 22 | 13 | 100 |
| \(F_{ac}\) | 10 | 34 | 65 | 87 | 100 |
\[ S = \sqrt{S^2} \]
Exemplo 3.18: Considere os dados dos Exemplo 3.15, Exemplo 3.16 e Exemplo 3.17. Calcule o desvio-padrão para cado um deles.
\[ CV=\frac{S}{\overline X} \cdot 100 \]
Um \(CV\) pode ser considerado baixo, indicando um conjunto de dados razoavelmente homogêneo, quando for menor do que 30%. Se esse valor for acima de 30%, o conjunto de dados pode ser considerado heterogêneo. Entretanto, esse padrão varia de acordo com a aplicação.
Exemplo 3.19: Considere os dados dos Exemplo 3.18. Calcule o coeficiente de variação.
Medidas de Forma
As medidas de assimetria (skewness) e curtose
(kurtosis) caracterizam a forma da distribuição dos elementos da
população amostrados em torno da média (Maroco, 2014).
As medidas de assimetria referem-se à forma da curva de uma distribuição de frequências. Para uma curva ou distribuição de frequências simétrica, a média, a moda e a mediana são iguais (\(\overline X = M_e = M_o\)). Para uma curva assimétrica, a média distancia-se da moda, e a mediana situa-se em uma posição intermediária. A Figura seguinte apresenta uma distribuição simétrica.
Por outro lado, se a distribuição de frequências se concentrar do lado esquerdo, de modo que a cauda à di reita seja mais alongada que a cauda à esquerda, teremos uma distribuição assimétrica positiva ou à direita, como mostra a Figura seguinte. Neste caso, a média apresen~ um valor maior do que a mediana, e esta, por sua vez, apresenta um valor maior do que a moda (\(\overline X > M_e > M_o\))..
Ou ainda, se a distribuição de frequências se concentrar do lado direito, de modo que a cauda à esquerda seja mais alongada que a cauda à direita, teremos uma distribuição assimétrica negativa ou à esquerda, como mostra a Figura seguinte. Neste caso, a média apresenta um valor menor do que a mediana, e esta, por sua vez, apre senta um valor menor do que a moda (\(\overline X < M_e < M_o\)).
O \(1\text{º}\) coeficiente de assimetria de Pearson (\(A_{s_1}\)) é uma medida de assimetria proporcionada pela diferença entre a média e a moda, ponderada por uma medida de dispersão (desvio-padrão):
\[ A_{s_1}=\frac{\overline X - M_o}{S} \]
que possui a seguinte interpretação:
Se \(A_{s_1}=0\), a distribuição é simétrica;
Se \(A_{s_1}>0\), a distribuição é assimétrica positiva (à direita);
Se \(A_{s_1}<0\), a distribuição é assimétrica negativa (à esquerda).
Exemplo 3.20: A partir de um conjunto de dados, foram extraídas as seguintes medidas: \(\overline X= 34{,}7\), \(M_o = 31{,}5\), \(M_d = 33{,}2\) e \(S = 12{,}4\). Classifique o tipo de assimetria e calcule o \(1\text{º}\) coeficiente de assimetria de Pearson.
Para evitar o uso da moda no cálculo da assimetria, devemos adotar uma relação empírica entre a média, a mediana e a moda: \(\overline X - M_o = 3 \cdot (\overline X - M_d)\), que corresponde ao \(2\text{º}\) coeficiente de assimetria de Pearson (\(A_{s_2}\)):
\[ A_{s_2}=\frac{3 \cdot (\overline X - M_d)}{S} \]
Da mesma forma, temos que:
Se \(A_{s_2}=0\), a distribuição é simétrica;
Se \(A_{s_2}>0\), a distribuição é assimétrica positiva (à direita);
Se \(A_{s_2}<0\), a distribuição é assimétrica negativa (à esquerda).
O \(1\text{º}\) e o \(2\text{º}\) coeficientes de assimetria de Pearson permitem a comparação entre duas ou mais distribuições e a avaliação de qual delas é mais assimétrica. O seu valor em módulo indica a intensidade da assimetria, isto é, quanto maior o coeficiente de assimetria de Pearson, mais assimétrica é a curva. Logo:
Se \(0 < \left| A_{s_2} \right| < 0{,}15\), a assimetria é fraca;
Se \(0{,}15 \le \left| A_{s_2} \right| \le 1\), a assimetria é moderada;
Se \(\left| A_{s_2} \right| > 1\), a assimetria é forte.
Exemplo 3.21: Considere os dados dos Exemplo 3.20. Calcule o \(2\text{º}\) coeficientes de assimetria de Pearson.
Outra medida de assimetria é o coeficiente de assimetria de Bowley (\(A_{s_B}\)), também conhecido como coeficiente quartílico de assimetria, calculado a partir de medidas separatrizes como o primeiro e terceiro quartil, além da mediana:
\[ A_{s_B}=\frac{Q_3 + Q_1 - 2\cdot M_d}{Q_3 - Q_1} \]
Da mesma forma, temos que:
Se \(A_{s_B}=0\), a distribuição é simétrica;
Se \(A_{s_B}>0\), a distribuição é assimétrica positiva (à direita);
Se \(A_{s_B}<0\), a distribuição é assimétrica negativa (à esquerda).
EXPLORAÇÃO DE DADOS BI-VARIADOS
Introdução
TÓPICOS DE REGRESSÃO LINEAR
Introdução
NÚMEROS ÍNDICES
Introdução