PROGRAMA

OBJECTIVOS

No final desta Unidade Curricular, espera-se que o estudante seja capaz de:

Compreender os conceitos fundamentais da estatística descritiva, organizar e sintetizar dados de forma adequada, bem como calcular e interpretar medidas estatísticas e representar graficamente os dados, analisando a distribuição de uma variável;
Identificar tipos de variáveis e escalas de medição, construir e interpretar tabelas de frequências e utilizar diferentes tipos de gráficos na representação de dados;
Determinar e interpretar medidas de tendência central e de dispersão, bem como avaliar a forma da distribuição, incluindo assimetria e curtose;
Analisar relações entre duas variáveis, interpretando medidas de correlação e associação e aplicando métodos estatísticos de análise bivariada, incluindo a avaliação da intensidade e direção da correlação e a interpretação de medidas como o coeficiente de Spearman e o R².

CONTEÚDOS

CAPÍTULO I – Exploração de Dados Univariados
1. Noções Fundamentais de Estatística Descritiva
  - Conceitos básicos; Tipos de variáveis; População e amostra
2. Tabelas de Distribuição Frequências
  - Dados Simples e Agrupados em Classe
3. Representações Gráficas
CAPÍTULO II – Medidas-Resumo (usuais em Estatística Descritiva Univariada)
1. Medidas de Localização
  - Tendência central: média, mediana, moda
  - Tendência não central: quartis, percentis
2. Medidas de Dispersão
  - Amplitude; Variância; Desvio padrão e Coeficiente de variação
3. Medidas de Forma
  - Assimetria e Curtose
CAPÍTULO III – Exploração de Dados Bivariados
1. Representações Gráficas
  - Diagramas de dispersão
2. Relações entre Variáveis
  - Correlação de Pearson
  - Correlação de Spearman
CAPÍTULO IV – Tópicos de Regressão Linear
1. Conceito de regressão
2. Ajuste de modelos simples
CAPÍTULO V – Números Índices
1. Índice Simples
2. Índice Agregados ou Composto
  - Índice de Laspeyres
  - Índice de Paasches
  - Índice de Valor

MÉTODOS DE ENSINO

A disciplina será leccionada através de aulas teóricas e práticas. Nas aulas teóricas serão apresentados os conceitos, definições e fundamentos necessários à compreensão dos conteúdos programáticos, recorrendo à exposição da matéria e à resolução de exemplos ilustrativos.

As aulas práticas destinam-se à consolidação dos conhecimentos, através da revisão de conceitos, resolução de exercícios e discussão dos resultados, recorrendo, quando necessário, ao Microsoft Excel como ferramentas de análise.

A avaliação será realizada por meio de provas escritas e trabalhos individuais, visando avaliar a compreensão dos conteúdos e a capacidade de aplicação dos métodos estudados.

A classificação final será obtida com base nos seguintes elementos de avaliação:

Primeira avaliação: 35% (Trinta e Cinco Porcentos)
Segunda avaliação: 50% (Cinquenta Porcentos)
Trabalho (individual ou em grupo): 15% (Quinze Porcentos)

Para serem admitidos à segunda avaliação, os estudantes deverão cumprir um mínimo de 75% de assiduidade nas aulas, de acordo com as normas de funcionamento da disciplina.

LISTA DAS PAUTAS

Pauta dos Estudantes dos Cursoos de Licenciatura em: (Ano Lectivo 2025/2026)

Economia	Gestão	Biologia	Educação de Infancia - A	Educação de Infancia - B
PAUTA	PAUTA	PAUTA	PA UTA	PAUTA

REFERÊNCIA BIBLIOGRÁFICA

Marôco, J. (2018). Análise Estatística com o SPSS Statistics, 7ª edição. ReportNumber, Lda. (Disponível na Biblioteca da FCT/USTP)

Pestana, M. H., & Gageiro, J. N. (2020). Análise de dados para ciências sociais: a complementaridade do SPSS, 6ª Edição, 2ª Impressão – Lisboa, Outubro.

Reis, E., et al. (1999). Estatística aplicada. Lisboa: Edições Sílabo.

Hoffmann, R. (2006). Estatística para economistas. 4ª Edição. São Paulo: Pioneira Thomson Learning.

Fonseca, J. S. D., & Martins, G. D. A. (1993). Curso de estatística.

Martins, M. E. G. (2005). Introdução à Probabilidade e à Estatística com complementos de Excel.

CAPÍTULO I

Introdução a Estística Descritiva

Column

Introdução

A origem da estatística remonta a tempos antigos, em que vários povos já coletavam e registravam dados cen sitários para eventual tomada de decisão. Também eram realizadas estimativas das riquezas individuais e familiares, e cálculos de arrecadação de impostos eram feitos com base nas informações obtidas.

A própria Bíblia traz informações estatísticas sobre a evolução ou involução territorial de diversos povos. A palavra estatística vem de status, que significa Estado em latim. O termo era utilizado para descrever e designar um conjunto de dados relativos aos Estados, tornando a estatística um meio de administração para os governantes com a finalidade de controle fiscal e segurança nacional.

No século XIX, ela começou a ganhar im portância em outras áreas do conhecimento humano.Já a partir do século XX, passou a ser utilizada, nas grandes empresas e organizações, com o enfoque da qua.1:idade total, tornando-se um atributo de diferencial competitivo.

Nesse contexto, a estatística desenvolveu-se, ao longo dos séculos, alicerçada em conjuntos de métodos e proces sos destinados a estudar e medir os fenômenos coletivos.

Neste sentido, a estatística pode ser definida como a ciência que tem por objetivo a coleta, análise e interpretação de dados qualitativos e quantitativos. Ou ainda, como um conjunto de métodos para coleta, organização, resumo, análise e interpretação de dados para tomada de decisões.

Objetivo Fundamental da Estatística

A Estatística fornece aos gestores instrumentos para que possam responder as preocupações e tomar decisões com alguma confiança, mesmo quando a quantidade de informação disponível é pequena e as situações futuras são de elevada incerteza.

O objectivo fundamental da Estatística é extrair informações confiáveis a partir dos dados recolhidos para a tomada de decisão.

A estatística está dividida em três grandes partes: estatística descritiva ou dedutiva, estatística probabilística e estatística inferencial ou indutiva. Alguns autores, porém, consideram a estatística probabilística como parte da estatística inferencial.

Principais Conceitos da Estatística

A Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados provenientes de estudos ou experimentos realizados em qualquer área do conhecimento.

A Estatística Descritiva constitui a etapa inicial da análise de dados, sendo utilizada para descrever e resumir informações. Com o avanço dos métodos computacionais e a crescente disponibilidade de dados, essa área ganhou ainda mais relevância. Ela permite sintetizar as principais características de um conjunto de dados por meio de: i) tabelas; ii) gráficos e iii) medidas-resumo (como média, mediana, etc.). Essas ferramentas ajudam o pesquisador a compreender melhor o comportamento dos dados.

A análise descritiva é feita apenas com base na amostra estudada, sem realizar generalizações ou inferências sobre a população. Dependendo do número de variáveis analisadas, a estatística descritiva pode ser: i) Univariada: análise de uma única variável; ii) Bivariada: análise de duas variáveis ou iii) Multivariada: análise de três ou mais variáveis

A Inferência Estatística envolve um conjunto de técnicas que permite generalizar ou extrapolar para uma população maior as conclusões obtidas a partir de uma amostra. Ou seja, enquanto a estatística descritiva apenas descreve os dados, a inferência estatística vai além, permitindo tirar conclusões e apoiar a tomada de decisões com base em evidências.

A Estatística fornece aos gestores instrumentos que lhes permitem responder às suas preocupações e tomar decisões com algum grau de confiança, mesmo quando a quantidade de informação disponível é pequena e as situações futuras são marcadas por elevada incerteza.

Dentre os elementos básicos da estatística, podemos citar população (ou universo), amostra, censo, variável, dados e parâmetros. As definições de cada termo estão a seguir.

População ou Universo é o conjunto que contém todos os indivíduos, objectos ou elementos a serem estudados, que apresentam uma ou mais características em comum.

Exemplo: O conjunto de idades de todos os alunos da USTP, o conjunto de rendas de todos os habitantes de Água Grande, o conjunto de pesos de todas as crianças nascidas em Mé-Zochi, etc.

Amostra é o subconjunto extraído da população para análise, devendo ser representativo daquele grupo. A partir das informações colhidas na amostra, os resultados obtidos poderão ser utilizados para generalizar, inferir ou tirar conclusões acerca dessa população (inferência estatística). O processo de escolha de uma amostra da população é denominado amostragem.

Como exemplo, podemos citar o caso em que a população é representada por todos os eleitores brasileiros e a amostra é extraída de municípios representativos, onde os eleitores são escolhidos de acordo com a proporcio nalidade de gênero, idade, grau de instrução e classe social.

Censo ou recenseamento, é o estudo dos dados relativos a todos os elementos da população. ONU define censo como o conjunto das operações que consiste em recolher, agrupar e publicar dados demográficos, económicos e sociais relativos a determinado momento ou em certos períodos, a todos os habitantes de um país ou território.

Um censo pode custar muito caro e demandar um tempo considerável, de forma que um estudo consideran do parte dessa população pode ser uma alternativa mais simples, rápida e menos custosa.

Dados: podem ser considerados a matéria-prima de qualquer análise estatística e de qualquer modelagem exploratória ou confirmatória. A partir deles, podem ser obtidas informações de interesse correspondentes a uma ou mais variáveis.

Rol: o arranjo dos dados em ordem crescente ou decrescente.

Parâmetro: medidas estatísticas numéricas que precisam ser estimadas a partir de critérios ou métodos definidos pelo pesquisador para representar determinadas características da população geralmente desconhecidas.

Variável é uma característica ou atributo que se deseja observar, medir ou contar, a fim de se obter algum tipo de conclusão. Como exemplos, podemos citar o sector de actuação, o facturamento ou a quantidade de funcionários de empresas listadas na Bolsa de Valores.

Etapas do Método Estatístico

Os resultados válidos só é possível seguindo os passos que definem o método estatístico de resolução do problemas:

Identificação do problema: Esta é a fase inicial e uma das mais importantes. O problema deve ser definido de forma clara e objetiva, pois disso dependem todas as etapas seguintes. Nesta fase, determina-se o que se pretende estudar e quais decisões poderão ser tomadas com base nos resultados. Pode-se recorrer a informação já existente para ajudar a formular melhor o problema.
Recolha de dados: Depois de definido o problema, procede-se à recolha de dados adequados, relevantes e tão completos quanto possível. Os dados podem ser: i) Primários: obtidos diretamente pelo investigador (inquéritos, entrevistas, observação), ou ii) Secundários: já existentes (publicações, estatísticas oficiais, relatórios). As fontes podem ser: i) Internas (dentro de uma organização) ou ii) Externas (instituições públicas, empresas, etc.). A recolha pode ser: i) Contínua, ii) periódica ou iii) ocasional

Caso a informação disponível seja insuficiente ou desatualizada, pode ser necessário recolher novos dados, o que aumenta a precisão, mas também os custos e o tempo do estudo.
Crítica dos dados: Após a recolha, os dados devem ser analisados criticamente. Esta etapa consiste em: i) detetar erros; ii) eliminar valores incoerentes ou extremos e iii) verificar a qualidade e fiabilidade dos dados

É essencial para garantir que os resultados finais não sejam distorcidos ou incorretos.
Apresentação dos dados: Os dados devem ser organizados de forma clara e lógica para facilitar a sua compreensão. Utilizam-se: i) tabelas; ii) gráficos; iii) medidas estatísticas (média, mediana, etc.)

Esta etapa está ligada à estatística descritiva e tem como objetivo tornar a informação mais acessível e interpretável.
Análise e interpretação dos resultados: Nesta fase, os dados são analisados e interpretados com o objetivo de tirar conclusões. Os resultados devem ser avaliados com cuidado, tendo em atenção possíveis erros ou enviesamentos, que podem surgir devido a: i) dados inadequados; ii) métodos mal escolhidos ou iii) comparações incorretas.

As conclusões obtidas permitem compreender o fenómeno estudado e apoiar a tomada de decisões.

TIPOS DE VARIÁVEIS

O tipo de variável recolhida é crucial no cálculo de estatísticas descritivas e na representação gráfica de resultados, bem como na escolha de métodos estatísticos a serem utilizados para analisar os dados.

Métricas ou quantitativas representam características de um indivíduo, objecto ou elemento resultantes de uma contagem (conjunto finito de valores) ou de uma mensuração (conjunto infinito de valores).

As variáveis quantitativas podem ser representadas de forma gráfica (gráfico de linhas, dispersão, histograma, ramo-e-folhas e boxplot), por meio de medidas de posição ou localização (média, mediana, moda, quartis, decis e percentis), medidas de dispersão ou variabilidade (amplitude, desvio-médio, variância, desvio-padrão, erro-padrão e coeficiente de variação) ou ainda por meio das medidas de forma como assimetria e curtose.
Não métricas ou qualitativas representam características de um indivíduo, objecto ou elemento que não podem ser medidas ou quantificadas. As respostas são dadas em categorias.

A representação das características da variável não métrica ou qualitativa pode ser feita por meio de tabelas de distribuição de frequências ou de forma gráfica, sem o cálculo de medidas de posição, dispersão e de formato. A única exceção é em relação à moda, medida que fornece o valor mais fre quente de uma variável, podendo também ser aplicada para variáveis não métricas.

Escala de Mensuração

As variáveis ainda podem ser classificadas de acordo com o nível ou escala de mensuração. Mensuração é o processo de atribuir números ou rótulos a objetos, pessoas, estados ou eventos de acordo com as regras específicas para representar quantidades ou qualidades dos atributos. Escala é um conjunto de símbolos ou números, construído com base em uma regra, e aplica-se a indivíduos ou a seus comportamentos ou atitudes. A posição de um indivíduo na escala é baseada na posse dele do atributo que a escala deve medir.

Segundo Stevens (1946), as escalas de mensuração das variáveis não métricas, categóricas ou qualitativas po dem ser classificadas como nominal e ordinal, enquanto as variáveis métricas ou quantitativas se classificam em escala intervalar e de razão (ou proporcional).

A escala nominal classifica as unidades em classes ou categorias em relação à característica representada, não estabelecendo qualquer relação de grandeza ou de ordem. É denominada nominal porque as categorias se diferenciam apenas pelo nome. Ex: Profissão, religião, cor, estado civil, localização geográfica ou país de origem.
A escala ordinal é uma escala de ordenação, designando uma posição relativa das classes segundo uma direcção. Ex: Opinião e escalas de preferência de consumidores, grau de escolaridade, classe social, faixa etária, etc.
A escala intervalar, além de ordenar as unidades quanto à característica mensurada, possui uma unidade de medida constante. A origem ou o ponto zero dessa escala de medida é arbitrário e não expressa ausência de quantidade. Ex: Temperatura, Altura, Velocidade.
A escala de razão ordena as unidades em relação à característica mensurada e possui uma unidade de medida constante. Por outro lado, a origem é única e o valor zero expressa ausência de quantidade. Ex: Renda, idade, quantidade produzida de determinado produto e distância percorrida.

Escala de Precisão

As variáveis qualitativas ou categóricas também podem ser classificadas em função do número de categorias: a) dicotômicas ou binárias (dummies), quando assumem apenas duas categorias; b) policotômicas, quando assu mem mais de duas categorias. Já as variáveis métricas ou quantitativas também podem ser classificadas em função da escala de precisão: dis cretas ou contínuas.

A variável dicotómica ou binária (dummy) pode assumir apenas duas categorias, sendo que os valores 0 ou 1 são atribuídos a essas categorias. O valor 1 é atribuído quando a característica de interesse está presente na variável e o valor 0, ou caso contrário. Ex: Fumantes (1) e não fumantes ( 0 ), país desenvolvido (1) e subdesenvolvido (0), pacientes vacinados (1) e não vacinados (0).
Uma variável qualitativa pode assumir mais do que duas categorias e nesse caso é chamada policotômica. Ex: Classe social (baixa, média e alta) e o grau de escolaridade (ensino fundamental, ensino médio, ensino superior e pós-graduado).
As variáveis quantitativas discretas podem assumir um conjunto finito ou enumerável de valores que são provenientes, frequentemente, de uma contagem. Ex: A quantidade de número de filhos (0, 1, 2, … ), a quantidade de senadores eleitos ou a quantidade de carros fabricados em determinada fábrica.
As variáveis quantitativas contínuas, por sua vez, são aquelas cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração métrica. Ex: Peso, altura ou o salário de um indivíduo.

Um banco de dados pode apresentar tanto variáveis em escalas métricas como não métricas, não precisando se restringir a apenas um tipo de escala. Essa combinação pode propiciar pesquisas interessantes e, juntamente com as modelagens adequadas, podem gerar informações voltadas à tomada de decisão.

O tipo de variável recolhida é crucial no cálculo de estatísticas descritivas e na representação gráfica de resul tados, bem como na escolha de métodos estatísticos a serem utilizados para analisar os dados.

CAPÍTULO II

Estatística Descritiva Univariada

Column

Introdução

A estatística descritiva descreve e sintetiza as características principais observadas em um conjunto de dados por meio de tabelas, gráficos e medidas-resumo, permitindo ao pesquisador melhor compreensão do comporta mento dos dados.

A análise é baseada no conjunto de dados em estudo (amostra), sem tirar quaisquer conclusões ou inferências acerca da população.

Pesquisadores podem fazer uso da estatística descritiva para estudar uma única variável (estatística descritiva univariada), duas variáveis (estatística descritiva bivariada) ou mais de duas variáveis (estatística descritiva multiva riada).

A estatística descritiva univariada contempla os seguintes tópicos:

a frequência de ocorrência de um conjunto de observações por meio de tabelas de distribuições de frequências;
a representação da distribuição de uma variável por meio de gráficos; e
medidas representativas de uma série de dados, como medidas de posição ou localização ou tendência central, medidas de dispersão ou variabilidade e medidas de forma (assimetria e curtose).

TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS

As tabelas de distribuições de frequência podem ser utilizadas para representar a frequência de ocorrências de um conjunto de observações de variáveis qualitativas ou quantitativas.

No caso de variáveis qualitativas, a tabela representa a frequência de ocorrências de cada categoria da variável. Para as variáveis quantitativas discretas, a frequência de ocorrências é calculada para cada valor discreto da variável.

Já os dados das variáveis contínuas são agrupados inicialmente em classes, e a partir daí são calculadas as frequências de ocorrências para cada classe.

Uma tabela de distribuição de frequências compõe os seguintes cálculos:

Frequência absoluta \(( 𝐹_𝑖 )\): número de ocorrências de cada elemento \(𝑖\) na amostra.
Frequência relativa \(( 𝐹𝑟_𝑖 )\): percentagem relativa à frequência absoluta.
Frequência absoluta acumulada \(( 𝐹_{𝑎𝑐} )\): soma de todas as ocorrências até o elemento analisado.
Frequência relativa acumulada \(( 𝐹𝑟_{𝑎𝑐} )\): soma de todas as frequências relativas até o elemento analisado.

Tabela para Variável Qualitativa

Exemplo: O Hospital Santo Augusto de Anjo realiza mensalmente 3.000 transfusões de sangue em pacientes interna dos. Para que o hospital consiga manter seus estoques, são necessárias 60 doações de sangue por dia. A tabela seguinte apresenta o total de doadores para cada tipo sanguíneo em determinado dia. Construa a tabela de distribuição de frequências para o problema em questão.

\[ \begin{array}{|c|c|} \hline \text{Tipo sanguíneo} & \text{A+} & \text{A} & \text{B+} & \text{B} & \text{AB+} & \text{AB} & \text{O+} & \text{O} \\ \hline \text{Doadores} &15 & 2 & 6 & 1 & 1 & 1 & 32 & 2 \\ \hline \end{array} \]

Tabela de Distribuição de Frequências
Tipo Sanguíneo	Doadores (\(F_i\))	\(F{ri}\) (%)	\(F{i_{ac}}\)	\(F{ri_{ac}}\) (%)
A+	15	25	15	25
A	2	3.33	17	28.33
B+	6	10	23	38.33
B	1	1.67	24	40
AB+	1	1.67	25	41.67
AB	1	1.67	26	43.33
O+	32	53.33	58	96.67
O	2	3.33	60	100
Total	60	100	—–	—–

Tabela para Variável Quantitativa Discreta

Exemplo: Um restaurante japonês está definindo o novo layout das mesas e, para isso, fez um levantamento do número de pessoas que almoçam e jantam em cada mesa ao longo de uma semana. A Tabela seguinte mostra os 40 primeiros dados coletados. Construa a tabela de distribuição de frequências para esses dados.

\[ \begin{array}{|c|c|} \hline 2 & 4 & 4 & 2 & 5 & 12 & 7 & 10 & 4 & 8 & 2 & 6 & 7 & 6 & 5 & 4 & 4 & 4 & 6 & 3 \\ \hline1 & 5 & 4 & 4 & 6 & 2 & 1 & 6 & 2 & 8 & 5 & 3 & 2 & 2 & 10 & 8 & 5 & 6 & 2 & 4 \\ \hline \end{array} \]

Tabela de Distribuição de Frequências
Número de Pessoas	\(F_i\)	\(F{ri}\) (%)	\(F{i_{ac}}\)	\(F{ri_{ac}}\) (%)
1	2	5	2	5
2	8	20	10	25
3	2	5	12	30
4	9	22.5	21	52.5
5	5	12.5	26	65
6	6	15	32	80
7	2	5	34	85
8	3	7.5	37	92.5
10	2	5	39	97.5
12	1	2.5	40	100
Total	40	100	—–	—–

Tabela para Variável Contínua

As variáveis quantitativas contínuas são aquelas cujos possíveis valores pertencem a um intervalo de números reais. Desta forma, não faz sentido calcular a frequência para cada valor possível, já que eles raramente se repetem.

Torna-se necessário agrupar os dados em classes ou faixas. O intervalo a ser definido entre as classes é arbitrário. Porém, devemos tomar cuidado se o número de classes for muito pequeno, pois as informações são perdidas; por outro lado, se o número de classes for muito grande, o resumo das informações fica prejudicado (Bussab e Morettin, 2011).

Os seguintes passos devem ser tomados para a construção de uma tabela de distribuição de frequências para dados contínuos:

Passo 1: Ordenar os dados de forma crescente.
Passo 2: Determinar o número de classes \((𝒌)\), utilizando uma das opções a seguir:
- Expressão de Sturges → \(𝑘 = 1 + 3,322 · \log(𝑛)\)
- Pela expressão → \(𝑘 = \sqrt{n}\) em que \(𝑛\) é o tamanho da amostra. O valor de \(𝑘\) deve ser um número inteiro.
Passo 3: Determinar o intervalo entre as classes \((𝒉)\), calculado como a amplitude da amostra \((𝐴 = \text{Valor máximo} − \text{Valor mínimo})\) dividido pelo número de classes:

\[ h = \frac{A}{k} = \frac{\text{Valor máximo - Valor mínimo}}{k} \]

O valor de 𝒉 é aproximado para o maior inteiro.
Passo 4: Construir a tabela de distribuição de frequências (calcular a frequência absoluta, a frequência relativa, a frequência acumulada e a frequência relativa acumulada) para cada classe.

Nota: O limite inferior da primeira classe corresponde ao valor mínimo da amostra. Para determinar o limite superior de cada classe, devemos somar o valor de \(h\) ao limite inferior da respectiva classe. O limite inferior da nova classe corresponde ao limite superior da classe anterior.

Exemplo: Considere os dados da Tabela seguinte referentes às notas dos 30 alunos matriculados na disciplina de Mercado Financeiro. Construa uma tabela de distribuição de frequências para o problema em questão.

\[ \begin{array}{|c|c|} \hline 4,2 & 6,0 & 6,0 & 3,9 & 4,5 & 7,4 & 5,7 & 5,0 & 8,8 & 6,5 & 7,2 & 3,8 & 4,6 & 6,4 & 5,5 \\ \hline 6,3 & 7,2 & 5,0 & 8,0 & 5,0 & 6,6 & 4,4 & 6,8 & 7,1 & 5,0 & 4,7 & 5,3 & 5,5 & 3,5 & 4,7 \\ \hline \end{array} \]

Passo 1: Vamos ordenar os dados em forma crescente, conforme mostra a Tabela seguinte.

\[ \begin{array}{|c|c|} \hline 3,5 & 3,8 & 3,9 & 4,2 & 4,4 & 4,5 & 4,6 & 4,7 & 4,7 & 5,0 & 5,0 & 5,0 & 5,0 & 5,3 & 5,5 \\\hline 5,5 & 5,7 & 6,0 & 6,0 & 6,3 & 6,4 & 6,5 & 6,6 & 6,8 & 7,1 & 7,2 & 7,2 & 7,4 & 8,0 & 8,8 \\ \hline \end{array} \]

Passo 2: Determinaremos o número de classes \((k)\) pela expressão de Sturges:

\[ k = 1 + 3,3 \cdot \log(30) = 5,87 \approx 6 \]

Passo 3: O intervalo entre as classes \((h)\) é dado por:

\[ h = \frac{A}{k} = \frac{8,8 - 3,5}{6} = 0,88 \approx 1 \]

Passo 4: Por fim, construiremos a tabela de distribuição de frequências para cada classe.

O limite inferior da primeira classe corresponde à nota mínima 3,5. A partir desse valor, devemos somar o intervalo entre as classes (1), de forma que o limite superior da primeira classe será 4,5. A segunda classe se inicia a partir desse valor e assim sucessivamente, até que a última classe seja definida, conforme apresentada a seguir.

Tabela de Distribuição de Frequências
Classes	\(F_i\)	\(F{ri}\) (%)	\(F{i_{ac}}\)	\(F{ri_{ac}}\) (%)
3.5 ⊢ 4.5	5	16.67	5	16.67
4.5 ⊢ 5.5	9	30	14	46.67
5.5 ⊢ 6.5	7	23.33	21	70
6.5 ⊢ 7.5	7	23.33	28	93.33
7.5 ⊢ 8.5	1	3.33	29	96.67
8.5 ⊢ 9.5	1	3.33	30	100
Total	30	100	—–	—–

REPRESENTAÇÃO GRÁFICA DOS RESULTADOS

O comportamento dos dados de variáveis qualitativas e quantitativas também pode ser representado graficamente.

O gráfico é uma representação de dados numéricos, na forma de figuras geométricas (diagramas, desenhos ou imagens), permitindo ao leitor interpretação rápida e objetiva desses dados.

Os principais gráficos para variáveis qualitativas: gráfico de barras, gráfico de setores ou pizza e diagrama de Pareto.
Os gráficos para variáveis quantitativas: gráficos de linhas, gráfico de pontos ou dispersão, histograma, gráfico de ramo-e-folhas e boxplot (diagrama de caixa)

Gráfico - Variável Qualitativas

Gráfico de barras: Este tipo de gráfico é bastante utilizado para variáveis qualitativas nominais e ordinais, mas também pode ser usado para variáveis· quantitativas discretas, pois permite investigar a presença de tendência de dados.

Como o próprio nome diz, o gráfico representa, por meio de barras, as frequências absolutas ou relativas de cada possível categoria (ou valor numérico) de uma variável qualitativa (ou quantitativa).

No gráfico de barras vertical, cada categoria da variável é representada no eixo das abscissas por uma barra de largura constante, e a altura da respectiva barra indica a frequência da categoria no eixo das ordenadas.
Já no gráfico de barras ho rizontal, cada categoria da variável é representada no eixo das ordenadas por uma barra de altura constante, e o comprimento da respectiva barra indica a frequência da categoria no eixo das abscissas.

Exemplo 1: Um banco elaborou uma pesquisa de satisfação com 120 clientes buscando medir o grau agilidade no atendimento (excelente, bom, regular e ruim). As frequências absolutas para cada categoria estão representadas na tabela. Construa um gráfico de barras vertical e horizontal para o problema em questão.

Gráfico de setores ou pizza é outra forma de representar dados qualitativos, em termos de frequência relativa (porcentagem). O gráfico corresponde a um círculo de raio arbitrário (todo) dividido em setores ou pizzas de diversos tamanhos (partes do todo). Este gráfico permite ao pesquisador a oportunidade de visualizar os dados como fatias de pizza ou porções de um todo.

Exemplo 1: Uma pesquisa eleitoral foi aplicada na cidade de São Paulo para verificar a preferência dos eleitores em relação aos partidos na próxima eleição à prefeitura. A porcentagem de eleitores por partido está representada na tabela. Construa um gráfico de setores ou pizza.

O diagrama de Pareto é uma das Ferramentas da Qualidade e tem como objetivo investigar os tipos de problemas e, consequentemente, identificar suas respectivas causas, de forma que uma ação possa ser tomada a fim de reduzi-las ou eliminá-las.

O diagrama de Pareto é um gráfico de barras vertical combinado com um gráfico de linhas. As barras repre sentam as frequências absolutas de ocorrências dos problemas e as linhas representam as frequências relativas acumuladas. Os problemas são ordenados em forma decrescente de prioridade. Ilustraremos a seguir um exemplo prático do diagrama de Pareto.

Exemplo 1: Uma empresa fabricante de cartões de crédito e magnéticos tem como objetivo reduzir o número de car tões defeituosos. O inspetor de qualidade classificou a amostra de 1.000 cartões coletada durante uma semana de produção, de acordo com os tipos de defeitos detectados, como mostra a Tabela. Construa o diagrama de Pareto para o problema em questão.

Gráfico - Variável Quantitativas

 Gráfico de linhas No gráfico de linhas, pontos são representados pela intersecção das variáveis envolvidas no eixo das abscissas e das ordenadas, e os mesmos são ligados por segmentos de recta. Apesar de considerar dois eixos, o gráfico de linhas será utilizado neste capítulo para representar o comportamento de uma única variável. O gráfico mostra a evolução ou tendência dos dados de uma variável quantitativa, geralmente contínua, em intervalos regulares.

 Gráfico de pontos ou dispersão O gráfico de pontos ou dispersão é muito semelhante ao gráfico de linhas; a maior diferença entre eles está na forma como os dados são plotados no eixo das abscissas. Analogamente ao gráfico de linhas, os pontos são representados pela intersecção das variáveis envolvidas no eixo das abscissas e das ordenadas, porém, eles não são ligados por segmentos de recta. Neste capítulo, o gráfico de pontos ou dispersão é utilizado para mostrar a evolução ou tendência dos dados de uma única variável quantitativa, semelhante ao gráfico de linhas, porém, em intervalos irregulares (em geral).

 Histograma O histograma é um gráfico de barras vertical que representa a distribuição de frequências de uma variável quantitativa (discreta ou contínua). Os valores da variável em estudo são representados no eixo das abscissas (a base de cada barra, de largura constante, representa cada valor possível da variável discreta ou cada classe de valores contínuos, ordenados em forma crescente). Já a altura das barras no eixo das ordenadas representa a distribuição de frequências (absoluta, relativa ou acumulada) dos respectivos valores da variável.

O primeiro passo para a criação de um histograma é, portanto, a construção da tabela de distribuição de frequências. Os dados devem ser ordenados em forma crescente. O histograma é então construído a partir dessa tabela. A primeira coluna da tabela de distribuição de frequências que apresenta os valores numéricos ou classes de valores da variável em estudo será representada no eixo das abscissas, e a coluna de frequência absoluta (ou relativa, acumulada ou relativa acumulada) será representada no eixo das ordenadas.

 Gráfico de ramo-e-folhas O gráfico de ramo-e-folhas é uma alternativa para representar distribuições de frequências de variáveis quantitativas discretas e contínuas com poucas observações, com a vantagem de manter o valor original de cada observação (possibilita a visualização de toda a informação dos dados). A representação de cada observação no gráfico é dividida em duas partes, separadas por uma linha vertical: o ramo que fica do lado esquerdo dessa linha representa o(s) primeiro(s) dígito(s) da observação; a folha que fica do lado direito da linha e representa o(s) último(s) dígito(s) da observação.

A escolha do número de dígitos iniciais que irá compor o ramo ou o número de dígitos complementares que irá compor a folha é arbitrária; os ramos geralmente compõem os dígitos mais significativos e as folhas os menos significativos. Os ramos são representados em uma única coluna e seus diferentes valores ao longo de várias linhas. Para cada ramo representado do lado esquerdo da linha vertical, têm- se as respectivas folhas exibidas do lado direito ao longo de várias colunas. Tanto os ramos quanto as folhas devem estar ordenados em forma crescente de valores.

Nos casos em que houver muitas folhas por ramo, pode-se ter mais de uma linha com o mesmo ramo. A escolha do número de linhas é arbitrária, assim como a definição do número ou do intervalo de classes em uma distribuição de frequências. Para a construção do gráfico de ramo-e-folhas, podemos seguir a seguinte sequência de passos: Passo 1: Ordenar os dados em forma crescente, para facilitar a visualização dos dados.

Passo 2: Definir o número de dígitos iniciais que irão compor o ramo ou o número de dígitos complementares que irão compor a folha. Passo 3: Construir os ramos, representados em uma única coluna do lado esquerdo da linha vertical. Seus diferentes valores são representados ao longo de várias linhas, em ordem crescente. Quando o número de folhas por ramo for muito grande, criam-se duas ou mais linhas para o mesmo ramo. Passo 4: Colocar as folhas correspondentes aos respectivos ramos, do lado direito da linha vertical, ao longo de várias colunas (em ordem crescente).

 Boxplot ou diagrama de caixa O boxplot (diagrama de caixa) é uma representação gráfica de cinco medidas de posição ou localização de determinada variável: valor mínimo, primeiro quartil (𝑄1), segundo quartil (𝑄2) ou mediana

A partir de uma amostra ordenada, a mediana corresponde à posição central e os quartis às subdivisões da amostra em quatro partes iguais, cada uma contendo 25% dos dados. Dessa forma, o primeiro quartil (𝑄1) descreve 25% dos primeiros dados (ordenados em forma crescente); o segundo quartil corresponde

à mediana (50% dos dados ordenados situam-se abaixo dela e os 50% restantes acima dela) e o terceiro quartil (𝑄3) corresponde a 75% das observações. A medida de dispersão proveniente dessas medidas de localização é a chamada amplitude interquartil (AIQ) ou intervalo interquartil (IQR) e corresponde à diferença entre 𝑄3 e 𝑄1. A utilização do gráfico permite avaliar a simetria e distribuição dos dados, e também propicia a perspectiva visual da presença ou não de dados discrepantes (outliers univariados), uma vez que esses dados encontram-se acima dos limites superior e inferior.

CAPÍTULO III

Medidas da Estatística Descritiva Univariada

Column

Introdução

As informações contidas em um conjunto de dados podem ser resumidas por meio de medidas numéricas adequadas, chamadas medidas-resumo. As medidas-resumo mais utilizadas em estatística descritiva univariada têm como objetivo principal a representação do comportamento da variável em estudo por meio de seus valores centrais e não centrais, suas dispersões ou formas de distribuição dos seus valores em torno da média. Essas medidas são calculadas para variáveis métricas, ou quantitativas.

A única excepção é em relação à moda, que é uma medida de tendência central que fornece o valor mais frequente de determinada variável, podendo assim também ser calculada para variáveis não métricas ou qualitativas.  Medidas de posição ou localização Essas medidas fornecem valores que caracterizam o comportamento de uma série de dados, indicando a posição ou localização dos dados em relação ao eixo dos valores assumidos pela variável ou característica em estudo.

As medidas de posição ou localização são subdivididas em medidas de tendência central (média, mediana e moda) e medidas separatrizes (quartis, decis e percentis).  Medidas de tendência central As medidas de tendência central mais utilizadas referem-se à média aritmética, à mediana e à moda. ♠ Média aritmética A média aritmética pode ser a medida representativa de uma população com 𝑁 elementos, representada pela letra grega 𝜇, ou de uma amostra com 𝑛 elementos, representada por 𝑥ҧ.

 Média aritmética - Simples para dados discretos e contínuos não agrupados A média aritmética simples, ou simplesmente média, é a soma do total de valores de determinada variável (discreta ou contínua) dividida pelo número total de observações.

𝑛 1

𝑥ҧ

= 𝑛 ∙ ෍ 𝑥𝑖 𝑖=1

em que 𝑛 é o número total de observações no conjunto de dados e 𝑥𝑖, para 𝑖 = 1, 2, … , 𝑛, representa cada um dos valores da variável 𝑋.

 Média aritmética - Ponderada para dados discretos e contínuos não agrupados No cálculo da média aritmética simples, todas as ocorrências têm a mesma importância ou peso. Quando se deseja atribuir diferentes pesos (𝑝𝑖) para cada valor 𝑖 da variável 𝑋, utiliza-se a média aritmética ponderada:

 Média aritmética - Ponderada para dados discretos e contínuos não agrupados

𝑥ҧ =

𝑛 𝑖=1

σ𝑛 𝑝𝑖

Se os pesos estiverem expressos em termos percentuais (peso relativo - 𝑝𝑟), a expressão resume-se a:

𝑥ҧ

𝑛 = ෍ 𝑥𝑖 ∙ 𝑝𝑟𝑖 𝑖=1

 Média aritmética – para dados Discretos agrupados Quando os valores discretos de 𝑥𝑖 se repetem, os dados são agrupados em uma tabela de frequência. Para o cálculo da média aritmética, utilizaremos o mesmo critério da média ponderada, porém, os pesos para cada 𝑥𝑖 passam a ser representados por frequências absolutas ( 𝐹𝑖 ) e, ao invés de 𝑛 observações com 𝑛 diferentes valores, teremos 𝑛 observações com 𝑚 diferentes valores (dados agrupados):

σ𝑚 𝑥

𝑚 ∙ 𝐹 1

𝑥ҧ

= 𝑖=1 𝑖 𝑖
σ𝑚 𝐹𝑖

= 𝑛 ∙ ෍ 𝑥𝑖 𝑖=1

∙ 𝐹𝑖

Se a frequência dos dados estiver expressa em termos de percentagem relativa à frequência absoluta (frequência relativa - 𝐹𝑟𝑖), a expressão resume-se a:

𝑥ҧ

𝑚 = ෍ 𝑥𝑖 ∙ 𝐹𝑟𝑖 𝑖=1

 Média aritmética – para dados Contínuos agrupados 1. 𝑥𝑖 → Representa o ponto médio ou central da classe 𝑖 (𝑖 = 1, 2, … , 𝑛) 2. 𝑚 → Representa o número de classes.

♠ Mediana A mediana (𝑀𝑑) é uma medida de localização do centro da distribuição de um conjunto de dados ordenados de forma crescente. Seu valor separa a série em duas partes iguais, de modo que 50% dos elementos são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana. 𝑋𝑛 + 𝑋𝑛+1

𝑀𝑑 =

2 2 , se 𝑛 for par 2

𝑋𝑛+1 2

, se 𝑛 for impar

em que 𝑛 é o número total de observações e 𝑥𝑛, 𝑥2, …, 𝑥𝑛, tal que 𝑥𝑖 é a menor observação ou o valor do primeiro elemento e 𝑥𝑛 é a maior observação ou o valor do último elemento.

 Mediana – para dados Discretos agrupados

Analogamente, se 𝑛 for ímpar, a posição do elemento central será 𝑛+1. 2 Podemos verificar na coluna de frequência acumulada o grupo que contém essa posição e, consequentemente, seu valor correspondente na primeira coluna (mediana). Se 𝑛 for par, verifica(m)-se o(s) grupo(s) que contém as posições

centrais 𝑛 2

e 𝑛 2

1 na coluna de frequência acumulada.

Se ambas as posições corresponderem ao mesmo grupo, obtém-se diretamente seu valor correspondente na primeira coluna (mediana).

Se cada posição corresponder a um grupo distinto, a mediana será a média entre os valores correspondentes definidos na primeira coluna.

 Mediana – para dados Contínuos agrupados Passo 1: Calcular a posição da mediana, independente se n é par ou impar, por meio da seguinte expressão: 𝑛 Pos = 2 Passo 2: Identificar a classe que contém a mediana (classe mediana) a partir da coluna de frequência acumulada. Passo 3: Calcular a mediana pela seguinte expressão:

𝑀𝑑

= 𝐿

𝐼𝑛𝑓𝑀𝑑

𝑛 − 𝐹𝑎𝑐 + 2 𝐹𝑀𝑑

∙ 𝐴

𝑀𝑑

em que: 𝐿𝐼𝑛𝑓𝑀𝑑 → limite inferior da classe mediana; 𝐹𝑀𝑑 → frequência absoluta da classe mediana;

𝐹𝑎𝑐 mediana;

→ frequência acumulada da classe anterior à classe

𝐴𝑀𝑑 → amplitude da classe mediana; 𝑛 → número total de observações.

Medidas de tendência central

♠ Moda A moda (𝑀𝑜) de uma série de dados corresponde à observação que ocorre com maior frequência. A moda é a única medida de posição que também pode ser utilizada para variáveis qualitativas.

 Moda – para dados Discretos agrupados Para dados qualitativos ou quantitativos discretos agrupados em uma tabela de distribuição de frequências, o cálculo da moda pode ser obtido directamente da tabela; é o elemento com maior frequência absoluta.

 Moda – para dados Contínuos agrupados Para dados contínuos agrupados em classes, existem diversos procedimentos para o cálculo da moda, como o método de Czuber e o método de King.

O método de Czuber consiste nas seguintes etapas: Passo 1: Identificar a classe que contém a moda (classe modal), que é aquela com maior frequência absoluta. Passo 2: Calcular a moda (𝑀𝑜):

em que:

𝐿𝐼𝑛𝑓𝑀𝑜 → limite inferior da classe Modal; 𝐹𝑀𝑜 → frequência absoluta da classe Modal; 𝐹𝑀𝑜−1 → frequência absoluta da classe anterior à classe Moda; 𝐹𝑀𝑜+1 → frequência absoluta da classe posterior à classe Modal; 𝐴𝑀𝑑 → amplitude da classe Modal;

O método de King consiste nas seguintes etapas: Passo 1: Identificar a classe modal (com maior frequência absoluta). Passo 2: Calcular a moda (𝑀𝑜) pela seguinte expressão:

Segundo Bussab e Morettin (2011), a utilização apenas de medidas de tendência central pode não ser adequada para representar um conjunto de dados, uma vez que esses também são afetados por valores extremos e, apenas com o uso destas medidas, não é possível que o pesquisador tenha uma ideia clara de como a dispersão e a simetria dos dados se comportam. Como alternativa, podem ser utilizadas Medidas de Tendência Não Central ou Separatrizes, como quartis, decis e percentis. O 2° quartil (Q2), 5° decil (D5) ou 50° percentil (P50) correspondem à mediana, sendo, portanto, medidas de tendência central.

Medidas de Tendência Não Central

 Quartis, Decis e Percentis – para dados Contínuos agrupados Para dados contínuos agrupados em classes, devemos aplicar os seguintes passos para o cálculo dos quartis, decis e percentis: Passo 1: Calcular a posição do quartil, decil ou percentil desejado de ordem 𝑖 por meio das seguintes expressões: 𝑛

Passo 2: Identificar a classe que contém o quartil, decil ou percentil desejado de ordem 𝑖 (classe quartil, classe decil ou classe percentil) a partir da coluna de frequência acumulada. Passo 3: Calcular o quartil, decil ou percentil desejado de ordem i por meio das seguintes expressões: Pos − 𝐹𝑎𝑐𝘘 −1

Para estudar o comportamento de um conjunto de dados, utilizam-se medidas de tendência central, medidas de dispersão, além da natureza ou forma de distribuição dos dados. As medidas de tendência central determinam um valor representativo do conjunto de dados. Para caracterizar a dispersão ou variabilidade dos dados, são necessárias medidas de dispersão. As medidas de dispersão mais comuns referem-se à amplitude, ao desvio-médio, à variância, ao desvio-padrão, ao erro-padrão e ao coeficiente de variação (CV).

 Amplitude A medida mais simples de variabilidade é a amplitude total, ou simplesmente amplitude (A), que representa a diferença entre o maior e menor valor do conjunto de observações: A = XMáx − XMín

 Desvio-médio O desvio é a diferença entre cada valor observado e a média da variável. O desvio-médio, ou desvio-médio absoluto, representa a média aritmética dos desvios absolutos (em módulo).

 Variância – para dados Discretos e Contínuos não agrupados A variância é uma medida de dispersão ou variabilidade que avalia o quanto os dados estão dispersos em relação à média aritmética. Assim, quanto maior a variância, maior a dispersão dos dados.

 Variância – para dados Discretos agrupados Para dados agrupados, representados em uma tabela de distribuição de frequências por m grupos, a variância pode ser calculada da seguinte forma:

 Desvio-padrão Como a variância considera a média dos desvios quadrados, seu valor tende a ser muito grande e de difícil interpretação. Para resolver esse problema, extrai-se a raiz quadrada da variância, medida conhecida como desviopadrão. É calculado por: :

 Erro-padrão O erro-padrão é o desvio-padrão da média. É obtido dividindo-se o desvio-padrão pela raiz quadrada do tamanho da população ou amostra, conforme segue:

Quanto maior o número de medições, melhor será a determinação do valor médio (maior precisão), em razão da compensação dos erros aleatórios.

 Coeficiente de variação O coeficiente de variação (CV) é uma medida de dispersão relativa que fornece a variação dos dados em relação à média. Quanto menor for o seu valor, mais homogéneos serão os dados, ou seja, menor será a dispersão em torno da média.

Um CV pode ser considerado baixo, indicando um conjunto de dados razoavelmente homogéneo, < 30% . Caso contrário, o conjunto de dados pode ser considerado heterogéneo.

As medidas de assimetria (skewness) e curtose (kurtosis) caracterizam a forma da distribuição dos elementos da população amostrados em torno da média (Maroco, 2014).  Medidas de assimetria As medidas de assimetria referem-se à forma da curva de uma distribuição de frequências. Para uma curva ou distribuição de frequências simétrica, a média, a moda e a mediana são iguais. Para uma curva assimétrica, a média distancia-se da moda, e a mediana situa-se em uma posição intermediária.

Por outro lado, se a distribuição de frequências se concentrar do lado esquerdo, de modo que a cauda à direita seja mais alongada que a cauda à esquerda, teremos uma distribuição assimétrica positiva ou à direita. Neste caso, a média apresenta um valor maior do que a mediana, e esta, por sua vez, apresenta um valor maior do que a moda. Ou ainda, se a distribuição de frequências se concentrar do lado direito, de modo que a cauda à esquerda seja mais alongada que a cauda à direita, teremos uma distribuição assimétrica negativa ou à esquerda.

Neste caso, a média apresenta um valor menor do que a mediana, e esta, por sua vez, apresenta um valor menor do que a moda.

 Medidas de curtose Além das medidas de assimetria, as medidas de curtose também podem ser utilizadas para caracterizar a forma da distribuição da variável em estudo. A curtose é definida como o grau de achatamento de uma distribuição de frequências (altura do pico da curva) em relação a uma distribuição teórica que geralmente corresponde à distribuição normal. Quando a forma da distribuição não for muito achatada e nem muito alongada, com aparência semelhante à da curva normal, é denominada Mesocúrtica.

 Coeficiente de curtose Um dos coeficientes mais utilizados para medir o grau de achatamento ou curtose de uma distribuição é o coeficiente percentílico de curtose, ou simplesmente coeficiente de curtose (𝑘), calculado a partir do intervalo interquartil, além dos percentis de ordem 10 e 90.

Por outro lado, quando a distribuição apresentar uma curva de frequências mais achatada que a curva normal, é denominada Platicúrtica Ou ainda, quando a distribuição apresentar uma curva de frequências mais alongada que a curva normal, é denominada Leptocúrtica.

Este capítulo apresenta os conceitos de estatística descritiva envolvendo duas variáveis (análise bivariada). A análise bivariada tem como objetivo, portanto, estudar as relações (associações para variáveis qualitativas e correlações para variáveis quantitativas) entre duas variáveis. A análise bivariada será estudada a partir de duas situações distintas: a) Quando duas variáveis são qualitativas; b) Quando duas variáveis são quantitativas.

O objetivo é avaliar se existe relação entre as variáveis qualitativas ou categóricas estudadas, além do grau de associação entre elas. Isto pode ser feito por meio de tabelas de distribuições de frequências, medidas-resumo como o qui-quadrado (utilizado para variáveis nominais e ordinais), o coeficiente Phi, o coeficiente de contingência e o coeficiente V de Cramer (para variáveis nominais), e o coeficiente de Spearman (para variáveis ordinais), além de representações gráficas como mapas perceptuais provenientes da análise de correspondência.

A forma mais simples de resumir um conjunto de dados provenientes de duas variáveis qualitativas é por meio de uma tabela de distribuição conjunta de frequências, neste caso específico denominada tabela de contingência ou tabela de classificação cruzada (cross-tabulation) ou, ainda, tabela de correspondência que exibe, de forma conjunta, as frequências absolutas ou relativas das categorias da variável 𝑋, representada no eixo das abscissas, e da variável 𝑌, representada no eixo das ordenadas. É comum adicionarmos à tabela de contingência os totais marginais que correspondem à soma das linhas da variável 𝑋 e à soma das colunas da variável 𝑌.

Tabela de Distribuição Conjunta de Frequências

As principais medidas que representam a associação entre duas variáveis qualitativas são: a) A Estatística Qui-Quadrado ( 𝜒2 ), utilizada para variáveis qualitativas nominais e ordinais; b) O coeficiente Phi, o coeficiente de contingência e o coeficiente V de Cramer, aplicados para variáveis nominais e baseados no qui-quadrado; c) O coeficiente de Spearman para variáveis ordinais.

O coeficiente de Spearman (𝒓𝒔) é uma medida de associação entre duas variáveis qualitativas ordinais. Inicialmente, devemos ordenar o conjunto de dados da variável X e da variável Y de forma crescente. A partir dessa ordenação, é possível criar postos ou rankíngs, denotados por 𝑘 . A atribuição desses postos é feita isoladamente para cada variável. O posto 1 é então atribuído ao menor valor da variável, o posto 2 ao segundo menor valor, e assim por diante, até o posto 𝑛 para o maior valor.

Em caso de empate entre os valores de ordem 𝑘 e 𝑘 + 1, devemos

atribuir o posto 𝑘+1 2

para ambas as observações.

𝑛: número de observações (pares de valores); 𝑑𝑘: diferença entre os postos de ordem 𝑘

 Tabelas de distribuição conjunta de frequências O mesmo procedimento apresentado para variáveis qualitativas pode ser utilizado para representar a distribuição conjunta de variáveis quantitativas e analisar as possíveis relações entre as respectivas variáveis.  Medidas de correlação a) Covariância: mede a variação conjunta entre duas variáveis quantitativas 𝑋 e 𝑌. Porém, pode levar a uma estimativa ruim em casos de pequenas amostras.

Coeficiente de correlação de Pearson O coeficiente de correlação de Pearson (𝑝) é uma medida que varia entre -1 e 1. Por meio do sinal, é possível verificar o tipo de relação linear entre as duas variáveis analisadas (direcção em que a variável Y aumenta ou diminui em função da variação de X); quanto mais próximo dos valores extremos, mais forte é a correlação entre elas. Logo:
Se 𝑝 for positivo, existe uma relação diretamente proporcional entre as variáveis; se 𝑝 = 1 , tem-se uma correlação linear positiva perfeita.
Se 𝑝 for negativo, existe uma relação inversamente proporcional entre as variáveis; se 𝑝 = −1, tem-se uma correlação linear negativa perfeita.
Se 𝑝 for nulo, não existe correlação entre as variáveis.

AMOSTRA: um subconjunto dos consumidores

A ESTATÍSTICA é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. A ESTATÍSTICA DESCRITIVA é a etapa inicial da análise utilizada para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou está área da estatística. A TEORIA DE PROBABILIDADES nos permite descrever os fenómenos aleatórios, ou seja, aqueles em que está presente a incerteza.

Uma experiência é um processo que conduz a um resultado pertencente a um conjunto previamente fixado, designado por universo dos resultados ou espaço amostral. Habitualmente, este conjunto representa-se por 𝐒, Ω ou 𝐄 e os seus elementos designam-se por casos possíveis. i. Uma experiência determinista é uma experiência com um único caso possível. ii. Uma experiência aleatória é uma experiência com mais do que um caso possível, não sendo possível prever com exactidão o seu resultado, mesmo quando realizada nas mesmas condições

Cada um dos subconjuntos do espaço amostral de uma experiência aleatória designa-se por acontecimento. Os elementos de um acontecimento designam-se por casos favoráveis a esse acontecimento. i. O conjunto vazio designa-se por acontecimento impossível. ii. O espaço amostral designa-se por acontecimento certo. iii. Se existir apenas um caso que lhe seja favorável, o acontecimento designa-se por elementar. iv. Se existir mais do que um caso que lhe seja favorável, o acontecimento designa-se por composto.

Operação com Acontecimentos

Reunião (ou união) do acontecimento A com B é o acontecimento que se realiza quando se verifica A ou B: 𝐴 ∪ 𝐵 = 𝐴 + 𝐵.
Intersecção do acontecimento A com B é o acontecimento que se realiza quando se verifica A e B em simultâneo: 𝐴 ∩ 𝐵.
Os acontecimentos A e B dizem-se disjuntos, incompatíveis ou mutuamente exclusivos se são acontecimentos que nunca ocorrem em simultâneo, isto é, a realização de um deles implica a não realização do outro.

Operação com Acontecimentos

Os acontecimentos A e B dizem-se contrários se 𝐴 ∩ 𝐵 = ∅ e 𝐴 ∪ 𝐵 = Ω. Representa-se por 𝐴ҧ ou 𝐵ത. Definição de Laplace de probabilidade Numa experiência aleatória onde os casos possíveis são em número finito e equiprováveis, a probabilidade de um acontecimento 𝐴 é dada pelo quociente entre o número de casos favoráveis a esse acontecimento e o número de casos possíveis.

Distribuição de Normal

População: é um conjunto formado por indivíduos ou objetos que apresentam, pelo menos, uma característica/variável comum e observável. Usa-se 𝑵 para designar esse número/tamanho. Amostra: É qualquer subconjunto da população com as mesmas características. Usa-se 𝒏 para designar esse número/tamanho. Amostragem: é o processo de selecção de uma amostra, que possibilita o estudo das características da população. Erro amostral: é o erro que ocorre justamente pelo uso da amostra. Ele representa a diferença entre o resultado amostral e o verdadeiro resultado da população. O erro amostral ocorre devido às variações amostrais. De acordo com Fonseca e Martins (2011) na Teoria da Amostragem são consideradas: i) Tamanho da amostra; ii) Composição da amostra.

Procedimento:

Analise o questionário, ou roteiro da entrevista e escolha uma variável que julgue mais importante para o estudo. Se possível, escolha mais do que uma;
Verifique o nível de mensuração da variável: se nominal, ordinal ou quantitativa;
Considere o tamanho da população: infinita ou finita.

Se a variável escolhida for quantitativa e a população considerada infinita, pode-se determinar o tamanho da amostra pela fórmula: 𝟐 𝒏 =

Tamanho da Amostra

Se a variável escolhida for quantitativa e a população considerada finita, pode-se determinar o tamanho da amostra pela fórmula:

𝒏 =

𝑬𝟐

𝒁𝜶/𝟐

𝟐 𝝈𝟐 𝑵 +

𝟐 𝝈𝟐

Se a variável escolhida for nominal ou ordinal e a população considerada infinita, pode-se determinar o tamanho da amostra pela fórmula:

𝒏 =

𝑬𝟐

Tamanho da Amostra

Se a variável escolhida for nominal ou ordinal e a população considerada finita, pode-se determinar o tamanho da amostra pela fórmula:

Fonseca e Martins (2011) apontam que existem dois métodos para composição da amostra:

Métodos probabilísticos: são usados para garantir que a selecção da amostra seja aleatória e representativa da população, permitindo assim que as conclusões obtidas a partir da análise da amostra possam ser generalizadas para a população inteira.
Métodos não probabilísticos: são técnicas que não utilizam a aleatoriedade na seleção da amostra, dependendo em vez disso de critérios específicos ou da escolha do pesquisador. Eles são menos confiáveis do que os métodos probabilísticos, pois podem levar a amostras enviesadas e não representativas da população.

Composição da Amostra

Amostragem aleatória simples: Cada elemento da população tem a mesma probabilidade de ser escolhido para a amostra, garantindo assim que a amostra seja representativa da população. i. Utilizando um procedimento aleatório (por exemplo, por meio de tabela de números aleatórios ou urna), ii. Devemos sortear com igual probabilidade um elemento da população; iii. Repetimos o processo anterior até que seja retirada uma amostra com 𝑛 observações; iv. Quando o elemento sorteado for removido da população antes do próximo sorteio, teremos o processo AAS sem reposição. Caso seja permitido o sorteio de uma unidade mais de uma vez, estaremos diante do processo AAS com reposição.

Amostragem estratificada: Neste tipo de amostragem, uma população heterogênea é estratificada ou dividida em subpopulações ou estratos homogêneos, e alguns desses estratos são seleccionados aleatoriamente para compor a amostra, incluindo todos os indivíduos dentro dos estratos seleccionados. É frequentemente usado quando a população é grande e dispersa geograficamente. Amostragem estratificada uniforme é aquela em que sorteamos número igual de elementos em cada estrato, é recomendada quando os estratos forem aproximadamente do mesmo tamanho. Já na amostragem estratificada proporcional, o número de elementos em cada estrato é proporcional ao número de elementos existentes no estrato.

Amostragem sistemática: os elementos da população são selecionados em um padrão sistemático, a partir de um ponto de partida aleatório. Exemplo: Se quisermos selecionar uma amostra sistemática de 100 estudantes em uma escola com uma população de 1000 alunos, poderíamos selecionar aleatoriamente um número entre 1 e 10 para determinar o ponto de partida, e depois selecionar a cada 10 alunos subsequentes para compor a amostra. Esse método é útil quando se tem uma lista ordenada dos elementos da população e quando se deseja garantir uma amostra representativa, mas não é tão aleatório quanto a amostragem aleatória simples. Vantagens: é executada com maior rapidez e menor custo.

Amostragem por conglomerados: a população total deve ser subdividida em grupos de unidades elementares, denominados conglomerados. A amostragem é feita a partir dos grupos e não dos indivíduos da população. Desta forma, devemos sortear aleatoriamente um número suficiente de conglomerados e os objectos deste constituirão a amostra. Esse tipo de amostragem é denominado amostragem por conglomerados em um estágio. Quando sorteamos elementos dentro dos conglomerados seleccionados, temos uma amostragem por conglomerados em dois estágios: no primeiro estágio, sorteamos os conglomerados e, no segundo, sorteamos os elementos

Amostragem por conveniência: é empregada quando a participação é voluntária ou os elementos da amostra são escolhidos por uma questão de conveniência ou simplicidade, por exemplo, amigos, vizinhos ou estudantes. A vantagem: permite obter informações de maneira rápida e barata. Amostragem por julgamento ou intencional: os elementos são escolhidos de forma proposital, com base em algum critério específico. Esse método pode ser útil quando se deseja incluir apenas indivíduos que possuem certas características ou quando se deseja obter informações mais profundas sobre uma subpopulação específica. Ex: selecionar um grupo de pacientes com uma condição médica específica para avaliar a eficácia de um novo tratamento.

Amostragem por quotas: é um dos métodos de amostragem mais utilizados em pesquisas de mercado e de opinião eleitoral.

Inicialmente, fixamos as quotas com base em determinado critério; dentro das quotas, a seleção dos itens da amostra depende do julgamento do Entrevistador A amostragem por quotas consiste em três passos: i. Selecionamos as variáveis de controle ou as características da população consideradas relevantes para o estudo em questão; ii. Determinamos a proporção da população (%) para cada uma das categorias das variáveis relevantes; iii. Dimensionamos as quotas (número de pessoas a serem entrevistadas que possuem as características determinadas) para cada entrevistador, de modo que a amostra tenha proporções iguais à da população. Vantagens: baixo custo, a rapidez e a facilidade para o entrevistador seleccionar elementos.

Amostragem de propagação geométrica ou bola de neve: é bastante utilizada quando os elementos da população são raros, de difícil acesso ou desconhecidos. Neste método, devemos identificar um ou mais indivíduos da população-alvo, e estes identificarão outros indivíduos pertencentes à mesma população. O processo é repetido até que seja alcançado o objectivo proposto, ou ponto de saturação. O ponto de saturação é atingido quando os últimos entrevistados não acrescentam novas informações relevantes à pesquisa, repetindo assim conteúdos de entrevistas anteriores. Vantagens: permite ao pesquisador localizar a característica desejada da população; facilidade de aplicação; baixo custo; é eficiente ao penetrar em populações de dificil acesso.

CAPÍTULO IV

Exploração de Dados Bivariádos

Column

Introdução

CAPÍTULO V

Tópicos de Regressão Linear

Column

Introdução

CAPÍTULO VI

Números Índices

Column

Introdução

PROGRAMA

CAPÍTULO I

Column

CAPÍTULO II

Column

CAPÍTULO III

Column

CAPÍTULO IV

Column

CAPÍTULO V

Column

CAPÍTULO VI

Column

TESTES & EXAMES