Notas 06
Interpretação do desvio padrão
- Curva normal
- Fórmulas
- Esboço geral
- Curvas normais com variações de média e variâncias
- Propriedades do desvio padrão
- Relação desvio padrão e Curva Normal
Curva Normal
É uma curva simétrica em torno de um eixo. Também chamada Gaussiana, curva de Gauss, curva em forma de sino ou, simplesmente, Curva Normal.
A expressão:
\(f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right], \quad x\in(-\infty,\infty)\)
O esboço da função :
Note que:
- função contínua com um único valor de máximo e dois pontos de mudança de concavidade.
- a média \(\mu\) que controla o deslocamento no eixo x.
- a variância \(\sigma^2\) que controla o “espalhamento”” da curva.
A seguir estão alguns exemplos de curvas normais com diferentes valores das médias populacionais.
A seguir estão alguns exemplos de curvas normais com diferentes valores das variâncias populacionais.
Exemplos
Os cálculos com curva normal padrão \(N(\mu=0,\sigma^2=1)\). Os resultados a seguir são apresentados apenas para ilustrar os tópicos seguintes, porém, inserem um conceito que será retomado nas distribuições contínuas de probabilidades.
A probabilidade associada a curva normal é obtida por meio do cálculo da área abaixo da curva.
- \(\displaystyle A=P(x\leqslant z)=\int_{-\infty}^{z}f(x)dx\)
ao fazer \(z_1=(x-\mu)/\sigma\) obtém-se a distribuição normal padrão com média \(\mu=0\) e variância \(\sigma^2=1\). Neste caso:
\(\displaystyle A=P(x\leqslant a)=\int_{-\infty}^{a}f(x)dx=\int_{-\infty}^{z_1}f(z)dz=P(z\leqslant z_1)\)
Com isso, todas as curvas normais podem ser reduzidas à curva normal padrão. O gráfico a seguir ilustra um exemplo de área calculada para a curva normal padrão:
#install.packages("visualize")
#https://github.com/coatless/visualize
library("visualize")
# Graph a standard normal distribution with a z-score of 1.96
visualize.norm(1.96)- \(\displaystyle A=P(z_2\geqslant z)=\int_{z_2}^{\infty}f(z)dz\)
# Change the location of the tail
visualize.norm(1.96, section = "upper")- \(\displaystyle A=P(z_1\leqslant x\leqslant z_2)=\int_{z_1}^{z_2}f(z)dz\)
# Shift the mean and create a bounded range.
visualize.norm(c(-1.96, 1.96), section = "bounded")Propriedades do desvio padrão
- O desvio padrão é uma medida de variação de todos os valores a partir da média.
- O valor do desvio padrão \(s\) é positivo, só será zero se todos os valores forem iguais e nunca será negativo.
- Maiores valores de \(s\) indicam maior variação
- observe as figuras das curvas normais com mesma média e variâncias diferentes.
- O valor do desvio padrão pode crescer muito com a inclusão de um ou mais outliers (valores extremos)
set.seed(10)
x=sample(0:10,5)
cat('x=',x,'\t\t\t','media=',mean(x),'\t','s=',sd(x))
x=append(x,100)
cat("\n")
cat('x=',x,'\t\t','media=',mean(x),'\t','s=',sd(x))x= 10 8 6 7 5 media= 7.2 s= 1.923538
x= 10 8 6 7 5 100 media= 22.66667 s= 37.92449
- A unidade do desvio padrão (e.g. min, cm, mm, hora,Kg, etc.) é a mesma dos dados.
Interpretação
A interpretação do desvio padrão se baseia na interpretação dos resultados provenientes de uma DISTRIBUIÇÃO NORMAL. Observe os resultados a seguir:
Observações:
- Existe um número muito grande de distribuições e a maioria delas não satisfazem essa regra.
- Não há sentido tratar todas as distribuições como Normais - caso contrário não existiria a ESTATÍSTICA.
- Veja uma lista parcial em : https://en.wikipedia.org/wiki/List_of_probability_distributions
Exemplo
(Exemplo não real) Suponha que a frequência cardíaca de uma pessoa SOB CERTAS CONDIÇÕES ESPECÍFICAS seja uma distribuição normal com média de 75 batimentos por minuto (b.p.m) com variância 156.25. Qual a faixa normal de frequência cardíaca considerando um intervalo de, aproximadamente, 95%?
Considerando a regra empírica para a avaliação, obtém-se:
Pulsação usual mínima = \(\mu-2\sigma=75-2\times 12.5=\) 50
Pulsação usual máxima = \(\mu+2\sigma=75+2\times 12.5=\) 100
Dois desvios em torno da média
Note que ao escolher uma pessoa, aleatóriamente, da população:
- há uma probabilidade de, aproximadamente, 5% que ela esteja fora do intervalo de 95% calculadoa acima.
- devido a simetria, a probabilidade de uma pessoa ter batimentos maiores que
\(P(x<z_1=\mu-2\sigma)=P(x>z_2=\mu+2\sigma)\approx 0.005/2\)
Uma interpretação para o resultado acima é:
- existe uma probabilidade de, aproximadamente, \(0.025\) de que uma pessoa, escolhida aleatóriamente na população, tenha batimentos cardíacos abaixo de 50.
- existe uma probabilidade de \(0.025\) de que uma pessoa, escolhida aleatóriamente na população, tenha batimentos cardíacos acima de 100.
Ao assumir que o intervalo de 95% da Regra Empírica seja usado para classificar pessoas com batimentos fora do “padrão” ocorrem os seguintes problemas:
- a pessoa pode ter batimentos fora do intervalo e ainda ser “normal” quanto aos batimentos.
- a pessoa pode ter os batimentos no intervalo e ainda sim ter problemas cardíacos.
AS CONCLUSÕES DA ESTATÍSTICA SÃO SEMPRE PROBABILISTICAS! PROBABILIDADES “PEQUENAS” SUGEREM QUE O EVENTO SEJA “IMPROVÁVEL” PORÉM NÃO É DE OCORRÊNCIA IMPOSSÍVEL.
Por exemplo: Adotando o contexto do problema, a probabilidade de uma pessoa ter batimentos acima de 110 pode ser visualizada a seguir:
- Questões adicionais:
- Qual o percentual de indivíduos que estão, aproximadamente, no intervalo calculado?
- É motivo para preocupação se você foi identificado como sendo fora da faixa?
- Qual a probabilidade de uma pessoa estar fora do intervalo calculado?
- É possível que uma pessoa tenha batimentos acima de 120 e ainda ser normal? Justifique!
- Ao adotar um intervalo de três desvios em torno da média, quais seriam os valores para os quais uma pessoa, escolhida aleatóriamente, não seja considerada com batimentos normais?
Importante: Este exemplo não é real. Um estudo mais detalhado envolvendo frequência cardíaca pode ser encontrado em https://doi.org/10.1016/j.jelectrocard.2006.09.003.
Variações em diferentes populações
Definição: O coeficiente de variação (CV) para um conjunto de dados amostrais ou populacionais não-negativo, expresso como um percentual, descreve o desvio padrão relativo à média e é dado por:
O coeficiente de variação da amostra é dado por:
\[cv=\dfrac{s}{\overline{x}}\times 100\]
O coeficiente de variação da população é dado por:
\[cv=\dfrac{\sigma}{\mu}\times 100\]
Importância: comparar duas ou mais amostras/populações com diferentes escalas de medidas.
Exemplo:
Considere os dados referentes a alturas e pesos de Homens encontramos as seguintes estatísticas amostrais.
Altura 68.34in e 3.02in (média e desvio de altura)
Peso 172.55lb e 26.33lb (média e desvio de peso)
Qual das duas amostras possui maior variabilidade?
Calcule o coeficiente de variação de cada variação.
Altura: CV = 4.42% , Peso: CV = 15,26%
Como você interpretaria esses valores?
Solução: A altura é menos variável que o peso. Em outras palavras, a distribuição dos dados de altura é mais homogêneo do que a distribuição dos dados de peso. A seguir estão as duas curvas normais com respectivos intervalos de 95% da Regra Empírica.
- Note que o intervalo \([\mu-2s,\mu+2s]\) sempre fornece a mesma probabilidade e, portanto, não é adequado para fornecer uma diferença entre as duas variáveis.
- Os valores envolvidos nas comparações são muito distintos e possuem escalas de medidas são diferentes (massa: [M] e comprimento: [L]).
- O ajuste automático das escalas pode induzir ao erro, caso não façamos observação adequada.
Notas sobre o uso do R para visualização de áreas
O primeiro passo para utilizar as ferramentas de visualização anterior é instalar o pacote visualize. Veja o código a seguir:
install.packages("visualize")Installing package into '/home/jp/R/x86_64-pc-linux-gnu-library/4.0'
(as 'lib' is unspecified)
Após instalação, as ferramentas ficam disponíveis (Dica: instale apenas 01 vez.). Veja o código a seguir para a função de densidade normal com média \(\mu=10\) e desvio padrão \(s=2\).
library("visualize")
visualize.norm(stat = c(9,11.5),mu = 10,sd = 2,section ="bounded")Resumo
A Curva Normal, também chamada de Gaussiana ou Curva em Forma de Sino, é uma curva simétrica em torno de um eixo. A sua expressão é:
\[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right]\]
Principais características:
- Função contínua com um único valor de máximo e dois pontos de mudança de concavidade.
- A média (\(\mu\)) controla o deslocamento no eixo x.
- A variância (\(\sigma^2\)) controla o “espalhamento” da curva.
Propriedades do Desvio Padrão
- O desvio padrão é uma medida de variação de todos os valores em relação à média.
- É sempre um valor não negativo e será zero somente se todos os valores forem iguais.
- Maiores valores de desvio padrão indicam maior variação.
- O desvio padrão pode aumentar significativamente com a presença de outliers (valores extremos).
Interpretação
- A interpretação do desvio padrão baseia-se na distribuição normal.
- Probabilidades são calculadas com base na área sob a curva normal.
- A regra empírica é frequentemente usada para interpretar o desvio padrão em relação à média.
Coeficiente de Variação (CV)
- O coeficiente de variação é uma medida de variação relativa, expressa como um percentual.
- É útil para comparar amostras ou populações com diferentes escalas de medidas.
- O CV amostral é dado por: \[CV = \frac{s}{\overline{x}} \times 100\]
- O CV populacional é dado por: \[CV = \frac{\sigma}{\mu} \times 100\]
Exercícios
Alguns exercícios com contextos que podem ser interessantes para fixação das ideias. Veja mais exercícios nas referências.
Exercício 1: Desvio Padrão Uma empresa está avaliando o desempenho de dois funcionários, A e B, em relação ao número de vendas feitas por mês. Os dados dos últimos 12 meses para ambos os funcionários são os seguintes (em milhares de vendas):
- Funcionário A: 6, 5, 7, 5, 6, 8, 7, 6, 5, 7, 6, 8
- Funcionário B: 10, 8, 12, 9, 11, 10, 9, 8, 11, 12, 10, 9
Calcule o desvio padrão das vendas para cada funcionário e determine qual deles possui uma variação maior nos números de vendas.
Exercício 2: Curva Normal Suponha que a altura de estudantes universitários siga uma distribuição normal com uma média de 170 cm e um desvio padrão de 10 cm. Qual é a probabilidade de selecionar aleatoriamente um estudante universitário com altura entre 160 cm e 180 cm?
Exercício 3: Coeficiente de Variação Um fabricante produz dois modelos de carros, A e B. O modelo A tem um preço médio de $20.000 com um desvio padrão de $2.000, enquanto o modelo B tem um preço médio de $22.000 com um desvio padrão de $4.000. Calcule o coeficiente de variação para ambos os modelos e determine qual deles tem uma maior variação relativa nos preços.
Exercício 4: Curva Normal (Z-Score) Suponha que as notas em um teste de matemática se distribuam normalmente com uma média de 75 e um desvio padrão de 10. Qual é o escore Z de um aluno que obteve uma nota de 85?
Exercício 5: Coeficiente de Variação e Comparação Duas empresas, X e Y, estão competindo na produção de lâmpadas LED. A empresa X tem uma média de vida útil de 15.000 horas com um desvio padrão de 2.000 horas, enquanto a empresa Y tem uma média de vida útil de 14.000 horas com um desvio padrão de 1.500 horas. Calcule o coeficiente de variação para ambas as empresas e determine qual delas oferece lâmpadas LED com uma maior variação relativa na vida útil.
Referências
- LARSON, R., FARBER, B. Estatística Aplicada, Editora Pearson, ed 06, 2010. Disponível aqui.
- TRIOLA, M. Elementary Statistics: Updates for the latest technology, Pearson-Education, ed.09, 2004.
- MARINHO, Notas de aula Prof. Marinho, Curso Estatística Descritiva, Universidade de São Paulo, 2015.
- BUSSAB, W.O., MORETTIN, P.A., Estatística Básica, Saraiva, Sao Paulo, 9ed, 2017.