Notas 06

Interpretação do desvio padrão

  • Curva normal
    • Fórmulas
    • Esboço geral
    • Curvas normais com variações de média e variâncias
  • Propriedades do desvio padrão
  • Relação desvio padrão e Curva Normal

Curva Normal

É uma curva simétrica em torno de um eixo. Também chamada Gaussiana, curva de Gauss, curva em forma de sino ou, simplesmente, Curva Normal.

A expressão:

\(f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right], \quad x\in(-\infty,\infty)\)

O esboço da função :

Note que:

  • função contínua com um único valor de máximo e dois pontos de mudança de concavidade.
  • a média \(\mu\) que controla o deslocamento no eixo x.
  • a variância \(\sigma^2\) que controla o “espalhamento”” da curva.

A seguir estão alguns exemplos de curvas normais com diferentes valores das médias populacionais.

Curvas Normais com diferentes valores de média e variâncias iguais.

A seguir estão alguns exemplos de curvas normais com diferentes valores das variâncias populacionais.

Curvas Normais com médias iguais e diferentes variâncias.

Exemplos

Os cálculos com curva normal padrão \(N(\mu=0,\sigma^2=1)\). Os resultados a seguir são apresentados apenas para ilustrar os tópicos seguintes, porém, inserem um conceito que será retomado nas distribuições contínuas de probabilidades.

A probabilidade associada a curva normal é obtida por meio do cálculo da área abaixo da curva.

  • \(\displaystyle A=P(x\leqslant z)=\int_{-\infty}^{z}f(x)dx\)

ao fazer \(z_1=(x-\mu)/\sigma\) obtém-se a distribuição normal padrão com média \(\mu=0\) e variância \(\sigma^2=1\). Neste caso:

\(\displaystyle A=P(x\leqslant a)=\int_{-\infty}^{a}f(x)dx=\int_{-\infty}^{z_1}f(z)dz=P(z\leqslant z_1)\)

Com isso, todas as curvas normais podem ser reduzidas à curva normal padrão. O gráfico a seguir ilustra um exemplo de área calculada para a curva normal padrão:

#install.packages("visualize")
#https://github.com/coatless/visualize
library("visualize")
# Graph a standard normal distribution with a z-score of 1.96
visualize.norm(1.96)

  • \(\displaystyle A=P(z_2\geqslant z)=\int_{z_2}^{\infty}f(z)dz\)
# Change the location of the tail
visualize.norm(1.96, section = "upper")

  • \(\displaystyle A=P(z_1\leqslant x\leqslant z_2)=\int_{z_1}^{z_2}f(z)dz\)
# Shift the mean and create a bounded range.
visualize.norm(c(-1.96, 1.96), section = "bounded")


Propriedades do desvio padrão

  • O desvio padrão é uma medida de variação de todos os valores a partir da média.
  • O valor do desvio padrão \(s\) é positivo, só será zero se todos os valores forem iguais e nunca será negativo.
  • Maiores valores de \(s\) indicam maior variação
    • observe as figuras das curvas normais com mesma média e variâncias diferentes.
  • O valor do desvio padrão pode crescer muito com a inclusão de um ou mais outliers (valores extremos)
set.seed(10)
x=sample(0:10,5)
cat('x=',x,'\t\t\t','media=',mean(x),'\t','s=',sd(x))

x=append(x,100)

cat("\n")

cat('x=',x,'\t\t','media=',mean(x),'\t','s=',sd(x))
x= 10 8 6 7 5            media= 7.2      s= 1.923538
x= 10 8 6 7 5 100        media= 22.66667     s= 37.92449
  • A unidade do desvio padrão (e.g. min, cm, mm, hora,Kg, etc.) é a mesma dos dados.

Interpretação

A interpretação do desvio padrão se baseia na interpretação dos resultados provenientes de uma DISTRIBUIÇÃO NORMAL. Observe os resultados a seguir:

Interpretação do desvio padrão. Fonte: https://upload.wikimedia.org/wikipedia/commons/a/a9/Empirical_Rule.PNG

Observações:

  • Existe um número muito grande de distribuições e a maioria delas não satisfazem essa regra.
  • Não há sentido tratar todas as distribuições como Normais - caso contrário não existiria a ESTATÍSTICA.
  • Veja uma lista parcial em : https://en.wikipedia.org/wiki/List_of_probability_distributions

Exemplo

(Exemplo não real) Suponha que a frequência cardíaca de uma pessoa SOB CERTAS CONDIÇÕES ESPECÍFICAS seja uma distribuição normal com média de 75 batimentos por minuto (b.p.m) com variância 156.25. Qual a faixa normal de frequência cardíaca considerando um intervalo de, aproximadamente, 95%?

Considerando a regra empírica para a avaliação, obtém-se:

Pulsação usual mínima = \(\mu-2\sigma=75-2\times 12.5=\) 50

Pulsação usual máxima = \(\mu+2\sigma=75+2\times 12.5=\) 100


Dois desvios em torno da média

  • Note que ao escolher uma pessoa, aleatóriamente, da população:

    • há uma probabilidade de, aproximadamente, 5% que ela esteja fora do intervalo de 95% calculadoa acima.
    • devido a simetria, a probabilidade de uma pessoa ter batimentos maiores que

    \(P(x<z_1=\mu-2\sigma)=P(x>z_2=\mu+2\sigma)\approx 0.005/2\)

  • Uma interpretação para o resultado acima é:

    • existe uma probabilidade de, aproximadamente, \(0.025\) de que uma pessoa, escolhida aleatóriamente na população, tenha batimentos cardíacos abaixo de 50.
    • existe uma probabilidade de \(0.025\) de que uma pessoa, escolhida aleatóriamente na população, tenha batimentos cardíacos acima de 100.
  • Ao assumir que o intervalo de 95% da Regra Empírica seja usado para classificar pessoas com batimentos fora do “padrão” ocorrem os seguintes problemas:

    • a pessoa pode ter batimentos fora do intervalo e ainda ser “normal” quanto aos batimentos.
    • a pessoa pode ter os batimentos no intervalo e ainda sim ter problemas cardíacos.
  • AS CONCLUSÕES DA ESTATÍSTICA SÃO SEMPRE PROBABILISTICAS! PROBABILIDADES “PEQUENAS” SUGEREM QUE O EVENTO SEJA “IMPROVÁVEL” PORÉM NÃO É DE OCORRÊNCIA IMPOSSÍVEL.

Por exemplo: Adotando o contexto do problema, a probabilidade de uma pessoa ter batimentos acima de 110 pode ser visualizada a seguir:

  • Questões adicionais:
    • Qual o percentual de indivíduos que estão, aproximadamente, no intervalo calculado?
    • É motivo para preocupação se você foi identificado como sendo fora da faixa?
    • Qual a probabilidade de uma pessoa estar fora do intervalo calculado?
    • É possível que uma pessoa tenha batimentos acima de 120 e ainda ser normal? Justifique!
    • Ao adotar um intervalo de três desvios em torno da média, quais seriam os valores para os quais uma pessoa, escolhida aleatóriamente, não seja considerada com batimentos normais?

Importante: Este exemplo não é real. Um estudo mais detalhado envolvendo frequência cardíaca pode ser encontrado em https://doi.org/10.1016/j.jelectrocard.2006.09.003.


Variações em diferentes populações

Definição: O coeficiente de variação (CV) para um conjunto de dados amostrais ou populacionais não-negativo, expresso como um percentual, descreve o desvio padrão relativo à média e é dado por:

O coeficiente de variação da amostra é dado por:

\[cv=\dfrac{s}{\overline{x}}\times 100\]

O coeficiente de variação da população é dado por:

\[cv=\dfrac{\sigma}{\mu}\times 100\]

Importância: comparar duas ou mais amostras/populações com diferentes escalas de medidas.

Exemplo:

Considere os dados referentes a alturas e pesos de Homens encontramos as seguintes estatísticas amostrais.

  • Altura 68.34in e 3.02in (média e desvio de altura)

  • Peso 172.55lb e 26.33lb (média e desvio de peso)

  • Qual das duas amostras possui maior variabilidade?

    • Calcule o coeficiente de variação de cada variação.

      Altura: CV = 4.42% , Peso: CV = 15,26%

Como você interpretaria esses valores?


Solução: A altura é menos variável que o peso. Em outras palavras, a distribuição dos dados de altura é mais homogêneo do que a distribuição dos dados de peso. A seguir estão as duas curvas normais com respectivos intervalos de 95% da Regra Empírica.

  • Note que o intervalo \([\mu-2s,\mu+2s]\) sempre fornece a mesma probabilidade e, portanto, não é adequado para fornecer uma diferença entre as duas variáveis.
  • Os valores envolvidos nas comparações são muito distintos e possuem escalas de medidas são diferentes (massa: [M] e comprimento: [L]).
  • O ajuste automático das escalas pode induzir ao erro, caso não façamos observação adequada.

Notas sobre o uso do R para visualização de áreas

O primeiro passo para utilizar as ferramentas de visualização anterior é instalar o pacote visualize. Veja o código a seguir:

install.packages("visualize")
Installing package into '/home/jp/R/x86_64-pc-linux-gnu-library/4.0'
(as 'lib' is unspecified)

Após instalação, as ferramentas ficam disponíveis (Dica: instale apenas 01 vez.). Veja o código a seguir para a função de densidade normal com média \(\mu=10\) e desvio padrão \(s=2\).

library("visualize")
visualize.norm(stat = c(9,11.5),mu = 10,sd = 2,section ="bounded")


Resumo

A Curva Normal, também chamada de Gaussiana ou Curva em Forma de Sino, é uma curva simétrica em torno de um eixo. A sua expressão é:

\[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right]\]

Principais características:

  • Função contínua com um único valor de máximo e dois pontos de mudança de concavidade.
  • A média (\(\mu\)) controla o deslocamento no eixo x.
  • A variância (\(\sigma^2\)) controla o “espalhamento” da curva.

Propriedades do Desvio Padrão

  • O desvio padrão é uma medida de variação de todos os valores em relação à média.
  • É sempre um valor não negativo e será zero somente se todos os valores forem iguais.
  • Maiores valores de desvio padrão indicam maior variação.
  • O desvio padrão pode aumentar significativamente com a presença de outliers (valores extremos).

Interpretação

  • A interpretação do desvio padrão baseia-se na distribuição normal.
  • Probabilidades são calculadas com base na área sob a curva normal.
  • A regra empírica é frequentemente usada para interpretar o desvio padrão em relação à média.

Coeficiente de Variação (CV)

  • O coeficiente de variação é uma medida de variação relativa, expressa como um percentual.
  • É útil para comparar amostras ou populações com diferentes escalas de medidas.
  • O CV amostral é dado por: \[CV = \frac{s}{\overline{x}} \times 100\]
  • O CV populacional é dado por: \[CV = \frac{\sigma}{\mu} \times 100\]

Exercícios

Alguns exercícios com contextos que podem ser interessantes para fixação das ideias. Veja mais exercícios nas referências.

  • Exercício 1: Desvio Padrão Uma empresa está avaliando o desempenho de dois funcionários, A e B, em relação ao número de vendas feitas por mês. Os dados dos últimos 12 meses para ambos os funcionários são os seguintes (em milhares de vendas):

    • Funcionário A: 6, 5, 7, 5, 6, 8, 7, 6, 5, 7, 6, 8
    • Funcionário B: 10, 8, 12, 9, 11, 10, 9, 8, 11, 12, 10, 9

Calcule o desvio padrão das vendas para cada funcionário e determine qual deles possui uma variação maior nos números de vendas.

  • Exercício 2: Curva Normal Suponha que a altura de estudantes universitários siga uma distribuição normal com uma média de 170 cm e um desvio padrão de 10 cm. Qual é a probabilidade de selecionar aleatoriamente um estudante universitário com altura entre 160 cm e 180 cm?

  • Exercício 3: Coeficiente de Variação Um fabricante produz dois modelos de carros, A e B. O modelo A tem um preço médio de $20.000 com um desvio padrão de $2.000, enquanto o modelo B tem um preço médio de $22.000 com um desvio padrão de $4.000. Calcule o coeficiente de variação para ambos os modelos e determine qual deles tem uma maior variação relativa nos preços.

  • Exercício 4: Curva Normal (Z-Score) Suponha que as notas em um teste de matemática se distribuam normalmente com uma média de 75 e um desvio padrão de 10. Qual é o escore Z de um aluno que obteve uma nota de 85?

  • Exercício 5: Coeficiente de Variação e Comparação Duas empresas, X e Y, estão competindo na produção de lâmpadas LED. A empresa X tem uma média de vida útil de 15.000 horas com um desvio padrão de 2.000 horas, enquanto a empresa Y tem uma média de vida útil de 14.000 horas com um desvio padrão de 1.500 horas. Calcule o coeficiente de variação para ambas as empresas e determine qual delas oferece lâmpadas LED com uma maior variação relativa na vida útil.


Referências

  • LARSON, R., FARBER, B. Estatística Aplicada, Editora Pearson, ed 06, 2010. Disponível aqui.
  • TRIOLA, M. Elementary Statistics: Updates for the latest technology, Pearson-Education, ed.09, 2004.
  • MARINHO, Notas de aula Prof. Marinho, Curso Estatística Descritiva, Universidade de São Paulo, 2015.
  • BUSSAB, W.O., MORETTIN, P.A., Estatística Básica, Saraiva, Sao Paulo, 9ed, 2017.