Motivação

Considere a quantidade total de mortes por câncer de PROSTATA, por anos, segundo localidade (unidade federativa), em homens, com faixa etária de 40 a 99+, entre os anos de 2010 e 2017.

rm(list=ls())

Entrando com os dados

Baixar dados

setwd("C:/Users/admin/Dropbox/UFGD/2019_02_Disciplinas/Topicos_Estatistica_R/3_Aula/Dados_Aula_03")
prostata = readxl::read_xlsx("prostata.xlsx")
  • Apresentando as sete primeiras linhas do banco de dados
Estados QTD Ano
Acre 20 2010
Alagoas 123 2010
Amapá 18 2010
Amazonas 97 2010
Bahia 978 2010
Ceará 569 2010

Medidas de Posição e de Variabilidade

qtd = prostata$QTD
class(qtd) #Tipo da variável
## [1] "numeric"

média

\[ \bar{x} = \frac{\displaystyle\sum_{i=1}^{n}x_{i}}{n} \]

  • Quantidade de observações:
n_qtd = length(qtd)
n_qtd
## [1] 216
  • Soma da variável resposta:
sum_qtd = sum(qtd)
sum_qtd
## [1] 111791
  • A média:
mu_qtd = sum_qtd/n_qtd
mu_qtd
## [1] 517.5509
  • Média: Usando a função mean
mean(qtd)
## [1] 517.5509

Mediana

  • A mediana de um conjunto de dados é o valor central quando os dados são organizados em ordem crescente.

  • Sempre que um conjunto de dados tiver valores extremos, a mediana é a medida de posição central preferida.

  • A mediana é a medida de posição mais frequentemente utilizada para dados de renda anual e valor patrimonial.

Consideremos, agora, as observações ordenadas em ordem crescente. Vamos denotar a menor observação por \(x_{(1)}\), a segunda por \(x_{(2)}\), e assim por diante, obtendo-se: \(x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}\)

  • Estas observações ordenadas são denominadas de Estatística de Ordem. Assim, com esta notação, a mediana para a variável X é determinada da seguinte forma:

  • \(md(X)= X_{((n+1)/2)}\), se n ímpar.

  • \(md(X) = \frac{X_{(n/2)} + X_{(n/2 + 1)}}{2}\),se n par.

  • Para um número mpar de observações a mediana é o valor central.

  • Para um número par de observaçõe a mediana é a média dos dois valores centrais.

md = median(qtd)
md
## [1] 277

Quantis

Podemos definir uma medida, chamada quantil de ordem p ou p-quantil, indicada por q(p), em que p é uma proporção qualquer, 0 < p < 1, tal que \(100p\%\) das observações sejam menores do que q(p).

  • Para calcular os quantis no R basta utilizar a função quantile
quantile(qtd)
##      0%     25%     50%     75%    100% 
##   16.00  153.00  277.00  680.25 3098.00
  • Podemos calcular outros quantis
quantile(qtd, 
         c(0, 0.2, 0.7, 1))
##     0%    20%    70%   100% 
##   16.0  127.0  488.5 3098.0
  • Quartis: são percentis específicos. – Primeiro quartil = 25º percentil – Segundo quartil = 50º percentil = mediana – Terceiro quartil = 75º percentil
quantile(qtd, 
         c(0.25, 0.50, 0.75))
##    25%    50%    75% 
## 153.00 277.00 680.25

Principais medidas de variabilidade

  • Amplitude

  • Amplitude Interquartil

  • Desvio Médio

  • Variância

  • Desvio Padrão

  • Coeficiente de Variação

amplitude

min(qtd) #Valor minimo
## [1] 16
max(qtd) #Valor máximo
## [1] 3098
range(qtd)
## [1]   16 3098

amplitude interquartil

A amplitude interquartil (IQR) de um conjunto de dados é a diferença entre o terceiro quartil e o primeiro quartil:

Q1 = quantile(qtd, 0.25)
Q3 = quantile(qtd, 0.75)
IQR1 = Q3 - Q1
IQR1
##    75% 
## 527.25
# Ou uma forma mais simples
IQR(qtd)
## [1] 527.25

Variância:

  • O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações.

\[ s^{2} = \frac{\displaystyle\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}{n-1} \]

s2 = var(qtd)
s2
## [1] 377142.5

Desvio padrão:

  • Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados (por exemplo, se os dados são expressos em cm, a variãncia será expressa em cm²), pode causar problemas de interpretação. Costuma-se usar, então, o desvio padrão, que é definido como a raiz quadrada positiva da variância. \[ s = \sqrt{\frac{\displaystyle\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}{n-1}} = \sqrt{s^2} \]
s = sqrt(s2)
s
## [1] 614.1193
sd(qtd)
## [1] 614.1193

Coeficiente de Variação (CV)

O coeficiente de variação mede o desvio padrão em relação à média.

  • Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de variação, que é definido como a razão entre o desvio padrão e a média amostral e usualmente expresso em porcentagem:

\[ CV(\%) = \frac{dp(X)}{\bar{x}} \times 100(\%)\]

  • Quanto menor o CV mais homogêneo é o conjunto de dados.
CV = (sd(qtd)/mean(qtd))*100
CV
## [1] 118.6587

Análise Exploratória de Dados

Os procedimentos de análise exploratória de dados nos permitem utilizar aritmética simples e gráficos fáceis de serem desenhados para sintetizar os dados. Primeiro classificamos os valores de dados em ordem crescente e identificamos a regra dos cinco itens e, então, construímos um Box-Plot.

  • Regra dos cinco itens
  1. Menor Valor
min(qtd)
## [1] 16
  1. Primeiro Quartil
quantile(qtd, 0.25)
## 25% 
## 153
  1. Mediana
median(qtd)
## [1] 277
  1. Terceiro Quartil
quantile(qtd, 0.75)
##    75% 
## 680.25
  1. Maior Valor
max(qtd)
## [1] 3098
  • Uma forma mais simples e resumida
summary(qtd)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    16.0   153.0   277.0   517.6   680.2  3098.0

Box Plot

  • Um box plot (diagrama em caixa) é um resumo gráfico de dados que se baseia na regra de cinco itens.

  • A chave para o desenvolvimento de um box plot é o cálculo da mediana e dos quartis Q1 e Q3.

  • Os box plots constituem uma maneira de identificar outliers (ponto atípicos).

  • Os limites são determinados utilizando a amplitude interquartil (IQR). O limite inferior está posicionado a 1,5(IQR) abaixo de Q1. O limite superior está posicionado a 1,5(IQR) acima de Q3.

  • Os dados além desses limites são considerados outliers. A posição de cada outlier é indicada pelo símbolo “*“.

  • O box plot dá uma ideia da posição, dispersão, assimetria, caudas e dados discrepantes.

  • A posição central é dada pela mediana e a dispersãoo pela IQR.

  • As posições relativas de q1, q2, q3 dão uma noção da assimetria da distribuição.

  • Forma mais simples de fazer um boxplot

boxplot(qtd)

Assimetria

  • Quando os dados são assimétricos, a maior parte dos dados está localizada no lado superior ou inferior do gráfico boxplot.

  • A assimetria indica que os dados podem não ser normalmente distribuídos.

Para determinar a assimetria podemos utilizar a seguinte expressão:

\[ AS = \frac{\left(\displaystyle\sum_{i=1}^{n}(x_{i} - \bar{x})^{3}/n\right)}{s^3} \]

(sum((qtd-mean(qtd))^3)/length(qtd))/(sd(qtd)^3)
## [1] 2.259245
#Forma mais simples
library(e1071)
skewness(qtd)
## [1] 2.259245

Medidas de associação entre duas variáveis quantitativas

  • Até agora, examinamos os métodos numéricos utilizados para sintetizar os dados para uma variável de cada vez.

  • Frequentemente, um gerente ou tomador de decisões está interessado na relação entre duas variáveis.

  • Duas medidas descritivas da relaçãoo entre duas variáveis são a covariância e o coeficiente de correlação.

Covariância

  • A covariância é a medida da associaçãoo linear entre duas variáveis.

  • Valores positivos indicam uma associação linear positiva.

  • Valores negativos indicam uma associação linear negativa.

  • A covariância é calculada da seguinte maneira:

\[ s_{xy} = \frac{\sum_{i=1}^{n}\left(x_{i} - \bar{x}\right)\left(y_{i} - \bar{y}\right)}{n-1} \] ### Coeficiente de Correlação

  • A correlação é uma medida de associação linear, e não necessariamente de causa.

  • Apenas porque duas variáveis são altamente correlacionadas, não significa que alterações em uma variável seja a causa de alterações em outra.

  • O coeficiente de correlação é calculado do seguinte modo:

\[r_{xy}= \frac{s_{xy}}{\left(s_{x} s_{y} \right)}\]

  • Em que \(s_{xy}\) é a covariância entre x e y, \(s_x\) e \(s_y\) são os desvios padrões de x e y, respectivamente.

Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos da Companhia MB.

Baixar dados

setwd("C:/Users/admin/Dropbox/UFGD/2019_02_Disciplinas/Topicos_Estatistica_R/3_Aula/Dados_Aula_03")
Tabela_Bus2 = readxl::read_xlsx("Tabela_Bus2.xlsx")

Gráfico de Dispersão

require(ggplot2)
## Carregando pacotes exigidos: ggplot2
ggplot(Tabela_Bus2) +
geom_point(aes(x = Idade, y = Salario_Min),
           size = 3) +
labs(title = 'Relação entre idade e salário mínimo',
       x = 'Idade',
       y = 'Salário (R$)')

Covariância no R

cov(Tabela_Bus2$Idade, Tabela_Bus2$Salario_Min)
## [1] 11.23067

Correlação no R

cor(Tabela_Bus2$Idade, Tabela_Bus2$Salario_Min)
## [1] 0.3633622

Retornando ao questionamento do início da aula

Além de calcular estas médias vamos construir gráficos

  • Pergunta: Como calcular a média e o desvio padrão por ano em relação a quantidade total de mortes por câncer de PROSTATA?
#Média
aggregate(QTD ~ Ano, 
          FUN = mean,
          data=prostata)
##    Ano      QTD
## 1 2010 472.6667
## 2 2011 485.3704
## 3 2012 493.4815
## 4 2013 509.2963
## 5 2014 523.5556
## 6 2015 535.2963
## 7 2016 551.6667
## 8 2017 569.0741
#Desvio padrão
aggregate(QTD ~ Ano, 
          FUN = sd,
          data=prostata)
##    Ano      QTD
## 1 2010 589.0761
## 2 2011 589.9982
## 3 2012 611.1790
## 4 2013 608.4880
## 5 2014 619.0928
## 6 2015 634.0542
## 7 2016 658.3919
## 8 2017 672.9204
ggplot(prostata, aes(x = factor(Ano), y = QTD)) +
       geom_boxplot() +
  labs(y = "Quantidade total de mortes por câncer de PROSTATA")

Aplicação: Incidência de Câncer de Pele Não Melanoma

Entrando com os dados

Baixar dados

setwd("C:/Users/admin/Dropbox/UFGD/2019_02_Disciplinas/Topicos_Estatistica_R/3_Aula/Dados_Aula_03")
nonmel = readxl::read_xlsx("nonmel.xlsx")
  • Apresentando os dados
cases pop city Age
1 172675 Minneapolis 15_24
16 123065 Minneapolis 25_34
30 96216 Minneapolis 35_44
71 92051 Minneapolis 45_54
102 72159 Minneapolis 55_64
130 54722 Minneapolis 65_74
133 32185 Minneapolis 75_84
40 8328 Minneapolis 85+
4 181343 Dallas 15_24
38 146207 Dallas 25_34
119 121374 Dallas 35_44
221 111353 Dallas 45_54
259 83004 Dallas 55_64
310 55932 Dallas 65_74
226 29007 Dallas 75_84
65 7583 Dallas 85+
    1. Calcule a média para a variável cases.
mean(nonmel$cases)
## [1] 110.3125
    1. Calcule o desvio padrão para a variável cases.
sd(nonmel$cases)
## [1] 96.96509
    1. Calcule o coeficiente de variação para a variável cases.
(sd(nonmel$cases)/mean(nonmel$cases))*100
## [1] 87.90037
    1. Qual foi a média de casos por cidade?
aggregate(cases~city, data=nonmel, FUN=mean)
##          city   cases
## 1      Dallas 155.250
## 2 Minneapolis  65.375
    1. Qual foi o desvio padrão de casos por cidade?
aggregate(cases~city, data=nonmel, FUN=sd)
##          city     cases
## 1      Dallas 113.46711
## 2 Minneapolis  51.54731
    1. Determine o quantil de \(30\%\) e de \(90\%\) da quantidade de casos
quantile(nonmel$cases, c(0.30, 0.90))
##   30%   90% 
##  39.0 242.5
    1. Construa um gráfico de BoxPlot em que seja possível comparar por região a quantidade de casos de Câncer no estudo.

Dica: Ao utilizar o ggplot2, no eixo x, coloque o city

require(ggplot2)
ggplot(nonmel, aes(x = city, y = cases)) +
  geom_boxplot(fill = c("#fc7fb2", "#b1e8ed")) +
  theme_classic()

Aplicação: Taxas de Partos Cesáreos em 657 Operadoras de Plano de Saúde

Baixar dados

Entrando com os dados

setwd("C:/Users/admin/Dropbox/UFGD/2019_02_Disciplinas/Topicos_Estatistica_R/3_Aula/Dados_Aula_03")
parto = readxl::read_xlsx("parto.xlsx")
  • Apresentando os dados: Primeiros linhas do banco de dados
Operadora Porte Cesareas Partos Taxa_cesa
AMIL ASSISTÊNCIA MÉDICA INTERNACIONAL S.A. GRANDE 41618 50077 0.8310801
BRADESCO SAÚDE S.A. GRANDE 43358 49241 0.8805264
HAPVIDA ASSISTENCIA MEDICA LTDA GRANDE 33869 45082 0.7512755
NOTRE DAME INTERMÉDICA SAÚDE S.A. GRANDE 22283 30501 0.7305662
CENTRAL NACIONAL UNIMED - COOPERATIVA CENTRAL GRANDE 21441 24903 0.8609806
SUL AMERICA COMPANHIA DE SEGURO SAÚDE GRANDE 19171 22883 0.8377835
    1. Calcule a média para a variável Taxa_cesa.
mean(parto$Taxa_cesa)
## [1] 0.8601442
    1. Calcule o desvio padrão para a variável Taxa_cesa.
sd(parto$Taxa_cesa)
## [1] 0.1287224
    1. Calcule o coeficiente de variação para a variável Taxa_cesa.
(sd(parto$Taxa_cesa)/mean(parto$Taxa_cesa))*100
## [1] 14.96521
    1. Qual foi a média da Taxas de Partos Cesáreos por porte da operadora?
aggregate(Taxa_cesa ~ Porte, data = parto, FUN=mean)
##     Porte Taxa_cesa
## 1  GRANDE 0.8297685
## 2   MEDIO 0.8583163
## 3 PEQUENO 0.8677564
    1. Qual foi o desvio padrão da Taxas de Partos Cesáreos por porte da operadora?
aggregate(Taxa_cesa ~ Porte, data = parto, FUN=sd)
##     Porte  Taxa_cesa
## 1  GRANDE 0.08258668
## 2   MEDIO 0.10610267
## 3 PEQUENO 0.14814777
    1. Determine o quantil de \(30\%\) e de \(90\%\) da Taxas de Partos Cesáreos
quantile(parto$Taxa_cesa, c(0.30, 0.90))
##       30%       90% 
## 0.8352846 0.9763712
    1. Construa um gráfico de BoxPlot em que seja possível comparar a Taxas de Partos Cesáreos por porte da operadora.

Dica: Ao utilizar o ggplot2, no eixo x, coloque o age

require(ggplot2)

ggplot(parto, aes(x = Porte, y = Taxa_cesa)) +
  geom_boxplot(fill = cm.colors(3)) +
  theme_classic()