# Bancos de dados do livro Estatística Básica
load(url(description = "https://www.ime.usp.br/~pam/dados.RData"))
# Dados dos Livro de Agresti e Finlay
library(smss)Warning: pacote 'smss' foi compilado no R versão 4.4.3
Livro: Estatística Básica (Bussab e Morettin)
Capítulo 2: exercícios 4 e 9
Capítulo 3: exercícios 21, 33 e 37
Livro: Agresti e Finlay (4a edição)
Capítulo 3: Exercícios 6, 12, 40, 46, 48 e 78
Instalando os pacotes e baixando os dados:
# Bancos de dados do livro Estatística Básica
load(url(description = "https://www.ime.usp.br/~pam/dados.RData"))
# Dados dos Livro de Agresti e Finlay
library(smss)Warning: pacote 'smss' foi compilado no R versão 4.4.3
Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, obtendo-se os resultados abaixo:
(a) Represente os dados graficamente. (b) Faça um histograma e um ramo-e-folhas.
Instalando os pacotes e fazendo o dowload dos dados das tabelas do livro do Estatística Básica
dados = c( 8, 11, 8, 12, 14, 13, 11, 14, 14, 15,
6, 10, 14, 19, 6, 12, 7, 5, 8, 8,
10, 16, 10, 12, 12, 8, 11, 6, 7, 12,
7, 10, 14, 5, 12, 7, 9, 12, 11, 9,
14, 8, 14, 8, 12, 10, 12, 22, 7, 15)
# (a)
erros = factor(dados, levels=0:max(dados))
plot(erros, main='Gráfico de barras', ylab='Frequência')# (b)
stem(dados)
The decimal point is at the |
4 | 00
6 | 00000000
8 | 000000000
10 | 000000000
12 | 0000000000
14 | 000000000
16 | 0
18 | 0
20 |
22 | 0
hist(dados, main='Histograma', ylab='Frequência')A MB Indústria e Comércio, desejando melhorar o nível de seus funcionários em cargos de chefia, montou um curso experimental e indicou 25 funcionários para a primeira turma. Os dados referentes à seção a que pertencem, notas e graus obtidos no curso estão na tabela a seguir. Como havia dúvidas quanto à adoção de um único critério de avaliação, cada instrutor adotou seu próprio sistema de aferição. Usando dados daquela tabela, responda às questões:
(a) Após observar atentamente cada variável, e com o intuito de resumi-las, como você identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou contínua) cada uma das 9 variáveis listadas?
Qualitativas nominais: Funcionário e Seção
Quanlitativa ordinal: Inglês e Metodologia
Quantitativa discreta: Administração e Direito
Quantitativa contínua: Redação, Estatística, Política e Economia
(b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, Política e Estatística.
Na variável Direito todas as notas foram iguais a nove, então a média e a mediana são iguais a nove e o desvio padrão é zero.
Na variável Política a média e a mediana são menores que a variável Estatística, contudo o desvio padrão é maior.
(c) Construa o histograma para as notas da variável Redação. Resposta no código a seguir.
(d) Construa a distribuição de freqüências da variável Metodologia e faça um gráfico para indicar essa distribuição. Resposta no código a seguir.
(e) Sorteado ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenha obtido grau A em Metodologia?
\[ P(\mbox{"A em Met."}) = \frac{7}{25} = 0,\!28. \]
(f) Se, em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do que a resposta dada em (e)?
Seja \(A_1\) o primeiro sorteado tirar A em Metodologia e \(A_2\) o segundo sorteado ter tirado A em Metodologia.
\[ P(A_1 \cap A_2) = P(A_1)P(A_2|A_1) = \frac{7}{25}\frac{6}{24}= 0,\!07. \]
(g) Como é o aproveitamento dos funcionários na disciplina Estatística, segundo a seção a que eles pertencem?
Pela média e pelos boxplot os funcionários da seção P tiveram um aproveitamento melhor em Estatística.
# Criando um data frame com os dados da imagem
dados <- data.frame(
Func. = c(rep(1:25)), # Funções de 1 a 25
Seção = c(rep("P", 7), rep("T", 7), rep("V", 11)), # Seção
Administr. = c(8.0, 8.0, 8.0, 6.0, 8.0, 8.0, 8.0, 10.0, 8.0, 10.0, 8.0, 8.0, 6.0, 10.0, 8.0, 8.0, 8.0, 6.0, 6.0, 6.0, 8.0, 6.0, 8.0, 8.0, 8.0),
Direito = c(9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0),
Redacao = c(8.6, 7.0, 8.0, 8.6, 8.0, 8.5, 8.2, 7.5, 9.4, 7.9, 8.6, 8.3, 7.0, 8.6, 8.6, 9.5, 6.3, 7.6, 6.8, 7.5, 7.7, 8.7, 7.3, 8.5, 7.0),
Estatist. = c(9.0, 9.0, 8.0, 8.0, 9.0, 10.0, 8.0, 7.5, 9.0, 9.0, 10.0, 7.0, 7.0, 9.0, 9.0, 7.0, 8.0, 9.0, 9.0, 7.0, 7.0, 8.0, 10.0, 9.0, 9.0),
Ingles = c("B", "B", "B", "D", "A", "B", "D", "B", "B", "B", "D", "C", "B", "A", "B", "A", "D", "C", "D", "C", "D", "B", "C", "C", "B"),
Metodologia = c("A", "C", "B", "C", "A", "A", "C", "C", "B", "C", "B", "B", "C", "B", "B", "A", "C", "C", "C", "B", "B", "A", "C", "A", "A"),
Politica = c(9.0, 6.5, 9.0, 6.0, 6.5, 6.5, 9.0, 6.0, 10.0, 9.0, 10.0, 6.5, 6.0, 10.0, 10.0, 9.0, 10.0, 6.0, 6.0, 6.0, 6.5, 6.0, 9.0, 6.5, 9.0),
Economia = c(8.5, 8.0, 8.5, 8.5, 8.5, 9.5, 7.0, 8.5, 8.0, 7.5, 8.5, 8.0, 8.5, 7.0, 7.5, 7.5, 7.5, 8.5, 9.5, 8.5, 8.0, 9.0, 7.0, 9.0, 8.5)
)
# Visualizando as primeiras linhas do data frame
print(head(dados)) Func. Seção Administr. Direito Redacao Estatist. Ingles Metodologia Politica
1 1 P 8 9 8.6 9 B A 9.0
2 2 P 8 9 7.0 9 B C 6.5
3 3 P 8 9 8.0 8 B B 9.0
4 4 P 6 9 8.6 8 D C 6.0
5 5 P 8 9 8.0 9 A A 6.5
6 6 P 8 9 8.5 10 B A 6.5
Economia
1 8.5
2 8.0
3 8.5
4 8.5
5 8.5
6 9.5
# (b)
summary(dados$Direito) Min. 1st Qu. Median Mean 3rd Qu. Max.
9 9 9 9 9 9
sd(dados$Direito)[1] 0
summary(dados$Politica) Min. 1st Qu. Median Mean 3rd Qu. Max.
6.00 6.00 6.50 7.76 9.00 10.00
sd(dados$Politica)[1] 1.671576
summary(dados$Estatist.) Min. 1st Qu. Median Mean 3rd Qu. Max.
7.00 8.00 9.00 8.46 9.00 10.00
sd(dados$Estatist.)[1] 0.9780934
# (c)
hist(dados$Redacao)# (d)
table(dados$Metodologia)
A B C
7 8 10
barplot(table(dados$Metodologia))# (e)
ones = ifelse(dados$Metodologia=='A',1,0)
mean(ones)[1] 0.28
# (f)
mean(ones)*(sum(ones)-1)/24[1] 0.07
# (g)
boxplot(dados$Estatist.~dados$Seção)summary(dados$Estatist.[dados$Seção=='P']) Min. 1st Qu. Median Mean 3rd Qu. Max.
8.000 8.000 9.000 8.714 9.000 10.000
summary(dados$Estatist.[dados$Seção=='T']) Min. 1st Qu. Median Mean 3rd Qu. Max.
7.000 7.250 9.000 8.357 9.000 10.000
summary(dados$Estatist.[dados$Seção=='V']) Min. 1st Qu. Median Mean 3rd Qu. Max.
7.000 7.500 9.000 8.364 9.000 10.000
O que acontece com a mediana, a média e o desvio padrão de uma série de dados quando:
(a) cada observação é multiplicada por 2?
Sejam os dados ordenados \(X_{(1)}, X_{(2)}, \ldots, X_{(n)}\), multiplicando por 2 temos
\[ 2X_{(1)}, 2X_{(2)}, \ldots, 2X_{(n)}. \]
Logo, se multiplicarmos por 2 a mediana vai ser \(2 Med_X\).
A média é dada por
\[ \mu_X = \sum_{i=1}^n X_i/n. \]
Multiplicando cada elemento por 2 temos
\[ \mu_{2X} = \sum_{i=1}^n 2X_i/n = 2 \sum_{i=1}^n X_i/n = 2\, \mu_X. \]
O desvio padrão é definido por
\[ \sigma_X = \sqrt{\sum_{i=1}^n (X_i - \mu_X)^2/n} \]
Multiplicando os elementos por 2 temos
\[ \sigma_{2X} = \sqrt{\sum_{i=1}^n (2X_i - \mu_{2X})^2/n} = \sqrt{\sum_{i=1}^n (2X_i - 2\mu_{X})^2/n} = \sqrt{4 \sum_{i=1}^n (X_i - \mu_{X})^2/n} = 2 \sigma_X. \]
(b) soma-se 10 a cada observação?
Somando 10 aos dados ordenados temos
\[ X_{(1)}+10, X_{(2)}+10, \ldots, X_{(n)}+10. \]
A mediana vai ser \(Med_X+10\).
Na média, somando cada elemento por 10 temos
\[ \mu_{X+10} = \sum_{i=1}^n (X_i+10)/n = \sum_{i=1}^n X_i/n + (10 n)/ n = \mu_X + 10. \]
No desvio padrão, somando 10 os elementos temos
\[ \sigma_{X+10} = \sqrt{\sum_{i=1}^n (X_i+10 - \mu_{X+10})^2/n} = \sqrt{\sum_{i=1}^n (X_i + 10 - (\mu_{X} + 10))^2/n} = \sqrt{\sum_{i=1}^n (X_i - \mu_{X})^2/n} = \sigma_X. \]
(c) subtrai-se a média geral \(\bar{X}\) de cada observação?
Subtraindo \(\bar{X}\) aos dados ordenados temos
\[ X_{(1)}-\bar{X}, X_{(2)}-\bar{X}, \ldots, X_{(n)}-\bar{X}. \]
A mediana vai ser \(Med_X-\bar{X}\).
Na média, subtraindo \(\bar{X}\) de cada elemento temos
\[ \mu_{X-\bar{X}} = \sum_{i=1}^n (X_i-\bar{X})/n = \sum_{i=1}^n X_i/n -(\bar{X} n)/ n = \mu_X -\bar{X} = 0. \]
No desvio padrão, subtraindo $\bar{X}$ aos elementos temos
\[ \sigma_{X-\bar{X}} = \sqrt{\sum_{i=1}^n (X_i-\bar{X} - \mu_{X-\bar{X}})^2/n} = \sqrt{\sum_{i=1}^n (X_i -\bar{X} - (\mu_{X} - \bar{X}))^2/n} =\sigma_X. \]
(d) de cada observação subtrai-se \(\bar{X}\) e divide-se pelo desvio padrão dp(x)?
Fazendo as contas analogamente:
\[ \mbox{Med}_{\frac{X-\bar{X}}{\sigma}} = \frac{(\mbox{Med}_X - \bar{X})}{\sigma}, \]
\[ \mu_{\frac{X-\bar{X}}{\sigma}} = 0\quad \mbox{ e} \]
\[ \sigma_{\frac{X-\bar{X}}{\sigma}} = 1. \]
Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo:
cidade = c('A','B','C','D','E','F','G','H','I','J')
investimento = c(20, 16, 14, 8, 19, 15, 14, 16, 19, 18)Nesse caso, será considerado como investimento básico a média final das observações, calculada da seguinte maneira:
1. Obtém-se uma média inicial.
2. Eliminam-se do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão, ou inferiores à média inicial menos duas vezes o desvio padrão.
3. Calcula-se a média final com o novo conjunto de observações. Qual o investimento básico que você daria como resposta?
m = mean(investimento)
n = length(investimento)
x = ifelse(abs(investimento -m) < 2*sd(investimento)*(n-1)/n, investimento, NA)
mean(na.omit(x))[1] 16.77778
O investimento básico é 16,78.
Usando os dados da variável qualitativa região de procedência, da Tabela 2.1, transforme-a na variável quantitativa X, definida do seguinte modo: X = 1, se a região de procedência for capital; 0, se a região de procedência for interior ou outra.
(a) Calcule \(\bar{X}\) e \(var(X)\). Resposta no código abaixo.
(b) Qual a interpretação de \(\bar{X}\)? \(\bar{X}\) é a proporção de pessoas que vivem no interior, 33%.
(c) Construa um histograma para X.
O gráfico correto para essa variável é o gráfico de barras para a frequência de zeros e uns.
dados = tab2_1
ones = ifelse(tab2_1$reg_procedencia=='interior',1,0)
# (a) e (b)
mean(ones)[1] 0.3333333
var(ones)[1] 0.2285714
# (c)
hist(ones, main='Histograma', ylab='Frequência')barplot(prop.table(table(ones)), main='Gráfico de barras', ylab='Proporção')Provavelmente o exercício refere-se ao PIB per capita.
data(oecd.data)
# (a) PIB (em milhares de dólares)
PIB = round(oecd.data$GDP/1000)
stem(PIB, scale=2)
The decimal point is 1 digit(s) to the right of the |
2 | 02358899
3 | 0001112223389
4 | 0
5 |
6 |
7 | 0
# (b) Histograma
hist(PIB, main='PIB', xlab='Milhares de dólares',
ylab='Frequência', breaks = c(10,20,30,40,50,60,70), right = F)# (c) Boxplot
boxplot(PIB)# Valores discrepantes: maiores PIBs
ord = order(PIB, decreasing = T)
vd = PIB[ord[c(1,2,3)]]
vd[1] 70 40 39
paises = oecd.data$nation[ord[c(1,2,3)]]
paises[1] Luxembourg United-States Ireland
23 Levels: Australia Austria Belgium Canada Denmark Finland France ... United-States
# Valores discrepantes: menores PIBs
ord = order(PIB, decreasing = F)
vd = PIB[ord[c(1,2)]]
vd[1] 20 22
paises = oecd.data$nation[ord[c(1,2)]]
paises[1] Portugal Greece
23 Levels: Australia Austria Belgium Canada Denmark Finland France ... United-States
al = c(48, 58, 52, 50, 62, 40, 51, 44, 45, 68, 55)
eo = c(66, 67, 63, 85, 87, 78, 71, 60, 54, 60, 58, 68, 86, 72, 58, 90, 76)
stem(al)
The decimal point is 1 digit(s) to the right of the |
4 | 0458
5 | 01258
6 | 28
stem(eo)
The decimal point is 1 digit(s) to the right of the |
5 | 488
6 | 003678
7 | 1268
8 | 567
9 | 0
boxplot(al, eo, names=c('América\n Latina','Europa\n Ocidental'), ylab='Frequência')Podemos afirmar que a distribuição dos empregos das mulheres frente aos homens na Europa Ocidental é bem superior que na América Latina.
África = c(54, 76, 81, 101, 154)
Europa = c(3, 4, 4, 4, 5)
boxplot(África, Europa, names=c('África','Europa\n Ocidental'), ylab='Taxa de mortalidade infantil')Nota-se pelos Boxplots que a variação das taxas de mortalidade infantil na Europa Ocidental é muito baixa, indicando proximidade entre os países da região, e a média e mediana das taxas de mortalidade são muito inferiores que as da África.
Anulada.
(a)
Variável resposta: Felicidade.
Variável explicativa: Comparecimento a cultos religiosos.
(b)
# Quase toda semana
200/449[1] 0.4454343
# Nunca ou menos do que uma vez ao ano
72/320[1] 0.225
(c) Sim. Parece que quanto mais comparecimento a cultos religiosos maior a proporção de declaração de felicidade.
(a) Média = 57+20 = 77 e desvio padrão igual a 20.
(b) Média = 2*100.000 = 200.0000 libras e desvio padrão em libras é igual a duas vezes o desvio padrão em dólares.
(c) Média em milhas igual a 1,6 vezes a média em quilômetros e o desvio padrão em milhas é 1,6 vezes o desvio padrão em quilômetros.