Gabarito Lista de Exercícios

Autor

VPI

Gabarito da Lista de Exercícios

Livro: Estatística Básica (Bussab e Morettin)
Capítulo 2: exercícios 4 e 9
Capítulo 3: exercícios 21, 33 e 37
Livro: Agresti e Finlay (4a edição)
Capítulo 3: Exercícios 6, 12, 40, 46, 48 e 78

Instalando os pacotes e baixando os dados:

# Bancos de dados do livro Estatística Básica
load(url(description = "https://www.ime.usp.br/~pam/dados.RData"))
# Dados dos Livro de Agresti e Finlay
library(smss)
Warning: pacote 'smss' foi compilado no R versão 4.4.3

(B&M) Cap 2: exercício 4

Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, obtendo-se os resultados abaixo:

(a) Represente os dados graficamente. (b) Faça um histograma e um ramo-e-folhas.

Instalando os pacotes e fazendo o dowload dos dados das tabelas do livro do Estatística Básica

dados  = c( 8,  11,  8, 12, 14, 13, 11, 14, 14, 15,
            6,  10, 14, 19,  6, 12,  7,  5,  8,  8, 
           10,  16, 10, 12, 12,  8, 11,  6,  7, 12, 
            7,  10, 14,  5, 12,  7,  9, 12, 11,  9,
           14,  8,  14,  8, 12, 10, 12, 22,  7, 15)
# (a)
erros = factor(dados, levels=0:max(dados))
plot(erros, main='Gráfico de barras', ylab='Frequência')

# (b)
stem(dados)

  The decimal point is at the |

   4 | 00
   6 | 00000000
   8 | 000000000
  10 | 000000000
  12 | 0000000000
  14 | 000000000
  16 | 0
  18 | 0
  20 | 
  22 | 0
hist(dados, main='Histograma', ylab='Frequência')

(B&M) Cap 2: exercício 9

A MB Indústria e Comércio, desejando melhorar o nível de seus funcionários em cargos de chefia, montou um curso experimental e indicou 25 funcionários para a primeira turma. Os dados referentes à seção a que pertencem, notas e graus obtidos no curso estão na tabela a seguir. Como havia dúvidas quanto à adoção de um único critério de avaliação, cada instrutor adotou seu próprio sistema de aferição. Usando dados daquela tabela, responda às questões:

(a) Após observar atentamente cada variável, e com o intuito de resumi-las, como você identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou contínua) cada uma das 9 variáveis listadas?

Qualitativas nominais: Funcionário e Seção

Quanlitativa ordinal: Inglês e Metodologia

Quantitativa discreta: Administração e Direito

Quantitativa contínua: Redação, Estatística, Política e Economia

(b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, Política e Estatística.

Na variável Direito todas as notas foram iguais a nove, então a média e a mediana são iguais a nove e o desvio padrão é zero.

Na variável Política a média e a mediana são menores que a variável Estatística, contudo o desvio padrão é maior.

(c) Construa o histograma para as notas da variável Redação. Resposta no código a seguir.

(d) Construa a distribuição de freqüências da variável Metodologia e faça um gráfico para indicar essa distribuição. Resposta no código a seguir.

(e) Sorteado ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenha obtido grau A em Metodologia?

\[ P(\mbox{"A em Met."}) = \frac{7}{25} = 0,\!28. \]

(f) Se, em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do que a resposta dada em (e)?

Seja \(A_1\) o primeiro sorteado tirar A em Metodologia e \(A_2\) o segundo sorteado ter tirado A em Metodologia.

\[ P(A_1 \cap A_2) = P(A_1)P(A_2|A_1) = \frac{7}{25}\frac{6}{24}= 0,\!07. \]

(g) Como é o aproveitamento dos funcionários na disciplina Estatística, segundo a seção a que eles pertencem?

Pela média e pelos boxplot os funcionários da seção P tiveram um aproveitamento melhor em Estatística.

# Criando um data frame com os dados da imagem
dados <- data.frame(
  Func. = c(rep(1:25)), # Funções de 1 a 25
  Seção = c(rep("P", 7), rep("T", 7), rep("V", 11)), # Seção
  Administr. = c(8.0, 8.0, 8.0, 6.0, 8.0, 8.0, 8.0, 10.0, 8.0, 10.0, 8.0, 8.0, 6.0, 10.0, 8.0, 8.0, 8.0, 6.0, 6.0, 6.0, 8.0, 6.0, 8.0, 8.0, 8.0),
  Direito = c(9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0),
  Redacao = c(8.6, 7.0, 8.0, 8.6, 8.0, 8.5, 8.2, 7.5, 9.4, 7.9, 8.6, 8.3, 7.0, 8.6, 8.6, 9.5, 6.3, 7.6, 6.8, 7.5, 7.7, 8.7, 7.3, 8.5, 7.0),
  Estatist. = c(9.0, 9.0, 8.0, 8.0, 9.0, 10.0, 8.0, 7.5, 9.0, 9.0, 10.0, 7.0, 7.0, 9.0, 9.0, 7.0, 8.0, 9.0, 9.0, 7.0, 7.0, 8.0, 10.0, 9.0, 9.0),
  Ingles = c("B", "B", "B", "D", "A", "B", "D", "B", "B", "B", "D", "C", "B", "A", "B", "A", "D", "C", "D", "C", "D", "B", "C", "C", "B"),
  Metodologia = c("A", "C", "B", "C", "A", "A", "C", "C", "B", "C", "B", "B", "C", "B", "B", "A", "C", "C", "C", "B", "B", "A", "C", "A", "A"),
  Politica = c(9.0, 6.5, 9.0, 6.0, 6.5, 6.5, 9.0, 6.0, 10.0, 9.0, 10.0, 6.5, 6.0, 10.0, 10.0, 9.0, 10.0, 6.0, 6.0, 6.0, 6.5, 6.0, 9.0, 6.5, 9.0),
  Economia = c(8.5, 8.0, 8.5, 8.5, 8.5, 9.5, 7.0, 8.5, 8.0, 7.5, 8.5, 8.0, 8.5, 7.0, 7.5, 7.5, 7.5, 8.5, 9.5, 8.5, 8.0, 9.0, 7.0, 9.0, 8.5)
)

# Visualizando as primeiras linhas do data frame
print(head(dados))
  Func. Seção Administr. Direito Redacao Estatist. Ingles Metodologia Politica
1     1     P          8       9     8.6         9      B           A      9.0
2     2     P          8       9     7.0         9      B           C      6.5
3     3     P          8       9     8.0         8      B           B      9.0
4     4     P          6       9     8.6         8      D           C      6.0
5     5     P          8       9     8.0         9      A           A      6.5
6     6     P          8       9     8.5        10      B           A      6.5
  Economia
1      8.5
2      8.0
3      8.5
4      8.5
5      8.5
6      9.5
# (b)
summary(dados$Direito)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      9       9       9       9       9       9 
sd(dados$Direito)
[1] 0
summary(dados$Politica)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   6.00    6.00    6.50    7.76    9.00   10.00 
sd(dados$Politica)
[1] 1.671576
summary(dados$Estatist.)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   7.00    8.00    9.00    8.46    9.00   10.00 
sd(dados$Estatist.)
[1] 0.9780934
# (c)
hist(dados$Redacao)

# (d)
table(dados$Metodologia)

 A  B  C 
 7  8 10 
barplot(table(dados$Metodologia))

# (e)
ones = ifelse(dados$Metodologia=='A',1,0)
mean(ones)
[1] 0.28
# (f)
mean(ones)*(sum(ones)-1)/24
[1] 0.07
# (g)
boxplot(dados$Estatist.~dados$Seção)

summary(dados$Estatist.[dados$Seção=='P'])
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  8.000   8.000   9.000   8.714   9.000  10.000 
summary(dados$Estatist.[dados$Seção=='T'])
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  7.000   7.250   9.000   8.357   9.000  10.000 
summary(dados$Estatist.[dados$Seção=='V'])
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  7.000   7.500   9.000   8.364   9.000  10.000 

(B&M) Cap 3: exercício 21

O que acontece com a mediana, a média e o desvio padrão de uma série de dados quando:

(a) cada observação é multiplicada por 2?

Sejam os dados ordenados \(X_{(1)}, X_{(2)}, \ldots, X_{(n)}\), multiplicando por 2 temos

\[ 2X_{(1)}, 2X_{(2)}, \ldots, 2X_{(n)}. \]

Logo, se multiplicarmos por 2 a mediana vai ser \(2 Med_X\).

A média é dada por

\[ \mu_X = \sum_{i=1}^n X_i/n. \]

Multiplicando cada elemento por 2 temos

\[ \mu_{2X} = \sum_{i=1}^n 2X_i/n = 2 \sum_{i=1}^n X_i/n = 2\, \mu_X. \]

O desvio padrão é definido por

\[ \sigma_X = \sqrt{\sum_{i=1}^n (X_i - \mu_X)^2/n} \]

Multiplicando os elementos por 2 temos

\[ \sigma_{2X} = \sqrt{\sum_{i=1}^n (2X_i - \mu_{2X})^2/n} = \sqrt{\sum_{i=1}^n (2X_i - 2\mu_{X})^2/n} = \sqrt{4 \sum_{i=1}^n (X_i - \mu_{X})^2/n} = 2 \sigma_X. \]

(b) soma-se 10 a cada observação?

Somando 10 aos dados ordenados temos

\[ X_{(1)}+10, X_{(2)}+10, \ldots, X_{(n)}+10. \]

A mediana vai ser \(Med_X+10\).

Na média, somando cada elemento por 10 temos

\[ \mu_{X+10} = \sum_{i=1}^n (X_i+10)/n = \sum_{i=1}^n X_i/n + (10 n)/ n = \mu_X + 10. \]

No desvio padrão, somando 10 os elementos temos

\[ \sigma_{X+10} = \sqrt{\sum_{i=1}^n (X_i+10 - \mu_{X+10})^2/n} = \sqrt{\sum_{i=1}^n (X_i + 10 - (\mu_{X} + 10))^2/n} = \sqrt{\sum_{i=1}^n (X_i - \mu_{X})^2/n} = \sigma_X. \]

(c) subtrai-se a média geral \(\bar{X}\) de cada observação?

Subtraindo \(\bar{X}\) aos dados ordenados temos

\[ X_{(1)}-\bar{X}, X_{(2)}-\bar{X}, \ldots, X_{(n)}-\bar{X}. \]

A mediana vai ser \(Med_X-\bar{X}\).

Na média, subtraindo \(\bar{X}\) de cada elemento temos

\[ \mu_{X-\bar{X}} = \sum_{i=1}^n (X_i-\bar{X})/n = \sum_{i=1}^n X_i/n -(\bar{X} n)/ n = \mu_X -\bar{X} = 0. \]

No desvio padrão, subtraindo $\bar{X}$ aos elementos temos

\[ \sigma_{X-\bar{X}} = \sqrt{\sum_{i=1}^n (X_i-\bar{X} - \mu_{X-\bar{X}})^2/n} = \sqrt{\sum_{i=1}^n (X_i -\bar{X} - (\mu_{X} - \bar{X}))^2/n} =\sigma_X. \]

(d) de cada observação subtrai-se \(\bar{X}\) e divide-se pelo desvio padrão dp(x)?

Fazendo as contas analogamente:

\[ \mbox{Med}_{\frac{X-\bar{X}}{\sigma}} = \frac{(\mbox{Med}_X - \bar{X})}{\sigma}, \]

\[ \mu_{\frac{X-\bar{X}}{\sigma}} = 0\quad \mbox{ e} \]

\[ \sigma_{\frac{X-\bar{X}}{\sigma}} = 1. \]

(B&M) Cap 3: exercício 33

Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo:

cidade = c('A','B','C','D','E','F','G','H','I','J')
investimento = c(20, 16, 14, 8, 19, 15, 14, 16, 19, 18)

Nesse caso, será considerado como investimento básico a média final das observações, calculada da seguinte maneira:

1. Obtém-se uma média inicial.

2. Eliminam-se do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão, ou inferiores à média inicial menos duas vezes o desvio padrão.

3. Calcula-se a média final com o novo conjunto de observações. Qual o investimento básico que você daria como resposta?

m = mean(investimento)
n = length(investimento)
x = ifelse(abs(investimento -m) < 2*sd(investimento)*(n-1)/n, investimento, NA)
mean(na.omit(x))
[1] 16.77778

O investimento básico é 16,78.

(B&M) Cap 3: exercício 37

Usando os dados da variável qualitativa região de procedência, da Tabela 2.1, transforme-a na variável quantitativa X, definida do seguinte modo: X = 1, se a região de procedência for capital; 0, se a região de procedência for interior ou outra.

(a) Calcule \(\bar{X}\) e \(var(X)\). Resposta no código abaixo.

(b) Qual a interpretação de \(\bar{X}\)? \(\bar{X}\) é a proporção de pessoas que vivem no interior, 33%.

(c) Construa um histograma para X.

O gráfico correto para essa variável é o gráfico de barras para a frequência de zeros e uns.

dados = tab2_1

ones = ifelse(tab2_1$reg_procedencia=='interior',1,0)

# (a) e (b)
mean(ones)
[1] 0.3333333
var(ones)
[1] 0.2285714
# (c)
hist(ones, main='Histograma', ylab='Frequência')

barplot(prop.table(table(ones)), main='Gráfico de barras', ylab='Proporção')

(Agresti e Finlay) Cap. 3: exercício 6

Provavelmente o exercício refere-se ao PIB per capita.

data(oecd.data) 

# (a) PIB (em milhares de dólares)
PIB = round(oecd.data$GDP/1000)
stem(PIB, scale=2)

  The decimal point is 1 digit(s) to the right of the |

  2 | 02358899
  3 | 0001112223389
  4 | 0
  5 | 
  6 | 
  7 | 0
# (b) Histograma
hist(PIB, main='PIB', xlab='Milhares de dólares',
     ylab='Frequência', breaks = c(10,20,30,40,50,60,70), right = F)

# (c) Boxplot
boxplot(PIB)

# Valores discrepantes: maiores PIBs
ord = order(PIB, decreasing = T)
vd = PIB[ord[c(1,2,3)]]
vd
[1] 70 40 39
paises = oecd.data$nation[ord[c(1,2,3)]]
paises
[1] Luxembourg    United-States Ireland      
23 Levels: Australia Austria Belgium Canada Denmark Finland France ... United-States
# Valores discrepantes: menores PIBs
ord = order(PIB, decreasing = F)
vd = PIB[ord[c(1,2)]]
vd
[1] 20 22
paises = oecd.data$nation[ord[c(1,2)]]
paises
[1] Portugal Greece  
23 Levels: Australia Austria Belgium Canada Denmark Finland France ... United-States

(Agresti e Finlay) Cap. 3: exercício 12

al = c(48, 58, 52, 50, 62, 40, 51, 44, 45, 68, 55)
eo = c(66, 67, 63, 85, 87, 78, 71, 60, 54, 60, 58, 68, 86, 72, 58, 90, 76)

stem(al)

  The decimal point is 1 digit(s) to the right of the |

  4 | 0458
  5 | 01258
  6 | 28
stem(eo)

  The decimal point is 1 digit(s) to the right of the |

  5 | 488
  6 | 003678
  7 | 1268
  8 | 567
  9 | 0
boxplot(al, eo, names=c('América\n Latina','Europa\n Ocidental'), ylab='Frequência')

Podemos afirmar que a distribuição dos empregos das mulheres frente aos homens na Europa Ocidental é bem superior que na América Latina.

(Agresti e Finlay) Cap. 3: exercício 40

África = c(54, 76, 81, 101, 154)
Europa = c(3, 4, 4, 4, 5)
boxplot(África, Europa, names=c('África','Europa\n Ocidental'), ylab='Taxa de mortalidade infantil')

Nota-se pelos Boxplots que a variação das taxas de mortalidade infantil na Europa Ocidental é muito baixa, indicando proximidade entre os países da região, e a média e mediana das taxas de mortalidade são muito inferiores que as da África.

(Agresti e Finlay) Cap. 3: exercício 46

Anulada.

(Agresti e Finlay) Cap. 3: exercício 48

(a)

Variável resposta: Felicidade.

Variável explicativa: Comparecimento a cultos religiosos.

(b)

# Quase toda semana
200/449
[1] 0.4454343
# Nunca ou menos do que uma vez ao ano
72/320
[1] 0.225

(c) Sim. Parece que quanto mais comparecimento a cultos religiosos maior a proporção de declaração de felicidade.

(Agresti e Finlay) Cap. 3: exercício 78

(a) Média = 57+20 = 77 e desvio padrão igual a 20.

(b) Média = 2*100.000 = 200.0000 libras e desvio padrão em libras é igual a duas vezes o desvio padrão em dólares.

(c) Média em milhas igual a 1,6 vezes a média em quilômetros e o desvio padrão em milhas é 1,6 vezes o desvio padrão em quilômetros.