0.1 Quatro diferentes tipos de bebidas são vendidas em uma lanchonete: refrigerante, chá, café e água mineral.
0.1.1 Explique a razão pela qual o tipo de bebida vendida é um exemplo de uma variável categórica.
Existem dois tipos de variáveis estatísticas: numéricas e categóricas. As variáveis numéricas permitem operações matemáticas diretamente nos seus valores, o que não é o caso dos valores elencados para as variáveis acima. Na lista de valores possíveis, temos apenas categorias de bebidas. Tratando-se portanto de variável categórica. Um exemplo de variável numérica nesta questão seria avaliar o volume vendido (em mililitros ou outra unidade de medida coerente) de cada uma dessas categorias de bebidas.
0.1.2 Explique a razão pela qual o tipo de bebida vendida é um exemplo de uma variável de escala nominal.
As variáveis categóricas em estatística dividem-se em dois grupos: As ordinais e as nominais. As variáveis categóricas ordinais carregam uma ideia de ordem, podendo ser classificadas de forma crescente ou decrescente. A lista de valores listados acima não apresenta a ideia de ordem. As variáveis categóricas nominais apresentam categorias sem relação de ordem entre si, como a lista de bebidas acima.
0.2 Classificar as variáveis a seguir segundo as seguintes escalas: nominal, ordinal, binária, discreta ou contínua.
- Faturamento da empresa: Contínua
- Ranking de desempenho: bom, médio e ruim: Ordinal
- Tempo de processamento de uma peça: Contínua
- Número de carros vendidos: Discreta
- Distância percorrida em km; Contínua
- Municípios da Bahia: Nominal
- Faixa de renda: Ordinal
- Temperatura do ar: Contínua
- Horas trabalhadas: Contínua
- Tamanho da organização: pequeno; médio e grande porte: Ordinal
- Reserva ambiental ameaçada: Sim, Não. Binária
0.3 Qual a diferença entre variáveis discretas e contínuas?
Ambas são variáveis numéricas. As Contínuas são representadas por valores pertencentes aos números reais, podendo assumir valores não inteiros. Também são associadas às unidades de medida e suas medições (e.g. distância em km entre duas cidades). As discretas não podem assumir valores intermediários entre números. São mais comumente associadas aos números inteiros e a ideia de contagem (e.g. número de filhos de uma pessoa).
0.4 Os dados do arquivo denominado “notasEst.csv” são relativos às notas de 30 alunos matriculados na disciplina Estatística Aplicada. Com os conhecimentos adquiridos no curso de Estatística descritiva, construa uma tabela de distribuição de frequência para os dados em questão (frequências absolutas e relativas). Analise os resultados encontrados e represente graficamente por meio do histograma.
notas <- read.csv('./data_01/notasEst.csv', header = TRUE, sep =';', dec = ',')
# forçado a leitura como numérico contínua
notas <- as.numeric(do.call(cbind,notas))
df_notas <- as.data.frame(notas)
# número de classes pelo método de Sturges
nclass_notas <- nclass.Sturges(notas)
cat("Número de classes(Struges): ",nclass_notas)## Número de classes(Struges): 6
# categorizando pelo número de classes encontrado
Faixas <- factor(cut(notas, breaks=nclass_notas ))
df_fac_notas <- as.data.frame(Faixas)
# criando data frame com as frenquencias absolutas de cada classe
freq_tab <- as.data.frame(table(Faixas))
# adicionando as frequencias Acumulada, relativa e percentula para a tabela
freq_tab <- transform(freq_tab, "Acumulada" = cumsum(Freq), "Relativa" = prop.table(Freq))
# adicionando a frequência relatica acumulada para a tabela de frenquências
freq_tab <- transform(freq_tab, "Rel.Acum." = cumsum(Relativa), "Percentual"= Relativa *100)
# Mostrando a tabela de frequências
freq_tab %>% pander()| Faixas | Freq | Acumulada | Relativa | Rel.Acum. | Percentual |
|---|---|---|---|---|---|
| (3.49,4.38] | 4 | 4 | 0.1333 | 0.1333 | 13.33 |
| (4.38,5.27] | 9 | 13 | 0.3 | 0.4333 | 30 |
| (5.27,6.15] | 6 | 19 | 0.2 | 0.6333 | 20 |
| (6.15,7.03] | 5 | 24 | 0.1667 | 0.8 | 16.67 |
| (7.03,7.92] | 4 | 28 | 0.1333 | 0.9333 | 13.33 |
| (7.92,8.81] | 2 | 30 | 0.06667 | 1 | 6.667 |
0.4.0.1 Gráficos
ggplot(data=freq_tab, aes(x=Faixas, y=Freq, fill= Faixas)) +
geom_bar(stat="identity", width= 1) +
scale_fill_brewer(palette="Blues", name = "Faixas") +
labs(title="Gráfico de frequência",
subtitle = "Criado a partir da table de frequência",
x ="Faixas de Notas",
y = "Frequência (contagem)",
caption ="Fonte: Autor",
tag = "Figura 01"
) +
scale_y_continuous(breaks = freq_tab$Freq) +
theme_minimal()A maior concentração de notas se dá na faixa entre 4,38 e 5,27 (faixas determinadas elo método de Sturges), contendo 30% das notas. O histograma indica uma assimetria a direita.
0.5 O supermercado Barato & Fácil registrou a porcentagem de perdas nos últimos 12 meses e, a partir daí,adotará novas medidas de prevenção. Construa um gráfico de linhas e faça comentários sobre o comportamento da série temporal. (Observação: Consulte as normas de apresentação tabular).
Mes = c('Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun',
'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez')
Perdas =c( 0.42 , 0.38 ,0.12 ,0.34, 0.22, 0.15, 0.18, 0.31, 0.42, 0.24, 0.42, 0.09)
mes_num <- as.integer(seq(01,12,1))
df <- as.data.frame(cbind(Mes, mes_num, Perdas))
df$mes_num = mes_num
df$Perdas <- as.numeric(Perdas)
head(df, 12)## Mes mes_num Perdas
## 1 Jan 1 0.42
## 2 Fev 2 0.38
## 3 Mar 3 0.12
## 4 Abr 4 0.34
## 5 Mai 5 0.22
## 6 Jun 6 0.15
## 7 Jul 7 0.18
## 8 Ago 8 0.31
## 9 Set 9 0.42
## 10 Out 10 0.24
## 11 Nov 11 0.42
## 12 Dez 12 0.09
df %>% select(Mes, Perdas) %>%
pander()| Mes | Perdas |
|---|---|
| Jan | 0.42 |
| Fev | 0.38 |
| Mar | 0.12 |
| Abr | 0.34 |
| Mai | 0.22 |
| Jun | 0.15 |
| Jul | 0.18 |
| Ago | 0.31 |
| Set | 0.42 |
| Out | 0.24 |
| Nov | 0.42 |
| Dez | 0.09 |
table_q5_2 <- summary(df['Perdas']); table_q5_2## Perdas
## Min. :0.0900
## 1st Qu.:0.1725
## Median :0.2750
## Mean :0.2742
## 3rd Qu.:0.3900
## Max. :0.4200
matchingList = list("n", "sd", "trimmed" , "mad", "range","skew", "kurtosis" ,"se")
table_aux <- select(describe(df['Perdas']), "n", "sd", "trimmed" , "mad", "range","skew", "kurtosis" ,"se")
table_q5_2 <- rbind(table_q5_2, t(table_aux)); table_q5_2 ## Perdas
## "Min. :0.0900 "
## "1st Qu.:0.1725 "
## "Median :0.2750 "
## "Mean :0.2742 "
## "3rd Qu.:0.3900 "
## "Max. :0.4200 "
## n "12"
## sd "0.123100722494987"
## trimmed "0.278"
## mad "0.170499"
## range "0.33"
## skew "-0.0910201456574828"
## kurtosis "-1.71378276666197"
## se "0.0355361176349592"
table_q5_2 %>% pander()| Perdas | |
|---|---|
| Min. :0.0900 | |
| 1st Qu.:0.1725 | |
| Median :0.2750 | |
| Mean :0.2742 | |
| 3rd Qu.:0.3900 | |
| Max. :0.4200 | |
| n | 12 |
| sd | 0.123100722494987 |
| trimmed | 0.278 |
| mad | 0.170499 |
| range | 0.33 |
| skew | -0.0910201456574828 |
| kurtosis | -1.71378276666197 |
| se | 0.0355361176349592 |
glimpse(df)## Rows: 12
## Columns: 3
## $ Mes <chr> "Jan", "Fev", "Mar", "Abr", "Mai", "Jun", "Jul", "Ago", "Set",~
## $ mes_num <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
## $ Perdas <dbl> 0.42, 0.38, 0.12, 0.34, 0.22, 0.15, 0.18, 0.31, 0.42, 0.24, 0.~
ggplot(data=df, aes(x=mes_num, y=Perdas)) +
expand_limits(x=1, y=0) +
expand_limits(x=c(1,12), y=c(0, .5)) +
geom_line(size = 1.5, color = "cadetblue") +
scale_x_continuous(breaks=mes_num, labels= Mes) +
geom_point(size = 3, color = "coral2") +
labs(tag= "Figura 02", title="Perdas por mês",
subtitle = "Supermercado Barato & Fácil" ,
x ="Meses", y = "Perdas",
caption="Fonte: Autor") +
theme_minimal()A série possui uma amplitude de 0,33. Os máximos são atingidos nos meses de Janeiro, Setembro e Novembro (0,42) e o mínimo em Dezembro (0.09). Valor médio de 0,274 e mediana de 0,275. Desvio pradão de 0.12. A assimetria negativa indica assimetria a esquerda. A curtose negativa indica cuda mais leve que a curva normal.
0.6 A temperatura média, em graus Celsius, registrada durante os últimos 40 dias em Porto Alegre está listada no arquivo “temperatura.csv”. Construa o boxplot e analise o comportamento da variável objeto de estudo.
temp_PA <- read.csv('./data_01/temperatura.csv', header = TRUE, sep =';', dec = ',')
summary(temp_PA) %>%
pander()| Temperatura |
|---|
| Min. : 8.50 |
| 1st Qu.:14.00 |
| Median :16.30 |
| Mean :15.92 |
| 3rd Qu.:18.05 |
| Max. :20.50 |
ggplot(temp_PA, aes(y=Temperatura)) +
geom_boxplot(width=.5, fill = "deepskyblue3")+
labs(title="Boxplot de Temparaturas",
subtitle = "Cidade de Porto Alegre",
x ="",
y = "Temperaturas °C",
caption ="Fonte: Autor",
tag = "Figura 03"
) +
geom_hline( yintercept = mean(temp_PA$Temperatura),size=1.2, color = "red2") +
theme_minimal() + theme(aspect.ratio = 1.2)A mediana das temperaturas apresenta o valor de 16.30 °C, um pouco acima da média, 15.92 °C (marcada em vermelho na Fig. 03), a mínima desta série é de 8.5 °C e a máxima de 20.50 C, formando uma amplitude de 12. Os quartis apresentam valores de 14.00 e 18.05, o intervao inter-quartil é de 4.05. A série não apresenta pontos fora da curva pelo critério de 1.5 X o intervalo inter-quartil
0.7 Carregue a base de dados denominada “auto.csv” e resposta as seguintes itens:
auto <- read.csv('./data_01/auto.csv', header = TRUE, sep =';', dec = ',')0.7.1 Existe algum caso com informações faltantes (missing)?
colSums(is.na(auto)) %>%
pander(style = "simple")| make | price | mpg | rep78 | headroom | trunk | weight | length | turn |
|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 0 | 5 | 0 | 0 | 0 | 0 | 0 |
| displacement | gear_ratio | foreign |
|---|---|---|
| 0 | 0 | 0 |
Existem 5 informações faltantes na coluna “rep78”.
0.7.2 Das variáveis quantitativas qual apresentou maior variabilidade relativa?
cvFuncP <- function(x){ cv<-(sd(x, na.rm=TRUE)/mean(x, na.rm=TRUE))*100; return(cv) }
cvFunc <- function(x){ cv<-(sd(x, na.rm=TRUE)/mean(x, na.rm=TRUE)); return(cv) }
auto_quant <- auto %>% select(2:11)
auto_cv <- auto_quant %>% sapply( cvFunc)
auto_cv %>%
pander()| price | mpg | rep78 | headroom | trunk | weight | length | turn |
|---|---|---|---|---|---|---|---|
| 0.4784 | 0.2717 | 0.2907 | 0.2826 | 0.3109 | 0.2574 | 0.1185 | 0.111 |
| displacement | gear_ratio |
|---|---|
| 0.4655 | 0.1513 |
cat("A variável com maior variabilidade relativa é: ",
names(auto_cv[as.integer(which.max(auto_cv))]) )## A variável com maior variabilidade relativa é: price
0.7.3 Construa o histograma da variável gear_ratio (razão da engrenagem do câmbio). Pode-se afirmar que essa variável se comporta como uma normal (Dica execute o teste de normalidade de Shapiro-Wilk implementado na linguagem R)?
auto$gear_ratio %>% shapiro.test() %>% pander() # se p < alfa, rejeita-se a normalidade| Test statistic | P value |
|---|---|
| 0.9545 | 0.009533 * * |
hist(auto$gear_ratio, main = 'Histograma: razão da engrenagem do câmbio',
xlab = 'Razão da engrenagem do câmbio',
ylab = 'Frequência')
Com o valor de p = 0.009533 rejeita-se a normaliade da variável. A análise do histograma também corrobora para não tratar os dados como normais.
0.7.4 Determine as medidas de posição (média, moda e mediana) e dispersão (desvio padrão e coeficiente de variação) da variável weight (peso), considerando o fator (foreign). Analise os resultados encontrados.
getMode <- function(x){
keys <- unique(x)
keys[which.max(tabulate(match(x, keys)))]
}
tabela_f <- auto %>% group_by(foreign) %>%
summarise(
media = mean(weight),
mediana = median(weight),
moda = getMode(weight),
s_dev = sd(weight),
cv = cvFunc(weight)
)
tabela_f %>% pander()| foreign | media | mediana | moda | s_dev | cv |
|---|---|---|---|---|---|
| Domestic | 3317 | 3360 | 3690 | 695.4 | 0.2096 |
| Foreign | 2316 | 2180 | 2830 | 433 | 0.187 |
0.8 Para cada uma das variáveis a seguir, determine se a variável é categórica ou numérica. Se a variável for numérica, determine se a variável é discreta ou contínua.
0.8.1 Número de telefones celulares em um domicílio;
Categórica.
0.8.2 Consumo de dados mensal (em MB);
Numérica e contínua.
0.8.3 Número de mensagens de texto trocados por mês;
Numérica e discreta.
0.8.4 Se o telefone for celular, é ou não, usado para troca de mensagens de correio eletrônico.
Categórica.
0.9 O diretor de pesquisas de mercado de uma grande cadeia de lojas de departamento deseja conduzir uma pesquisa com a abrangência de toda uma área metropolitana, no intuito de determinar a quantidade de tempo que mulheres que trabalham fora gastam com a compra de vestuário, ao logo de um mês típico.
0.9.1 Descreva a população e a amostra de interesse, e indique o tipo de dados que o diretor desejaria coletar;
População: Mulheres, moradoras da área metropolitana objeto da pesquisa, que trabalhem fora de casa.
Caracteristicas destas consumidoras (idade, renda, nível de escolaridade…). Perfis de consumo (frequência, quantidade, gasto mensal, tipo de estabalecimanto que constuma fazer compras …)
0.9.2 Desenvolva um primeiro esboço para o questionário necessário em (a), redigindo três perguntas categóricas e três perguntas numéricas, que você imagina apropriada para essa pesquisa.
-
Onde você costuma compara roupas?
- Lojas de rua
- Lojas de shopping
- Lojas online
- outros
-
Quando você costuma fazer compras?
- Antes do trabalho
- Em intervalos do trabalho (como na hora do almoço)
- depois do trabalho
- em fins de semana ou dias de folga
- Qual a seu nível de escolaridade? Opçoes de nível de escolaridade contendo as opções completo e incompleto para cada nivel
- Quantos anos você tem?
- Quantas peças de roupa você costuma comprar por mês?
- Quanto você costuma gastar com vestuário por mês?
0.10 Uma entre as variáveis mais frequentemente incluídas nas pesquisas é a renda. Algumas vezes, a pergunta é assim formulada: " Qual a sua renda (em reais)?" Em outras pesquisas, solicita-se ao entrevistado que " Coloque em X no círculo correspondente ao seu nível de renda", e são fornecidas várias faixas de rendas para que ele opte por uma delas. Qual desses dois formatos você preferiria utilizar caso estivesse conduzindo uma pesquisa? Por quê?
A variável renda é um dado muito sensível, contracheques, informes de rendimento e declarações de ganhos são dados sigilosos e protegidos. neste sentido, o questionário por faixa de renda pode ser mais eficiente, desde que as faixas sejam estabelecidas com critérios convincentes (faixas de renda das classes A, B, C, D e E).
0.11 O arquivo “servicos.csv” contém dados correspondentes ao custo do fornecimento de energia elétrica (em R$), durante o mês de julho de 2020, para uma amostra aleatória de 50 apartamentos com um quarto, em uma cidade do interior da Bahia.
serv <- read.csv('./data_01/servicos.csv', header = TRUE, sep =';', dec = ',')
head(serv)## Tarifa.Cobrada.pelo.Servico
## 1 96
## 2 171
## 3 202
## 4 178
## 5 147
## 6 102
0.11.1 Represente com o histograma a variável objeto do estudo;
hist(serv$Tarifa.Cobrada.pelo.Servico,
main = 'Histograma da tariva do serviço de eletricidade',
xlab = 'Tarifa em R$',
ylab = 'Frequência')0.11.2 Em torno de que montante o custo mensal com energia elétrica parece estar concentrado?
summary(serv$Tarifa.Cobrada.pelo.Servico)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 82.0 127.2 148.5 147.1 167.8 213.0
Aproximandamente R$ 150,00
0.12 Um operadora de uma usina diz respeito ao cortar fragmentos de aço em pedaços que serão posteriormente utilizados com estrutura para assentos dianteiros em automóveis. O aço é cortado com uma serra de diamantes e requer que as peças resultantes estejam entre mais ou menos 0,005 polegadas em relação ao comprimento especificado pela empresa montadora de automóveis. Os dados são coletados a partir de uma amostra de 100 peças de aço e armazenados no arquivo “aco.csv”. A medição apresentada corresponde à diferença, em polegadas, entre o comprimento verdadeiro do pedaço de aço, conforme medição feita por um dispositivo de mensuração a laser, e o comprimento especificado para a peça de aço. Por exemplo, o primeiro valor, -0,002, representa um pedaço de é 0,002 polegada mais curto do que o comprimento especificado.
aco <- read.csv('./data_01/aco.csv', header = TRUE, sep =';', dec = ',')
summary(aco$Erro)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.00300 -0.00150 0.00000 -0.00023 0.00100 0.00500
head(aco)## Erro
## 1 -0.0020
## 2 0.0005
## 3 0.0025
## 4 0.0010
## 5 0.0020
## 6 0.0010
0.12.1 Represente graficamente com o histograma a variável de interesse;
hist(aco$Erro,
main = 'Histograma das diferenças no corte do aço',
xlab = 'Erro em polegadas', ylab = 'Frequência')0.12.2 A usina de aço está realizando um bom trabalho no que diz respeito a atender aos requisitos estabelecidos pela montadora de automóveis? Explique.
Sim, nenhuma das amostras tem erro acima do espcificado. Ale disso, temos a mediana com valor zero e ocilações muito pequenas no intervalo inter-quartil. (de -0.0015 à 0.001).
0.13 O arquivo “refrigerante.csv” contém dados relativos à quantidade de refrigerantes (em litros) contida em uma amostra com 50 garrafas com capacidade de 2 litros. O setor de controle de qualidade estabelece como padrão de qualidade uma variabilidade relativa em torno da média de 3%.
refri <- read.csv('./data_01/refrigerante.csv', header = TRUE, sep =';', dec = ',')
summary(refri)## Quantidade
## Min. :1.894
## 1st Qu.:1.970
## Median :2.004
## Mean :2.001
## 3rd Qu.:2.028
## Max. :2.109
head(refri)## Quantidade
## 1 2.109
## 2 2.086
## 3 2.066
## 4 2.075
## 5 2.065
## 6 2.057
0.13.1 Determine a média da quantidade de refrigerante e a variabilidade relativa (desvio/média).
cv <- cvFunc(refri$Quantidade)
md <- mean(refri$Quantidade)
cat(" A média da quantidade de refrigerante em cada garrafa da amostra é de ",
md,
"l.\nA variabilidade relativa é de ", cv, "%")## A média da quantidade de refrigerante em cada garrafa da amostra é de 2.00072 l.
## A variabilidade relativa é de 0.02227381 %
0.13.2 Classifique a qualidade da variável objeto do estudo (fora do padrão de qualidade ou dentro do padrão de qualidade), tendo como base o padrão estabelecido pela empresa.
Segundo as amostras estuadas, as quantdades estão abaixo do limide de 3%, portando dentro dos padrões de qualidade estabelecidos.
0.14 O arquivo “lampadas.csv” apresenta a vida útil (em horas) de uma amostra de 40 lâmpadas de 100 watts, produzidas pelo fabricante A, e uma amostra de 40 lâmpadas de 100 watts, produzidas pelo fabricante B. Com os conhecimentos adquiridos no curso de estatística aplicada responda os seguintes questionamentos:
lamp <- read.csv('./data_01/lampadas.csv', header = TRUE, sep =';', dec = ',')
summary(lamp)## Fabricante Vida_util
## Length:80 Min. : 684.0
## Class :character 1st Qu.: 898.5
## Mode :character Median : 956.5
## Mean : 964.0
## 3rd Qu.:1025.0
## Max. :1230.0
head(lamp)## Fabricante Vida_util
## 1 A 684
## 2 A 831
## 3 A 859
## 4 A 893
## 5 A 922
## 6 A 939
0.14.1 Qual fabricante apresentou menor variabilidade absoluta e relativa em torno da média?
lampAB_Group <- lamp %>% group_by(Fabricante)
lampAB <- lampAB_Group %>% summarise(
media = mean(Vida_util),
variancia = var(Vida_util),
desvio_pad = sd(Vida_util),
variab_relativa = cvFunc(Vida_util),
assim = skewness(Vida_util),
curtose = kurtosis(Vida_util)
)
lampAB %>% pander()| Fabricante | media | variancia | desvio_pad | variab_relativa | assim | curtose |
|---|---|---|---|---|---|---|
| A | 909.6 | 8893 | 94.31 | 0.1037 | -0.3789 | 3.18 |
| B | 1018 | 9390 | 96.9 | 0.09516 | 0.0798 | 2.485 |
O fabricante A apresentou menor variabilidade absoluta, o Fabricante B apresentou menor variabilidade relativa
0.14.2 Qual fabricante obteve dados mais próximo da simetria?
O fabricante “B” teve dados mais próximos da simetria.
0.15 O arquivo “SUV.csv” contém os dados gerais relativos a consumo em milhas por galão (MPG) para veículos utilitários esportivos (SUV) de pequeno porte, fabricados em 2012:
SUV <- read.csv('./data_01/SUV.csv', header = TRUE, sep =';', dec = ',')
head(SUV)## MPG
## 1 20
## 2 22
## 3 23
## 4 22
## 5 23
## 6 22
0.15.1 Determine as seguintes medidas descritivas: Média, mediana e moda. Analise os resultados encontrados;
summary(SUV$MPG)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 16.00 21.00 22.00 21.61 22.75 26.00
getMode(SUV$MPG)## [1] 22
A mediana e a moda tem o mesmo valor (22) a média tem um valor um valor um pouco menor (21.61), ainda assim bem próximo do valor das outras medidas de tendência central.
0.15.2 Os dados são assimétricos? Em caso afirmativo, qual a direção da assimetria?
skewness(SUV$MPG)## [1] -0.6505124
Assimetria negativa, direção esquerda.
0.16 O arquivo “parceiros.csv” contém o número de parceiros em um consórcio de empresas contáveis ainda em fase de crescimento, com menos de 225 empregados, que tenham sido identificadas como “empresas a se observar”. As empresas possuem os seguintes números de parceiros:
parceriros <- read.csv('./data_01/parceiros.csv', header = TRUE, sep =';', dec = ',')
parceriros %>% pander()| N_parceiros |
|---|
| 24 |
| 32 |
| 12 |
| 13 |
| 29 |
| 30 |
| 26 |
| 17 |
| 15 |
| 21 |
| 23 |
| 21 |
| 19 |
| 30 |
| 14 |
| 9 |
| 30 |
| 17 |
0.16.1 Calcule a média, a mediana e a moda;
med <- mean(parceriros$N_parceiros)
mediana <- median(parceriros$N_parceiros)
moda <- getMode(parceriros$N_parceiros)
cat("Média: ", med, "\nMediana: ",mediana, "\nModa: ", moda )## Média: 21.22222
## Mediana: 21
## Moda: 30
0.16.2 Calcule o desvio padrão, a amplitude total, o coeficiente de variação e os escores Z. Existe algum valor extremo (outlier)? Explique.
desvio_pad <- sd(parceriros$N_parceiros)
amp <- max(parceriros$N_parceiros) - min(parceriros$N_parceiros)
cv <- cvFunc(parceriros$N_parceiros)
z_scores <- (parceriros$N_parceiros - med)/desvio_pad
cat("Desvio Padrão: ", desvio_pad,
"\nAmplitude: ",amp,
"\nCoeficiente de variação: ",cv ,
"\n")## Desvio Padrão: 7.174756
## Amplitude: 23
## Coeficiente de variação: 0.3380775
data.frame(z_scores) %>% pander()| z_scores |
|---|
| 0.3872 |
| 1.502 |
| -1.285 |
| -1.146 |
| 1.084 |
| 1.223 |
| 0.6659 |
| -0.5885 |
| -0.8672 |
| -0.03097 |
| 0.2478 |
| -0.03097 |
| -0.3097 |
| 1.223 |
| -1.007 |
| -1.704 |
| 1.223 |
| -0.5885 |
cat("Escore Z máximo: ", max(z_scores), "Escore z mínimo: ", min(z_scores))## Escore Z máximo: 1.50218 Escore z mínimo: -1.703504
Pelo critério de definição de outliers do escore z, como não exitem valores maiores que 3, nem menores que -3, não existem valores extremos na série.
0.17 O gerente de operações de uma indústria que fabrica pneus deseja comparar o diâmetro interno real correspondente a dois tipos de pneus, cada um dos quais se espera que corresponda a 575 milímetros. Uma amostra com cinco pneus de cada um desses tipos foi selecionada, e os resultados, representando os diâmetros internos desses pneus, ordenados partindo do menor para o maior, são os seguintes:
Tipo_X <- c(568, 570, 575, 578, 584)
Tipo_Y <- c(573, 574, 575, 577, 578)0.17.1 Para cada um tipo de pneus, calcule a média aritmética, a mediana e o desvio padrão;
mean(Tipo_X)## [1] 575
median(Tipo_X)## [1] 575
sd(Tipo_X)## [1] 6.403124
cvFunc(Tipo_X)## [1] 0.01113587
mean(Tipo_Y)## [1] 575.4
median(Tipo_Y)## [1] 575
sd(Tipo_Y)## [1] 2.073644
cvFunc(Tipo_Y)## [1] 0.003603831
0.17.2 Qual tipo de pneu está proporcionando melhor qualidade? Explique.
Ambos tem medianas no valor de referência. Apesar da média do tipo X ser exatamente o valor de refeência e a média do tipo Y ter uma pequena diferença, o tipo Y tem apresentado menor variabilidade absoluta(desvio padrão) e relativa (coeficiente de variação), portato maior controle de qualidade
0.17.3 Qual seria o efeito em relação a suas respostas em (a) e (b), caso o último valor para Y fosse 588 em vez de 578? Explique.
Tipo_X <- c(568, 570, 575, 578, 584)
Tipo_Y2 <- c(573, 574, 575, 577, 588)
mean(Tipo_X)## [1] 575
median(Tipo_X)## [1] 575
sd(Tipo_X)## [1] 6.403124
cvFunc(Tipo_X)## [1] 0.01113587
mean(Tipo_Y2)## [1] 577.4
median(Tipo_Y2)## [1] 575
sd(Tipo_Y2)## [1] 6.107373
cvFunc(Tipo_Y2)## [1] 0.01057737
O tipo Y apresentaria um desvio padrão de 6.10, aida assim menor que o desvio padrão de X (6.40). O mesmo vale para o coeficiente de variação (0.01113587 para x e 0.01057737 para Y), embora ambons possam ser aproximados para 0,11. O tipo Y continuaria apresentando menor variabilidade. Portanto apresentando maior controle de qualidade.
0.18 A base de dados “qualidade_clima.csv” possui informações de medições diárias da qualidade do ar de Nova York, de maio a setembro de 1973. Com os conhecimentos adquiridos no curso de Estatística Aplicada I, determine as seguintes questões:
quali <- read.csv( "./data_01/qualidade_clima.csv", header = TRUE, sep =';', dec = ',')
head(quali)## Ozone Solar.R Wind Temp Month Day
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
0.18.1 Alguma variável da base de dados apresentou valores faltantes? Em caso afirmativo identifique.
colSums(is.na(quali)) %>%
pander(style = "simple")| Ozone | Solar.R | Wind | Temp | Month | Day |
|---|---|---|---|---|---|
| 37 | 7 | 0 | 0 | 0 | 0 |
Existem 37 valores faltantes na coluna “Ozone” e 7 (sete) na coluna “Solar.R”.
0.18.2 Com exceção das variáveis dia e mês, qual variável apresentou menor variabilidade relativa? Justifique.
var_relativa <- quali %>% select(1:4) %>% sapply(cvFunc)
var_relativa %>% pander()| Ozone | Solar.R | Wind | Temp |
|---|---|---|---|
| 0.783 | 0.4844 | 0.3538 | 0.1215 |
cat("A variável com menor variabilidade relativa é: ",
names(var_relativa[as.integer(which.min(var_relativa))]) )## A variável com menor variabilidade relativa é: Temp
0.18.3 Realize o teste de normalidade de Shapiro-Wilk na variável velocidade do vento. Analise o resultado encontrado.
quali$Wind %>% shapiro.test() %>% pander() # se p < alfa, rejeita-se a normalidade| Test statistic | P value |
|---|---|
| 0.9857 | 0.1178 |
Com o valor de p = 0.12 não é possível refutar a normalidade do dados.