Parte 1
Questão 1
a) Construa um vetor com os 8 primeiros dígitos da sua
matrícula
Questão 2
a) Crie uma sequência com os números de 1 a 40, salve em um vetor
com o nome de x.
b) Crie outra sequência com os números pares de 1 a 40, seguido dos
números ímpares de 1 a 40, salve em um vetor com o nome de y.
c) Crie um data frame cuja primeira coluna é o vetor x (nomeie essa
coluna de x) e cuja segunda coluna é o vetor y (nomeie essa coluna de
y).
Questão 3:
a) Crie o vetor a seguir com 1 observação faltante (NA): x = 10, 20,
30, NA.
b) Calcule a média do vetor e explique o resultado obtido.
c) Leia o help da função mean e corrija o resultado da letra b) para
ser numérico.
# Item a):
x <- c(10,20,30,NA)
# Item b):
media_vetor_x <- mean(x)
Comentários: Não foi obtido um resultado numérico
pois há um valor ausente presente no vetor.
# Item c):
# Usando a documentação para retornar o valor numérico corretamente:
media_vetor_X <- mean(x, na.rm = TRUE)
# A função mean tem o argumento 'na.rm' que, quando definido como TRUE, remove os valores ausentes antes de calcular a média.
# Apresentando a média:
media_vetor_X
## [1] 20

O R disponibiliza diversos bancos de dados. Nesta lista
trabalharemos com o banco de dados airquality disponível no R (ou seja,
basta digitar airquality para visualizar o objeto). Leia o help do
airquality para aprender o contexto das variáveis e, em seguida,
responda as perguntas a seguir de forma sequencial (ou seja, faça a
questão 2 considerando o resultado da questão 1, e as questões
subsequentes utilizando o resultado de todas anteriores a
ela).
1. Altere o nome de todas as variáveis do banco de dados
para o português.
# Salvando primeiramente os dados em um novo dataset:
dados <- airquality
# Verificando as linhas iniciais do dataset:
dados[1:6,]
## Ozone Solar.R Wind Temp Month Day
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
# Alterando de fato o nome de todas as variáveis:
names(dados) <- c("Ozonio","Radiacao_solar","Vento","Temperatura","Mes","Dia")
# Observando a mudança:
head(dados)
## Ozonio Radiacao_solar Vento Temperatura Mes Dia
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
# (Opção 2):
colnames(dados) <- c("Ozonio","Radiacao_solar","Vento","Temperatura","Mes","Dia")
# Verificando:
head(dados)
## Ozonio Radiacao_solar Vento Temperatura Mes Dia
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
Aplicações Estatísticas

9. Há alguma relação entre as variáveis Temperatura e Ozonio
? Ou seja, há relação entre a temperatura e o Ozônio
médio?
# Efetuando o cálculo da correlação:
correlacoes_ozonio_temp <- cor(dados$Ozonio,dados$Temperatura, use = "complete.obs")
# Exibindo:
correlacoes_ozonio_temp
## [1] 0.6983603
# Visualização com um gráfico de dispersão:
# Carregamendo do pacote necessário:
library(tidyverse)
dados %>%
ggplot(aes(x = Ozonio, y = Temperatura)) +
geom_point(color = "skyblue", alpha = 0.8) +
geom_smooth(method = "lm", color = "red") +
ggtitle("Relação entre o Ozônio médio e a temperatura") +
xlab("Ozônio") + ylab("Temperatura")

Comentários: O coeficiente de correlação de Pearson
entre as variáveis Ozone e Temp é aproximadamente 0.698. Isso indica uma
correlação positiva moderada a forte entre as duas variáveis. A
correlação positiva significa que, em geral, quando a concentração de
ozônio (Ozone) aumenta, a temperatura (Temp) também tende a aumentar. A
linha de regressão adicionada reforça a observação de que há uma relação
linear positiva entre a concentração de ozônio e a temperatura.
Medidas de Associação Linear: Exemplo detalhado
explicando a correlação linear

Análise de Correlação: Interesse em mensurar a
“Força” da associação entre as variáveis.
Diagrama de Dispersão: Um diagrama de dispersão
mostra a relação entre duas variáveis quantitativas. Os valores de uma
variável aparecem no eixo horizontal (x), e os da outra, no eixo
vertical (y). Exemplo: tempo de estudo e nota da prova de
estatística.
# Criando um dataframe com os dados:
dados_exemplo_correlacao <- data.frame(
Tempo_estudo_horas = c(3, 3.5,4,5, 7, 8, 9, 11, 12),
Nota = c(4, 3.5, 7, 6.5, 4.7, 8, 7.7, 8.5, 9.8)
)
# Exibindo:
dados_exemplo_correlacao
## Tempo_estudo_horas Nota
## 1 3.0 4.0
## 2 3.5 3.5
## 3 4.0 7.0
## 4 5.0 6.5
## 5 7.0 4.7
## 6 8.0 8.0
## 7 9.0 7.7
## 8 11.0 8.5
## 9 12.0 9.8
# Gráfico de Dispersão para visualização:
dados_exemplo_correlacao %>%
ggplot(aes(x= Tempo_estudo_horas, y = Nota)) +
geom_point(color= "red") + ggtitle("Relação entre horas de estudo e notas de estatística") + xlab("Tempo de Estudo em Horas") + ylab("Nota")

Comentários: O gráfico demonstra claramente que os
alunos que dedicam mais horas aos estudos tendem a obter notas mais
altas. Isso indica uma relação diretamente proporcional entre o tempo de
estudo e as notas em estatística: quanto maior o tempo de estudo,
melhores são as notas. No entanto, é importante ressaltar que o gráfico
pode nos enganar visualmente em algumas situações. Portanto, é essencial
complementar essa análise visual com medidas numéricas para obter uma
compreensão mais precisa e confiável da relação entre essas
variáveis.