dados = read_csv(here::here("data/sat-gpa.csv"),
col_types = cols(
math_SAT = col_double(),
verb_SAT = col_double(),
comp_GPA = col_double(),
univ_GPA = col_double()
)
)
Antes de fazer qualquer quantificação, descreva a amostra que você tem e faça EDA dela.
Descreva as distribuições de quaisquer variáveis que você vá usar. Para cada uma descreva (a) concentração/dispersão, (b) simetria, (c) caudas e (d) valores extremos.
Use visualizações e texto. O que mostra melhor os seus dados? Boxplots? Histogramas? Densidade + rugs?
Variável math_SAT
dados %>%
ggplot(mapping = aes(x = math_SAT, y= "")) +
geom_point(alpha = .6, color = "coral" ) +
geom_jitter(height = .5, alpha = .6, color = "coral")
dados %>%
ggplot(mapping = aes(x = math_SAT)) +
geom_histogram(binwidth = 20) +
labs (
x ="Nota em Matemática",
y = "Quantidade"
)
hist(dados$math_SAT, breaks = 10, xlab = "Nota em Matemática", ylab = "Frequencia", main= "Hitograma math_SAT")
boxplot(dados$math_SAT, main = "math_SAT")
range(dados$math_SAT)
## [1] 516 718
sd(dados$math_SAT)
## [1] 53.76045
mean(dados$math_SAT)
## [1] 623.0762
As evidências apontam que a distribuição da nota de matemática é assimétrica, com amplitude de 516 até 718 e desvio padrão de 53,76, com média de 623 e não apresenta outlier
Variável verb_SAT
dados %>%
ggplot(mapping = aes(x = verb_SAT, y= "")) +
geom_point(alpha = .6, color = "coral" ) +
geom_jitter(height = .5, alpha = .6, color = "coral")
dados %>%
ggplot(mapping = aes(x = verb_SAT)) +
geom_histogram(binwidth = 20) +
labs (
x ="Nota em Português",
y = "Frequência"
)
hist(dados$verb_SAT, breaks = 10, xlab = "Nota em Português", ylab = "Frequencia", main= "Hitograma verb_SAT")
boxplot(dados$verb_SAT, main = "verb_SAT")
range(dados$verb_SAT)
## [1] 480 732
sd(dados$verb_SAT)
## [1] 62.9636
mean(dados$verb_SAT)
## [1] 598.6
As evidências apontam que a distribuição da nota em portugues é assimétrica, com amplitude de 480 até 732 e desvio padrão de 62,96, com média 598 apresenta pontos extremos
dados %>%
ggplot(mapping = aes(x = comp_GPA, y= "")) +
geom_point(alpha = .6, color = "coral" ) +
geom_jitter(height = .5, alpha = .6, color = "coral")
dados %>%
ggplot(mapping = aes(x = comp_GPA)) +
geom_histogram(binwidth = .6) +
labs (
x ="Nota em Computação",
y = "Quantidade"
)
hist(dados$comp_GPA, breaks = 10, xlab = "Nota em Computação", ylab = "Frequencia", main= "Hitograma comp_GPA")
boxplot(dados$comp_GPA, main = "comp_GPA")
range(dados$comp_GPA)
## [1] 2.03 4.00
sd(dados$comp_GPA)
## [1] 0.5090459
mean(dados$comp_GPA)
## [1] 3.128
As evidências apontam que a distribuição da nota em computação é assimétrica, com amplitude de 2 até 4 e desvio padrão de 0.5, com média 3.12 e não apresenta pontos extremos
dados %>%
ggplot(mapping = aes(x = univ_GPA, y= "")) +
geom_point(alpha = .6, color = "coral" ) +
geom_jitter(height = .5, alpha = .6, color = "coral")
dados %>%
ggplot(mapping = aes(x = univ_GPA)) +
geom_histogram(binwidth = .6) +
labs (
x ="Nota Geral",
y = "Quantidade"
)
hist(dados$univ_GPA, breaks = 10, xlab = "Nota Geral", ylab = "Frequencia", main= "Hitograma univ_GPA")
boxplot(dados$univ_GPA, main = "univ_GPA")
range(dados$univ_GPA)
## [1] 2.08 3.81
sd(dados$univ_GPA)
## [1] 0.4471936
mean(dados$univ_GPA)
## [1] 3.172857
As evidências apontam que a distribuição da nota em computação é assimétrica, com amplitude de 2 até 3.8 e desvio padrão de 0.44, com média 3.17 e apresenta outliers com observações que tem notas muito baixas
Se você analisará correlação, examine o gráfico de dispersão na amostra e comente sinal, intensidade, formato e pontos extremos na relação. Se você quantificar correlação, escolha um coeficiente e justifique.
dados %>%
ggplot(mapping = aes (x= math_SAT, y = comp_GPA)) +
geom_point() +
labs (
x = "Nota em matemática",
y = "Nota em computação"
)
dados %>%
ggplot(mapping = aes (x= verb_SAT, y = comp_GPA)) +
geom_point() +
labs (
x = "Nota em português",
y = "Nota em computação"
)
corr_matematica = cor(dados$math_SAT, dados$comp_GPA, method="pearson")
corr_portugues = cor(dados$verb_SAT, dados$comp_GPA, method="pearson")
corr_matematica
## [1] 0.6877209
corr_portugues
## [1] 0.6387512
Existe uma correlação positiva média entre a nota de matemática e nota de computação (0.68); e entre a nota de portugues e a nota de computação (0.63), foi escolhido o coeficiente de Pearson
Para cada pergunta que você responderá com inferência, diga explicitamente qual é o efeito de interesse. É uma média? Mediana? Diferença de médias? Coeficiente de correlação?
O Efeito do interesse é a correlação entre mat e comp | port e comp
Para cada inferência, comente o intervalo obtido. Lembre-se de levar em conta todo o intervalo para chegar a conclusões e comente se os valores são altos, baixos, irrelevantes, pequenos, médios, grandes, etc. Ajude quem está lendo a entender como você chegou no seu julgamento de relevância.
Os valores encontrados entre as correlações foi irrelevante, cheguei a esse julgamento analisando o IC das correlações, diminuindo um pelo outro.
Para cada inferência use visualização e texto para apresentar e interpretar seus resultados
Sim existe uma correlação um pouco maior entre matematica e computação. Essa é uma diferença pequena
s <- function(d, i) {
sumarizado = d %>%
slice(i) %>%
summarise(corr_pearson = cor(math_SAT, comp_GPA, method = "pearson"))
sumarizado %>%
pull(corr_pearson)
}
s(dados, 1:(nrow(dados))) # theta_chapeu
## [1] 0.6877209
booted <- boot(data = dados,
statistic = s,
R = 2000)
ci_corr_mat_comp = tidy(booted,
conf.level = .95,
conf.method = "basic",
conf.int = TRUE)
ci_corr_mat_comp
## # A tibble: 1 x 5
## statistic bias std.error conf.low conf.high
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.688 -0.000715 0.0473 0.605 0.787
ci_corr_mat_comp %>%
ggplot(aes(
ymin = conf.low,
y = statistic,
ymax = conf.high,
x = "Correlação"
)) +
geom_linerange() +
geom_point(color = "coral", size = 2) +
scale_y_continuous(limits = c(-1, 1)) +
labs(x = "", y = "Correlação de Pearson entre matematica e computação") +
coord_flip()
Correlação entre Matemática e Computação com IC
s <- function(d, i) {
sumarizado = d %>%
slice(i) %>%
summarise(corr_pearson = cor(verb_SAT, comp_GPA, method = "pearson"))
sumarizado %>%
pull(corr_pearson)
}
s(dados, 1:(nrow(dados))) # theta_chapeu
## [1] 0.6387512
booted <- boot(data = dados,
statistic = s,
R = 2000)
ci_corr_port_comp = tidy(booted,
conf.level = .95,
conf.method = "basic",
conf.int = TRUE)
ci_corr_port_comp
## # A tibble: 1 x 5
## statistic bias std.error conf.low conf.high
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.639 -0.00102 0.0559 0.542 0.763
ci_corr_port_comp %>%
ggplot(aes(
ymin = conf.low,
y = statistic,
ymax = conf.high,
x = "Correlação"
)) +
geom_linerange() +
geom_point(color = "coral", size = 2) +
scale_y_continuous(limits = c(-1, 1)) +
labs(x = "", y = "Correlação de Pearson entre portugues e computação") +
coord_flip()
Correlação entre Portugues e Computação com IC
plot_ics = function(d) {
d %>%
ggplot(aes(
ymin = low,
y = mid,
ymax = high,
x = metodo
)) +
geom_linerange() +
geom_point(color = "coral", size = 3) +
scale_y_continuous(limits = c(-1, 1)) +
labs(x = "", y = "Comparando a diferença na correlação") +
coord_flip()
}
tribble(
~metodo, ~low, ~mid, ~high,
"mat e comp", .59, .68, .78,
"por e comp", .53, .63, .75) %>%
plot_ics()
s <- function(d, i) {
sumarizado = d %>%
slice(i) %>%
summarise(corr_pearson_verb = cor(verb_SAT, comp_GPA, method = "pearson"),
corr_pearson_math = cor(math_SAT, comp_GPA, method = "pearson"))
a = sumarizado %>% pull(corr_pearson_verb)
b = sumarizado %>% pull(corr_pearson_math)
b - a
}
s(dados, 1:(nrow(dados))) # theta_chapeu
## [1] 0.04896966
booted <- boot(data = dados,
statistic = s,
R = 2000)
ci_proporcao = tidy(booted,
conf.level = .95,
conf.method = "basic",
conf.int = TRUE)
ci_proporcao
## # A tibble: 1 x 5
## statistic bias std.error conf.low conf.high
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.0490 -0.000875 0.0360 -0.0219 0.120
ci_proporcao %>%
ggplot(aes(
ymin = conf.low,
y = statistic,
ymax = conf.high,
x = "Correlação"
)) +
geom_linerange() +
geom_point(color = "coral", size = 2) +
scale_y_continuous(limits = c(-2, 2)) +
labs(x = "", y = "Diferença entre as correlações mat e comp com port e comp") +
coord_flip()
Como a diferença é próximo a zero então não existe diferença entre as correlações