dados = read_csv(here::here("data/sat-gpa.csv"), 
                 col_types = cols(
                          math_SAT = col_double(),
                          verb_SAT = col_double(),
                          comp_GPA = col_double(),
                          univ_GPA = col_double()
                        )
                 
                 )

Antes de fazer qualquer quantificação, descreva a amostra que você tem e faça EDA dela.

Descreva as distribuições de quaisquer variáveis que você vá usar. Para cada uma descreva (a) concentração/dispersão, (b) simetria, (c) caudas e (d) valores extremos.

Use visualizações e texto. O que mostra melhor os seus dados? Boxplots? Histogramas? Densidade + rugs?

Variável math_SAT

dados %>% 
    ggplot(mapping = aes(x = math_SAT, y= "")) + 
    geom_point(alpha = .6, color = "coral" ) +
    geom_jitter(height = .5, alpha = .6, color = "coral")

dados %>% 
    ggplot(mapping = aes(x = math_SAT)) + 
    geom_histogram(binwidth = 20) + 
    labs (
        x ="Nota em Matemática",
        y = "Quantidade"
    )

hist(dados$math_SAT, breaks = 10, xlab = "Nota em Matemática", ylab = "Frequencia", main= "Hitograma math_SAT")

boxplot(dados$math_SAT, main = "math_SAT")

range(dados$math_SAT)
## [1] 516 718
sd(dados$math_SAT)
## [1] 53.76045
mean(dados$math_SAT)
## [1] 623.0762

As evidências apontam que a distribuição da nota de matemática é assimétrica, com amplitude de 516 até 718 e desvio padrão de 53,76, com média de 623 e não apresenta outlier

Variável verb_SAT

dados %>% 
    ggplot(mapping = aes(x = verb_SAT, y= "")) + 
    geom_point(alpha = .6, color = "coral" ) +
    geom_jitter(height = .5, alpha = .6, color = "coral")

dados %>% 
    ggplot(mapping = aes(x = verb_SAT)) + 
    geom_histogram(binwidth = 20) + 
    labs (
        x ="Nota em Português",
        y = "Frequência"
    )

hist(dados$verb_SAT, breaks = 10, xlab = "Nota em Português", ylab = "Frequencia", main= "Hitograma verb_SAT")

boxplot(dados$verb_SAT, main = "verb_SAT")

range(dados$verb_SAT)
## [1] 480 732
sd(dados$verb_SAT)
## [1] 62.9636
mean(dados$verb_SAT)
## [1] 598.6

As evidências apontam que a distribuição da nota em portugues é assimétrica, com amplitude de 480 até 732 e desvio padrão de 62,96, com média 598 apresenta pontos extremos

dados %>% 
    ggplot(mapping = aes(x = comp_GPA, y= "")) + 
    geom_point(alpha = .6, color = "coral" ) +
    geom_jitter(height = .5, alpha = .6, color = "coral")

dados %>% 
    ggplot(mapping = aes(x = comp_GPA)) + 
    geom_histogram(binwidth = .6) + 
    labs (
        x ="Nota em Computação",
        y = "Quantidade"
    )

hist(dados$comp_GPA, breaks = 10, xlab = "Nota em Computação", ylab = "Frequencia", main= "Hitograma comp_GPA")

boxplot(dados$comp_GPA, main = "comp_GPA")

range(dados$comp_GPA)
## [1] 2.03 4.00
sd(dados$comp_GPA)
## [1] 0.5090459
mean(dados$comp_GPA)
## [1] 3.128

As evidências apontam que a distribuição da nota em computação é assimétrica, com amplitude de 2 até 4 e desvio padrão de 0.5, com média 3.12 e não apresenta pontos extremos

dados %>% 
    ggplot(mapping = aes(x = univ_GPA, y= "")) + 
    geom_point(alpha = .6, color = "coral" ) +
    geom_jitter(height = .5, alpha = .6, color = "coral")

dados %>% 
    ggplot(mapping = aes(x = univ_GPA)) + 
    geom_histogram(binwidth = .6) + 
    labs (
        x ="Nota Geral",
        y = "Quantidade"
    )

hist(dados$univ_GPA, breaks = 10, xlab = "Nota Geral", ylab = "Frequencia", main= "Hitograma univ_GPA")

boxplot(dados$univ_GPA, main = "univ_GPA")

range(dados$univ_GPA)
## [1] 2.08 3.81
sd(dados$univ_GPA)
## [1] 0.4471936
mean(dados$univ_GPA)
## [1] 3.172857

As evidências apontam que a distribuição da nota em computação é assimétrica, com amplitude de 2 até 3.8 e desvio padrão de 0.44, com média 3.17 e apresenta outliers com observações que tem notas muito baixas

  1. Como é a correlação entre o desempenho dos alunos em cada uma das dimensões do SAT (verbal e matemática) e seu desempenho nas matérias de computação do curso?

Se você analisará correlação, examine o gráfico de dispersão na amostra e comente sinal, intensidade, formato e pontos extremos na relação. Se você quantificar correlação, escolha um coeficiente e justifique.

dados %>% 
    ggplot(mapping = aes (x= math_SAT, y = comp_GPA)) +
    geom_point() +
    labs (
        x = "Nota em matemática",
        y = "Nota em computação"
    )

dados %>% 
    ggplot(mapping = aes (x= verb_SAT, y = comp_GPA)) +
    geom_point() +
    labs (
        x = "Nota em português",
        y = "Nota em computação"
    )

corr_matematica = cor(dados$math_SAT, dados$comp_GPA, method="pearson")
corr_portugues = cor(dados$verb_SAT, dados$comp_GPA, method="pearson")

corr_matematica
## [1] 0.6877209
corr_portugues
## [1] 0.6387512

Existe uma correlação positiva média entre a nota de matemática e nota de computação (0.68); e entre a nota de portugues e a nota de computação (0.63), foi escolhido o coeficiente de Pearson

Para cada pergunta que você responderá com inferência, diga explicitamente qual é o efeito de interesse. É uma média? Mediana? Diferença de médias? Coeficiente de correlação?

O Efeito do interesse é a correlação entre mat e comp | port e comp

Para cada inferência, comente o intervalo obtido. Lembre-se de levar em conta todo o intervalo para chegar a conclusões e comente se os valores são altos, baixos, irrelevantes, pequenos, médios, grandes, etc. Ajude quem está lendo a entender como você chegou no seu julgamento de relevância.

Os valores encontrados entre as correlações foi irrelevante, cheguei a esse julgamento analisando o IC das correlações, diminuindo um pelo outro.

Para cada inferência use visualização e texto para apresentar e interpretar seus resultados

  1. Como se comparam entre si as correlações dos dois critérios do SAT com o desempenho nas matérias de Computação? Um dos critérios é claramente mais correlacionado com o desempenho nas matérias de computação que o outro? Os resultados apontam que essa diferença é grande? Pequena?

Sim existe uma correlação um pouco maior entre matematica e computação. Essa é uma diferença pequena

s <- function(d, i) {
    sumarizado = d %>% 
        slice(i) %>% 
        summarise(corr_pearson = cor(math_SAT, comp_GPA, method = "pearson"))
    
    sumarizado %>% 
      pull(corr_pearson)
}

s(dados, 1:(nrow(dados))) # theta_chapeu
## [1] 0.6877209
booted <- boot(data = dados, 
               statistic = s, 
               R = 2000)

ci_corr_mat_comp = tidy(booted, 
              conf.level = .95,
              conf.method = "basic",
              conf.int = TRUE)

ci_corr_mat_comp
## # A tibble: 1 x 5
##   statistic      bias std.error conf.low conf.high
##       <dbl>     <dbl>     <dbl>    <dbl>     <dbl>
## 1     0.688 -0.000715    0.0473    0.605     0.787
ci_corr_mat_comp %>% 
  ggplot(aes(
            ymin = conf.low,
            y = statistic,
            ymax = conf.high,
            x = "Correlação"
        )) +
        geom_linerange() +
        geom_point(color = "coral", size = 2) +
        scale_y_continuous(limits = c(-1, 1)) +
        labs(x = "", y = "Correlação de Pearson entre matematica e computação") +
        coord_flip()

Correlação entre Matemática e Computação com IC

s <- function(d, i) {
    sumarizado = d %>% 
        slice(i) %>% 
        summarise(corr_pearson = cor(verb_SAT, comp_GPA, method = "pearson"))
    
    sumarizado %>% 
      pull(corr_pearson)
}

s(dados, 1:(nrow(dados))) # theta_chapeu
## [1] 0.6387512
booted <- boot(data = dados, 
               statistic = s, 
               R = 2000)

ci_corr_port_comp = tidy(booted, 
              conf.level = .95,
              conf.method = "basic",
              conf.int = TRUE)

ci_corr_port_comp
## # A tibble: 1 x 5
##   statistic     bias std.error conf.low conf.high
##       <dbl>    <dbl>     <dbl>    <dbl>     <dbl>
## 1     0.639 -0.00102    0.0559    0.542     0.763
ci_corr_port_comp %>% 
  ggplot(aes(
            ymin = conf.low,
            y = statistic,
            ymax = conf.high,
            x = "Correlação"
        )) +
        geom_linerange() +
        geom_point(color = "coral", size = 2) +
        scale_y_continuous(limits = c(-1, 1)) +
        labs(x = "", y = "Correlação de Pearson entre portugues e computação") +
        coord_flip()

Correlação entre Portugues e Computação com IC

plot_ics = function(d) {
    d %>%
        ggplot(aes(
            ymin = low,
            y = mid,
            ymax = high,
            x = metodo
        )) +
        geom_linerange() +
        geom_point(color = "coral", size = 3) +
        scale_y_continuous(limits = c(-1, 1)) +
        labs(x = "", y = "Comparando a diferença na correlação") +
        coord_flip()
}
tribble(
    ~metodo, ~low, ~mid, ~high, 
    "mat e comp", .59, .68, .78, 
    "por e comp", .53, .63, .75) %>% 
    plot_ics()

s <- function(d, i) {
    sumarizado = d %>% 
        slice(i) %>% 
        summarise(corr_pearson_verb = cor(verb_SAT, comp_GPA, method = "pearson"), 
                  corr_pearson_math = cor(math_SAT, comp_GPA, method = "pearson"))
    
    a = sumarizado %>% pull(corr_pearson_verb)
    b = sumarizado %>% pull(corr_pearson_math)
    
    b - a
}

s(dados, 1:(nrow(dados))) # theta_chapeu
## [1] 0.04896966
booted <- boot(data = dados, 
               statistic = s, 
               R = 2000)

ci_proporcao = tidy(booted, 
              conf.level = .95,
              conf.method = "basic",
              conf.int = TRUE)

ci_proporcao
## # A tibble: 1 x 5
##   statistic      bias std.error conf.low conf.high
##       <dbl>     <dbl>     <dbl>    <dbl>     <dbl>
## 1    0.0490 -0.000875    0.0360  -0.0219     0.120
ci_proporcao %>% 
  ggplot(aes(
            ymin = conf.low,
            y = statistic,
            ymax = conf.high,
            x = "Correlação"
        )) +
        geom_linerange() +
        geom_point(color = "coral", size = 2) +
        scale_y_continuous(limits = c(-2, 2)) +
        labs(x = "", y = "Diferença entre as correlações  mat e comp com port e comp") +
        coord_flip()

Como a diferença é próximo a zero então não existe diferença entre as correlações