Introdução

O relatório a seguir foi criado com o intuito de demonstrar as possiveis soluções para problemas voltados ao universo estatístico. A ferramenta de programação ultilizada para o mesmo foi o Rstudio Cloud, uma versão do Rstudio cuja maior discrepância da sua versão base é o fato de que o RstudioCloud foi desenvolvido para operar na nuvem através de computadores com internet. Como ultima menção, a fonte ultilizada para a criação deste relatório foi cedida por membros da Constat Jr através de slides muito bem informativos.

Pacote(s) ultilizado(s)

## [1] "tidyverse"

Entrando com os dados

Após ter o conjunto de dados no diretório correspondente ao ultilizados no RScloud, devemos ultilizar o comando abaixo para que o nosso software reconheça-os

dados1 <- read.csv("caschool.csv", h=T, sep=",")

Problema

Os dados disponibilizados pelo California Standardized Testing and Reporting (STAR) contêm informações sobre performance de exames, caractrísticas da escola e informações demográficas dos alunos. Os dados são provenientes de 428 escolas de ensino fundamental de distritos da Califórnia em 1998 e 1999. Os escores dos testes são as médias dos escores de leitura e matemática em testes de Stanford padronizados que foram administrados em estudantes da 5a série. Para as análises serem feitas neste exercício, consideraremos apenas as variáveis MATH-SCR (média do escore de matemática) e STR (razão do número de estudantes por professores:(ESTUD/PROF).

Letra a)

Para encontrar as medidas de tendência central(média, moda e mediana) e de dispersão(dispersão,variância e desvio padrão), os códigos ultilizados estarão cidados abaixo

Para a variável STR(razão do número de estudantes por professores) temos as seguintes medidas
require(tidyverse)
dados1 %>% 
summarise(Media = mean(str),
          Mediana = median(str),
          Moda = names(table(str))[which(table(str)==max(table(str)))],
          Dispersão = max(str) - min(str),
          Variancia = var(str),
          DesvioP = sd(str),
          Mediana = median(str),
          Coef.Variação = DesvioP * 100 / Media)
E para a variável MATH_SCR(média do escore de matemática), temos:
dados1 %>% 
summarise(Media = mean(math_scr),
          Mediana = median(math_scr),
          Moda = names(table(math_scr))[which(table(math_scr)==max(table(math_scr)))],
          Dispersão = max(math_scr) - min(math_scr),
          Variancia = var(math_scr),
          DesvioP = sd(math_scr),
          Mediana = median(math_scr),
          Coef.Variação = DesvioP * 100 / Media)

 

E, para de fato conseguirmos analisar como está a dispersão de cada uma das variáveis contidas nos dados, criaremos 2 gráficos de caixas (popularmente conhecidos como boxsplots) para as respectivas variáveis com os comandos:

 

-Para STR

ggplot(data = dados1) +
geom_boxplot(mapping = aes(x = "", y = dados1$str),fill = 'yellow')+
labs(x = 'STR', y = 'Frequência_absoluta',
title = 'Boxplot da variável STR')+ theme_bw()

 

-Para MATH_SCR
ggplot(data = dados1) +
geom_boxplot(mapping = aes(x = "", y = dados1$math_scr),fill = 'red')+
labs(x = 'MATH_SCR', y = 'Frequência_absoluta',
title = 'Boxplot da variável STR')+ theme_bw()

 

Letra B)

Agora, criando um diagrama de dispersão, poderemos ver como essas variáveis estão se comportando quando colocados uma em relação a outra

ggplot(data = dados1)+
geom_point(aes(x=str, y = math_scr)) +
labs(x = 'Valores associados a str', y = 'Valores associados a math_scr',
title = 'Associação entre str e math_scr')

Através da análise deste gráfico, pode-se perceber que o mesmo tem diversos pontos distantes do centro da distribuição(onde muitos elementos estão localizados), e isto também significa que a correlação entre essas variáveis é fraca, já que valores pequenos em STR podem ser ou maiores em MATH_SCR ou menores.

 

Letra C)

Para testar a normalidade destes dados, ou seja, para podermos afirmar ou não que a população segue uma distribuição normal, apricaremos o código
Para STR
shapiro.test(dados1$str)
## 
##  Shapiro-Wilk normality test
## 
## data:  dados1$str
## W = 0.99202, p-value = 0.02385
Como temos um p-valor muito pequeno (P-value <0,05), então rejeitamos a hipotese de que a variável STR seja normalmente distribuida

 

Para MATH_SCR
shapiro.test(dados1$math_scr)
## 
##  Shapiro-Wilk normality test
## 
## data:  dados1$math_scr
## W = 0.99366, p-value = 0.07594
Já neste caso, temos um p-valor considerável (P-value >0,5), então nós podemos aceitar a hipótese de que a variável MATH_SCR seja normalmente distribuida

 

Letra D)

O coeficiente de correlação de pearson é o coeficiente que mede a relação que uma variável tem com a outra, assumindo valores no intervalo [-1;1]. Para obtermos esse coeficiente no R temos a função:
with(dados1, cor(str,math_scr))
## [1] -0.1955534
Por definição, quanto mais próximo de 0 o coeficiente de correlação de Pearson, menos associadas estão as variáveis. Logo, devido ao exemplo acima, podemos admitir que as variáveis STR e MATH_SCR são muito pouco relacionadas.

 

Letra E)

Para montar um modelo de regressão linear simples no software R, nossos comandos chaves a serem ultilizados são
reg <- lm(str~math_scr, data = dados1)
summary(reg)
## 
## Call:
## lm(formula = str ~ math_scr, data = dados1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.9707 -1.0234  0.0552  1.1705  6.3363 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 32.528432   3.162596  10.285  < 2e-16 ***
## math_scr    -0.019726   0.004839  -4.077 5.47e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.858 on 418 degrees of freedom
## Multiple R-squared:  0.03824,    Adjusted R-squared:  0.03594 
## F-statistic: 16.62 on 1 and 418 DF,  p-value: 5.467e-05