O relatório a seguir foi criado com o intuito de demonstrar as possiveis soluções para problemas voltados ao universo estatístico. A ferramenta de programação ultilizada para o mesmo foi o Rstudio Cloud, uma versão do Rstudio cuja maior discrepância da sua versão base é o fato de que o RstudioCloud foi desenvolvido para operar na nuvem através de computadores com internet. Como ultima menção, a fonte ultilizada para a criação deste relatório foi cedida por membros da Constat Jr através de slides muito bem informativos.
## [1] "tidyverse"
Após ter o conjunto de dados no diretório correspondente ao ultilizados no RScloud, devemos ultilizar o comando abaixo para que o nosso software reconheça-os
dados1 <- read.csv("caschool.csv", h=T, sep=",")
Os dados disponibilizados pelo California Standardized Testing and Reporting (STAR) contêm informações sobre performance de exames, caractrísticas da escola e informações demográficas dos alunos. Os dados são provenientes de 428 escolas de ensino fundamental de distritos da Califórnia em 1998 e 1999. Os escores dos testes são as médias dos escores de leitura e matemática em testes de Stanford padronizados que foram administrados em estudantes da 5a série. Para as análises serem feitas neste exercício, consideraremos apenas as variáveis MATH-SCR (média do escore de matemática) e STR (razão do número de estudantes por professores:(ESTUD/PROF).
require(tidyverse)
dados1 %>%
summarise(Media = mean(str),
Mediana = median(str),
Moda = names(table(str))[which(table(str)==max(table(str)))],
Dispersão = max(str) - min(str),
Variancia = var(str),
DesvioP = sd(str),
Mediana = median(str),
Coef.Variação = DesvioP * 100 / Media)
dados1 %>%
summarise(Media = mean(math_scr),
Mediana = median(math_scr),
Moda = names(table(math_scr))[which(table(math_scr)==max(table(math_scr)))],
Dispersão = max(math_scr) - min(math_scr),
Variancia = var(math_scr),
DesvioP = sd(math_scr),
Mediana = median(math_scr),
Coef.Variação = DesvioP * 100 / Media)
ggplot(data = dados1) +
geom_boxplot(mapping = aes(x = "", y = dados1$str),fill = 'yellow')+
labs(x = 'STR', y = 'Frequência_absoluta',
title = 'Boxplot da variável STR')+ theme_bw()
ggplot(data = dados1) +
geom_boxplot(mapping = aes(x = "", y = dados1$math_scr),fill = 'red')+
labs(x = 'MATH_SCR', y = 'Frequência_absoluta',
title = 'Boxplot da variável STR')+ theme_bw()
Agora, criando um diagrama de dispersão, poderemos ver como essas variáveis estão se comportando quando colocados uma em relação a outra
ggplot(data = dados1)+
geom_point(aes(x=str, y = math_scr)) +
labs(x = 'Valores associados a str', y = 'Valores associados a math_scr',
title = 'Associação entre str e math_scr')
shapiro.test(dados1$str)
##
## Shapiro-Wilk normality test
##
## data: dados1$str
## W = 0.99202, p-value = 0.02385
shapiro.test(dados1$math_scr)
##
## Shapiro-Wilk normality test
##
## data: dados1$math_scr
## W = 0.99366, p-value = 0.07594
with(dados1, cor(str,math_scr))
## [1] -0.1955534
reg <- lm(str~math_scr, data = dados1)
summary(reg)
##
## Call:
## lm(formula = str ~ math_scr, data = dados1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.9707 -1.0234 0.0552 1.1705 6.3363
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 32.528432 3.162596 10.285 < 2e-16 ***
## math_scr -0.019726 0.004839 -4.077 5.47e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.858 on 418 degrees of freedom
## Multiple R-squared: 0.03824, Adjusted R-squared: 0.03594
## F-statistic: 16.62 on 1 and 418 DF, p-value: 5.467e-05