Estatística Computacional II - Sumarização de Dados

Aluno: Rafael Cabral Fernandez

Introdução

Este documento refere-se a lista de exercícios proposta pelo professor Gustavo Rocha, da cadeira de Estatística Computacional 2, como cômputo de ensino da disciplina.

Dataset

library(knitr)
kable(USArrests[1:10, ],)
Murder Assault UrbanPop Rape
Alabama 13.2 236 58 21.2
Alaska 10.0 263 48 44.5
Arizona 8.1 294 80 31.0
Arkansas 8.8 190 50 19.5
California 9.0 276 91 40.6
Colorado 7.9 204 78 38.7
Connecticut 3.3 110 77 11.1
Delaware 5.9 238 72 15.8
Florida 15.4 335 80 31.9
Georgia 17.4 211 60 25.8
#help(USArrests)

Vai abrir uma página no internet explorer, vou te poupar deste problema.


Explorando o dataframe:

kable(USArrests[40:dim(USArrests), ],)
Murder Assault UrbanPop Rape
South Carolina 14.4 279 48 22.5
South Dakota 3.8 86 45 12.8
Tennessee 13.2 188 59 26.9
Texas 12.7 201 80 25.5
Utah 3.2 120 80 22.9
Vermont 2.2 48 32 11.2
Virginia 8.5 156 63 20.7
Washington 4.0 145 73 26.2
West Virginia 5.7 81 39 9.3
Wisconsin 2.6 53 66 10.8
Wyoming 6.8 161 60 15.6

a)

Encontre as taxas mínimas, máximas, médias, medianas, e os primeiros e terceiros quartis para cada crime.


names(USArrests)
## [1] "Murder"   "Assault"  "UrbanPop" "Rape"
attach(USArrests)


Mínimos:

min(Murder)
 Taxa mínima dos assassinatos [1] 0.8
min(Assault)
Taxa mínima dos assaltos [1] 45
min(Rape)
Taxa mínima dos estupros [1] 7.3


Máximos:

max(Murder)
Taxa máxima dos assassinatos [1] 17.4
max(Assault)
Taxa máxima dos assaltos [1] 337
max(Rape)
Taxa máxima dos estupros [1] 46


Médias:

mean(Murder)
Taxa média dos assassinatos [1] 7.788
mean(Assault)
Taxa média dos assaltos [1] 170.76
mean(Rape)
Taxa média dos estupros [1] 21.232


Medianas:

median(Murder)
Taxa mediana dos assassinatos [1] 7.25
median(Assault)
Taxa mediana dos assaltos [1] 159
median(Rape)
Taxa mediana dos estupros [1] 20.1


Quantis:

quantile(USArrests, na.rm = T)
##      0%     25%     50%     75%    100% 
##   0.800  12.575  42.300  81.000 337.000

b)

Faça um gráfico adequado para a taxa de assassinatos (murder).

estados=rownames(USArrests)
barplot(Murder, names.arg = estados, las = 2, border = TRUE,col = rainbow(50),cex.names=0.7, ylim=c(0,20))

c)

Faça um diagrama de ramo-e-folhas para a taxa de estupros (rape).

stem(Murder)
## 
##   The decimal point is at the |
## 
##    0 | 8
##    2 | 11226672348
##    4 | 0349379
##    6 | 003682349
##    8 | 158007
##   10 | 04134
##   12 | 127022
##   14 | 444
##   16 | 14

d)

Calcule as correlações entre as taxas dos diferentes tipos de crime.

cor(Murder, Rape)
## [1] 0.5635788
cor(Rape, Assault)
## [1] 0.6652412
cor(Assault,Murder)
## [1] 0.8018733

e)

Calcule as correlações entre as taxas dos crimes e a proporção de população urbana.

cor(Murder, UrbanPop)
## [1] 0.06957262
cor(Rape, UrbanPop)
## [1] 0.4113412
cor(Assault,UrbanPop)
## [1] 0.2588717

f)

Encontre os estados com maior e menor ocorrência de cada tipo de crime.

A solução que eu encontrei não é nem um pouco elegante, mas é funcional.

Estados<-rownames(USArrests)
novo.USArrest <- as.data.frame(cbind(USArrests,Estados))

kable(novo.USArrest[1:10, ],)
Murder Assault UrbanPop Rape Estados
Alabama 13.2 236 58 21.2 Alabama
Alaska 10.0 263 48 44.5 Alaska
Arizona 8.1 294 80 31.0 Arizona
Arkansas 8.8 190 50 19.5 Arkansas
California 9.0 276 91 40.6 California
Colorado 7.9 204 78 38.7 Colorado
Connecticut 3.3 110 77 11.1 Connecticut
Delaware 5.9 238 72 15.8 Delaware
Florida 15.4 335 80 31.9 Florida
Georgia 17.4 211 60 25.8 Georgia

Isso mesmo, eu criei um novo dataframe contendo uma nova variável com todos os estados.


Estados[which.max(Murder)]
## [1] "Georgia"


Estados[which.min(Murder)]
## [1] "North Dakota"


Estados[which.max(Rape)]
## [1] "Nevada"


Estados[which.min(Rape)]
## [1] "North Dakota"


Estados[which.max(Assault)]
## [1] "North Carolina"


Estados[which.min(Assault)]
## [1] "North Dakota"


g)

Encontre os estados com maior e menor ocorrência da soma entre as taxas de todos os crimes.


Supondo a população urbana:

novo.USArrest <- transform(novo.USArrest, Taxa = (Murder+Assault+Rape)/UrbanPop)


kable(novo.USArrest[1:10, ],)
Murder Assault UrbanPop Rape Estados Taxa
Alabama 13.2 236 58 21.2 Alabama 4.662069
Alaska 10.0 263 48 44.5 Alaska 6.614583
Arizona 8.1 294 80 31.0 Arizona 4.163750
Arkansas 8.8 190 50 19.5 Arkansas 4.366000
California 9.0 276 91 40.6 California 3.578022
Colorado 7.9 204 78 38.7 Colorado 3.212820
Connecticut 3.3 110 77 11.1 Connecticut 1.615584
Delaware 5.9 238 72 15.8 Delaware 3.606944
Florida 15.4 335 80 31.9 Florida 4.778750
Georgia 17.4 211 60 25.8 Georgia 4.236667


Estados[which.min(novo.USArrest$Taxa)]
## [1] "Hawaii"


Supondo apenas os numeros totais:

USArrests$UrbanPop <- NULL

which.min(rowSums(USArrests))
## North Dakota 
##           34