Objetivo: conocer y aplicar las funciones de los principales tipos de datos en R.
Instala la base de datos libre que voy a consultar, en este caso se llama dslabs data science laboratory
#install.packages("dslabs")
Consulta la base de datos ya instalada
library(dslabs)
Se consulta la base de datos libre (Data Frame) en este caso murders
data("murders")
class(murders)
## [1] "data.frame"
str(murders)
## 'data.frame': 51 obs. of 5 variables:
## $ state : chr "Alabama" "Alaska" "Arizona" "Arkansas" ...
## $ abb : chr "AL" "AK" "AZ" "AR" ...
## $ region : Factor w/ 4 levels "Northeast","South",..: 2 4 4 2 4 4 1 2 2 2 ...
## $ population: num 4779736 710231 6392017 2915918 37253956 ...
## $ total : num 135 19 232 93 1257 ...
head(murders)
## state abb region population total
## 1 Alabama AL South 4779736 135
## 2 Alaska AK West 710231 19
## 3 Arizona AZ West 6392017 232
## 4 Arkansas AR South 2915918 93
## 5 California CA West 37253956 1257
## 6 Colorado CO West 5029196 65
summary(murders)
## state abb region population
## Length:51 Length:51 Northeast : 9 Min. : 563626
## Class :character Class :character South :17 1st Qu.: 1696962
## Mode :character Mode :character North Central:12 Median : 4339367
## West :13 Mean : 6075769
## 3rd Qu.: 6636084
## Max. :37253956
## total
## Min. : 2.0
## 1st Qu.: 24.5
## Median : 97.0
## Mean : 184.4
## 3rd Qu.: 268.0
## Max. :1257.0
El operador de acceso (accessor $), selecciona una columna del data frame, al final representa un VECTOR
murders$population #Se trata de un vector de 51 componentes.
## [1] 4779736 710231 6392017 2915918 37253956 5029196 3574097 897934
## [9] 601723 19687653 9920000 1360301 1567582 12830632 6483802 3046355
## [17] 2853118 4339367 4533372 1328361 5773552 6547629 9883640 5303925
## [25] 2967297 5988927 989415 1826341 2700551 1316470 8791894 2059179
## [33] 19378102 9535483 672591 11536504 3751351 3831074 12702379 1052567
## [41] 4625364 814180 6346105 25145561 2763885 625741 8001024 6724540
## [49] 1852994 5686986 563626
La función length nos despliega el número de registros o componentes.
pop<-murders$population
length(pop)
## [1] 51
class(pop)
## [1] "numeric"
names(murders)
## [1] "state" "abb" "region" "population" "total"
Referencias bibliográficas Irizarry Rafael (2021) Introducción a la ciencia de datos. Análisis de datos y algoritmos de predicción con R. Harvard. MA EEUU.