LECTURA DE ARCHIVOS
En el presente artículo realizaremos una serie de ejercicios sobre la lectura o importación de archivos en R, realizados por estudiantes de la Facultad de Ciencias Económicas, carrera de Estadística de la Universidad Central del Ecuador, estos programas nos será de ayuda para nuestro aprendizaje.
1. Debemos especificar la ruta de nuestro directorio, en la que trabajaremos
getwd()
## [1] "C:/Users/USER/Desktop/UCE/TERCERO/PROGRAMACION"
2. Usamos la función “read.table” para leer el archivo, seguida de la función “header” para agregar los encabezados. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros
data1<-read.table("paro.csv", header=T)
head(data1, n=10)
## Gender Provinces Periodo Situation value
## 1 Males 02 Albacete 2014Q4 active 103.9
## 2 Females 02 Albacete 2014Q4 active 83.5
## 3 Males 03 Alicante/Alacant 2014Q4 active 490.5
## 4 Females 03 Alicante/Alacant 2014Q4 active 398.7
## 5 Males 04 AlmerÃa 2014Q4 active 198.5
## 6 Females 04 AlmerÃa 2014Q4 active 155.8
## 7 Males 01 Araba/Ã\201lava 2014Q4 active 84.8
## 8 Females 01 Araba/Ã\201lava 2014Q4 active 77.5
## 9 Males 33 Asturias 2014Q4 active 248.0
## 10 Females 33 Asturias 2014Q4 active 225.7
library(dplyr)
count(data1)
## n
## 1 8320
- DIMENSIÓN.
dim(data1)
## [1] 8320 5
- NOMBRES DE FILAS Y COLUMNAS.
colnames(data1)
## [1] "Gender" "Provinces" "Periodo" "Situation" "value"
- PRIMEROS REGISTROS:
head(data1)
## Gender Provinces Periodo Situation value
## 1 Males 02 Albacete 2014Q4 active 103.9
## 2 Females 02 Albacete 2014Q4 active 83.5
## 3 Males 03 Alicante/Alacant 2014Q4 active 490.5
## 4 Females 03 Alicante/Alacant 2014Q4 active 398.7
## 5 Males 04 AlmerÃa 2014Q4 active 198.5
## 6 Females 04 AlmerÃa 2014Q4 active 155.8
- ÚLTIMOS REGISTROS:
tail(data1)
## Gender Provinces Periodo Situation value
## 8315 Males 50 Zaragoza 2011Q1 inactive 134.3
## 8316 Females 50 Zaragoza 2011Q1 inactive 199.4
## 8317 Males 51 Ceuta 2011Q1 inactive 10.7
## 8318 Females 51 Ceuta 2011Q1 inactive 16.5
## 8319 Males 52 Melilla 2011Q1 inactive 9.1
## 8320 Females 52 Melilla 2011Q1 inactive 15.3
1. Usamos la función “read.table” para leer el archivo, en este caso no especificamos ningún encabezado Por cuestión de tamaño, solo vizualizamos los primeros 10 registros
data2<-read.table("paro.csv")
head(data2, n=10)
## V1 V2 V3 V4 V5
## 1 Gender Provinces Periodo Situation value
## 2 Males 02 Albacete 2014Q4 active 103.9
## 3 Females 02 Albacete 2014Q4 active 83.5
## 4 Males 03 Alicante/Alacant 2014Q4 active 490.5
## 5 Females 03 Alicante/Alacant 2014Q4 active 398.7
## 6 Males 04 AlmerÃa 2014Q4 active 198.5
## 7 Females 04 AlmerÃa 2014Q4 active 155.8
## 8 Males 01 Araba/Ã\201lava 2014Q4 active 84.8
## 9 Females 01 Araba/Ã\201lava 2014Q4 active 77.5
## 10 Males 33 Asturias 2014Q4 active 248
count(data2)
## n
## 1 8321
1. Instalamos el paquete openxlsx y llamamos a su respectiva librería. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros
library(openxlsx)
data_banco<-read.xlsx("C:/Users/USER/Desktop/UCE/PROGRAMACION/Data_Banco.xlsx", sheet ="Data")
head(data_banco, n=10)
## Sucursal Cajero ID_Transaccion Transaccion Tiempo_Servicio_seg
## 1 62 4820 2 Cobro/Pago (Cta externa) 311
## 2 62 4820 2 Cobro/Pago (Cta externa) 156
## 3 62 4820 2 Cobro/Pago (Cta externa) 248
## 4 62 4820 2 Cobro/Pago (Cta externa) 99
## 5 62 4820 2 Cobro/Pago (Cta externa) 123
## 6 62 4820 2 Cobro/Pago (Cta externa) 172
## 7 62 4820 2 Cobro/Pago (Cta externa) 140
## 8 62 4820 2 Cobro/Pago (Cta externa) 247
## 9 62 4820 2 Cobro/Pago (Cta externa) 183
## 10 62 4820 2 Cobro/Pago (Cta externa) 91
## Satisfaccion Monto
## 1 Muy Bueno 2889,3
## 2 Malo 1670,69
## 3 Regular 3172,49
## 4 Regular 1764.92
## 5 Muy Bueno 1835.69
## 6 Bueno 2165.42
## 7 Regular 1304.9000000000001
## 8 Bueno 4080.05
## 9 Muy Bueno 2541.27
## 10 Muy Bueno 2218.77
- contamos el número de elementos
count(data_banco)
## n
## 1 24299
2. Leemos otra base de datos diferente (PROVINCIAS) Por cuestión de tamaño, solo vizualizamos los primeros 10 registros
data3<-read.xlsx("C:/Users/USER/Desktop/UCE/PROGRAMACION/par_nom_can_pro.xlsx")
head(data3, n=10)
## DPA_PARROQ parroquia DPA_CANTON canton
## 1 020150 GUARANDA 0201 GUARANDA
## 2 020151 FACUNDO VELA 0201 GUARANDA
## 3 020153 JULIO E. MORENO (CATANAHUAN GRANDE) 0201 GUARANDA
## 4 020155 SALINAS 0201 GUARANDA
## 5 020156 SAN LORENZO 0201 GUARANDA
## 6 020157 SAN SIMON (YACOTO) 0201 GUARANDA
## 7 020158 SANTA FE (SANTA FE) 0201 GUARANDA
## 8 020159 SIMIATUG 0201 GUARANDA
## 9 020160 SAN LUIS DE PAMBIL 0201 GUARANDA
## 10 020250 CHILLANES 0202 CHILLANES
## DPA_PROVIN provincias
## 1 02 BOLIVAR
## 2 02 BOLIVAR
## 3 02 BOLIVAR
## 4 02 BOLIVAR
## 5 02 BOLIVAR
## 6 02 BOLIVAR
## 7 02 BOLIVAR
## 8 02 BOLIVAR
## 9 02 BOLIVAR
## 10 02 BOLIVAR
- contamos el número de elementos
count(data3)
## n
## 1 1040
1. Instalamos el paquete haven y llamamos a su respectiva librería. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros
library(haven)
data4<-read_sav("Base_enendur_2017.sav")
head(data4, n=10)
## # A tibble: 10 x 317
## area cod_par ciudad conglomerado zona sector panelm vivienda hogar
## <dbl+lbl> <chr> <dbl> <chr> <chr> <chr> <chr+lbl> <dbl+lb> <dbl+l>
## 1 1 [Urbana] 010150 10150 999999 001 003 013 2 [Vivi~ 1 [Hog~
## 2 1 [Urbana] 010150 10150 999999 001 003 013 2 [Vivi~ 1 [Hog~
## 3 1 [Urbana] 010150 10150 999999 001 003 013 2 [Vivi~ 1 [Hog~
## 4 1 [Urbana] 010150 10150 999999 001 003 013 3 [Vivi~ 1 [Hog~
## 5 1 [Urbana] 010150 10150 999999 001 003 013 3 [Vivi~ 1 [Hog~
## 6 1 [Urbana] 010150 10150 999999 001 003 013 3 [Vivi~ 1 [Hog~
## 7 1 [Urbana] 010150 10150 999999 001 003 013 3 [Vivi~ 1 [Hog~
## 8 1 [Urbana] 010150 10150 999999 001 003 013 4 [Vivi~ 1 [Hog~
## 9 1 [Urbana] 010150 10150 999999 001 003 013 4 [Vivi~ 1 [Hog~
## 10 1 [Urbana] 010150 10150 999999 001 003 013 4 [Vivi~ 1 [Hog~
## # ... with 308 more variables: p01 <dbl+lbl>, p02 <dbl+lbl>, p03 <dbl+lbl>,
## # p04 <dbl+lbl>, p05a <dbl+lbl>, p05b <dbl+lbl>, p06 <dbl+lbl>,
## # p07 <dbl+lbl>, p08 <dbl+lbl>, p09 <dbl+lbl>, p10a <dbl+lbl>, p10b <dbl>,
## # p11 <dbl+lbl>, p12a <dbl+lbl>, p12b <dbl+lbl>, p13 <dbl+lbl>,
## # p14 <dbl+lbl>, p15 <dbl+lbl>, p15aa <dbl+lbl>, p15ab <dbl>, p16a <dbl+lbl>,
## # p16b <dbl+lbl>, p17a <dbl+lbl>, p17b <dbl>, p18 <dbl+lbl>, p19a <dbl+lbl>,
## # p19b <dbl+lbl>, cod_inf <dbl+lbl>, p20 <dbl+lbl>, p21 <dbl+lbl>, ...
- contamos el número de elementos
count(data4)
## # A tibble: 1 x 1
## n
## <int>
## 1 110283
1. Usamos la función “read.table” para leer la url, seguida de la función “header” para agregar los encabezados y “sep” para especificar su separación. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros
data5<-read.table("https://datanalytics.com/uploads/datos_treemap.txt",
header=T,
sep= "\t")
head(data5, n=10)
## valor cap div
## 1 ABE 7793 12.04
## 2 ABG 1473 1.23
## 3 ACS 7930 8.13
## 4 ACX 2217 5.06
## 5 AMS 5910 2.27
## 6 ANA 3760 5.24
## 7 BBVA 24819 8.34
## 8 BKT 1646 5.85
## 9 BME 1589 10.38
## 10 CABK 11644 6.48
- contamos el número de elementos
count(data5)
## n
## 1 34
1. Usamos la función “download.file” para descargar un archivo, en este caso desde una URL.
download.file("https://datanalytics.com/uploads/datos_treemap.txt",
"data6.txt")
2. Después de este paso, observaremos que en nuestro directorio tendremos el archvio descargado.
3. Usamos la función “read.table” para leer el archivo seguida de la función “header” para agregar los encabezados y “sep” para especificar su separación. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros
data6<-read.table("data6.txt", header= T, sep= "\t")
head(data6, n=10)
## valor cap div
## 1 ABE 7793 12.04
## 2 ABG 1473 1.23
## 3 ACS 7930 8.13
## 4 ACX 2217 5.06
## 5 AMS 5910 2.27
## 6 ANA 3760 5.24
## 7 BBVA 24819 8.34
## 8 BKT 1646 5.85
## 9 BME 1589 10.38
## 10 CABK 11644 6.48
- contamos el número de elementos
count(data6)
## n
## 1 34