LECTURA DE ARCHIVOS

INTRODUCCIÓN.

En el presente artículo realizaremos una serie de ejercicios sobre la lectura o importación de archivos en R, realizados por estudiantes de la Facultad de Ciencias Económicas, carrera de Estadística de la Universidad Central del Ecuador, estos programas nos será de ayuda para nuestro aprendizaje.

LEER CSV.

1. Debemos especificar la ruta de nuestro directorio, en la que trabajaremos

getwd()
## [1] "C:/Users/USER/Desktop/UCE/TERCERO/PROGRAMACION"

2. Usamos la función “read.table” para leer el archivo, seguida de la función “header” para agregar los encabezados. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros

data1<-read.table("paro.csv", header=T)
head(data1, n=10)
##     Gender           Provinces Periodo Situation value
## 1    Males         02 Albacete  2014Q4    active 103.9
## 2  Females         02 Albacete  2014Q4    active  83.5
## 3    Males 03 Alicante/Alacant  2014Q4    active 490.5
## 4  Females 03 Alicante/Alacant  2014Q4    active 398.7
## 5    Males         04 Almería  2014Q4    active 198.5
## 6  Females         04 Almería  2014Q4    active 155.8
## 7    Males     01 Araba/Ã\201lava  2014Q4    active  84.8
## 8  Females     01 Araba/Ã\201lava  2014Q4    active  77.5
## 9    Males         33 Asturias  2014Q4    active 248.0
## 10 Females         33 Asturias  2014Q4    active 225.7
  • a) NÚMERO DE ELEMENTOS:
library(dplyr)
count(data1)
##      n
## 1 8320

- DIMENSIÓN.

dim(data1)
## [1] 8320    5

- NOMBRES DE FILAS Y COLUMNAS.

colnames(data1)
## [1] "Gender"    "Provinces" "Periodo"   "Situation" "value"

- PRIMEROS REGISTROS:

head(data1)
##    Gender           Provinces Periodo Situation value
## 1   Males         02 Albacete  2014Q4    active 103.9
## 2 Females         02 Albacete  2014Q4    active  83.5
## 3   Males 03 Alicante/Alacant  2014Q4    active 490.5
## 4 Females 03 Alicante/Alacant  2014Q4    active 398.7
## 5   Males         04 Almería  2014Q4    active 198.5
## 6 Females         04 Almería  2014Q4    active 155.8

- ÚLTIMOS REGISTROS:

tail(data1)
##       Gender   Provinces Periodo Situation value
## 8315   Males 50 Zaragoza  2011Q1  inactive 134.3
## 8316 Females 50 Zaragoza  2011Q1  inactive 199.4
## 8317   Males    51 Ceuta  2011Q1  inactive  10.7
## 8318 Females    51 Ceuta  2011Q1  inactive  16.5
## 8319   Males  52 Melilla  2011Q1  inactive   9.1
## 8320 Females  52 Melilla  2011Q1  inactive  15.3

LEER CSV (sin encabezado).

1. Usamos la función “read.table” para leer el archivo, en este caso no especificamos ningún encabezado Por cuestión de tamaño, solo vizualizamos los primeros 10 registros

data2<-read.table("paro.csv")
head(data2, n=10)
##         V1                  V2      V3        V4    V5
## 1   Gender           Provinces Periodo Situation value
## 2    Males         02 Albacete  2014Q4    active 103.9
## 3  Females         02 Albacete  2014Q4    active  83.5
## 4    Males 03 Alicante/Alacant  2014Q4    active 490.5
## 5  Females 03 Alicante/Alacant  2014Q4    active 398.7
## 6    Males         04 Almería  2014Q4    active 198.5
## 7  Females         04 Almería  2014Q4    active 155.8
## 8    Males     01 Araba/Ã\201lava  2014Q4    active  84.8
## 9  Females     01 Araba/Ã\201lava  2014Q4    active  77.5
## 10   Males         33 Asturias  2014Q4    active   248
  • a) contamos el número de elementos
count(data2)
##      n
## 1 8321

LEER XLSX.

1. Instalamos el paquete openxlsx y llamamos a su respectiva librería. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros

library(openxlsx)

data_banco<-read.xlsx("C:/Users/USER/Desktop/UCE/PROGRAMACION/Data_Banco.xlsx", sheet ="Data")
head(data_banco, n=10)
##    Sucursal Cajero ID_Transaccion              Transaccion Tiempo_Servicio_seg
## 1        62   4820              2 Cobro/Pago (Cta externa)                 311
## 2        62   4820              2 Cobro/Pago (Cta externa)                 156
## 3        62   4820              2 Cobro/Pago (Cta externa)                 248
## 4        62   4820              2 Cobro/Pago (Cta externa)                  99
## 5        62   4820              2 Cobro/Pago (Cta externa)                 123
## 6        62   4820              2 Cobro/Pago (Cta externa)                 172
## 7        62   4820              2 Cobro/Pago (Cta externa)                 140
## 8        62   4820              2 Cobro/Pago (Cta externa)                 247
## 9        62   4820              2 Cobro/Pago (Cta externa)                 183
## 10       62   4820              2 Cobro/Pago (Cta externa)                  91
##    Satisfaccion              Monto
## 1     Muy Bueno             2889,3
## 2          Malo            1670,69
## 3       Regular            3172,49
## 4       Regular            1764.92
## 5     Muy Bueno            1835.69
## 6         Bueno            2165.42
## 7       Regular 1304.9000000000001
## 8         Bueno            4080.05
## 9     Muy Bueno            2541.27
## 10    Muy Bueno            2218.77

- contamos el número de elementos

count(data_banco)
##       n
## 1 24299

2. Leemos otra base de datos diferente (PROVINCIAS) Por cuestión de tamaño, solo vizualizamos los primeros 10 registros

data3<-read.xlsx("C:/Users/USER/Desktop/UCE/PROGRAMACION/par_nom_can_pro.xlsx")
head(data3, n=10)
##    DPA_PARROQ                           parroquia DPA_CANTON    canton
## 1      020150                            GUARANDA       0201  GUARANDA
## 2      020151                        FACUNDO VELA       0201  GUARANDA
## 3      020153 JULIO E. MORENO (CATANAHUAN GRANDE)       0201  GUARANDA
## 4      020155                             SALINAS       0201  GUARANDA
## 5      020156                         SAN LORENZO       0201  GUARANDA
## 6      020157                  SAN SIMON (YACOTO)       0201  GUARANDA
## 7      020158                 SANTA FE (SANTA FE)       0201  GUARANDA
## 8      020159                            SIMIATUG       0201  GUARANDA
## 9      020160                  SAN LUIS DE PAMBIL       0201  GUARANDA
## 10     020250                           CHILLANES       0202 CHILLANES
##    DPA_PROVIN provincias
## 1          02    BOLIVAR
## 2          02    BOLIVAR
## 3          02    BOLIVAR
## 4          02    BOLIVAR
## 5          02    BOLIVAR
## 6          02    BOLIVAR
## 7          02    BOLIVAR
## 8          02    BOLIVAR
## 9          02    BOLIVAR
## 10         02    BOLIVAR

- contamos el número de elementos

count(data3)
##      n
## 1 1040

LEER SAV.

1. Instalamos el paquete haven y llamamos a su respectiva librería. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros

library(haven)
data4<-read_sav("Base_enendur_2017.sav")
head(data4, n=10)
## # A tibble: 10 x 317
##          area cod_par ciudad conglomerado zona  sector panelm    vivienda   hogar
##     <dbl+lbl> <chr>    <dbl> <chr>        <chr> <chr>  <chr+lbl> <dbl+lb> <dbl+l>
##  1 1 [Urbana] 010150   10150 999999       001   003    013       2 [Vivi~ 1 [Hog~
##  2 1 [Urbana] 010150   10150 999999       001   003    013       2 [Vivi~ 1 [Hog~
##  3 1 [Urbana] 010150   10150 999999       001   003    013       2 [Vivi~ 1 [Hog~
##  4 1 [Urbana] 010150   10150 999999       001   003    013       3 [Vivi~ 1 [Hog~
##  5 1 [Urbana] 010150   10150 999999       001   003    013       3 [Vivi~ 1 [Hog~
##  6 1 [Urbana] 010150   10150 999999       001   003    013       3 [Vivi~ 1 [Hog~
##  7 1 [Urbana] 010150   10150 999999       001   003    013       3 [Vivi~ 1 [Hog~
##  8 1 [Urbana] 010150   10150 999999       001   003    013       4 [Vivi~ 1 [Hog~
##  9 1 [Urbana] 010150   10150 999999       001   003    013       4 [Vivi~ 1 [Hog~
## 10 1 [Urbana] 010150   10150 999999       001   003    013       4 [Vivi~ 1 [Hog~
## # ... with 308 more variables: p01 <dbl+lbl>, p02 <dbl+lbl>, p03 <dbl+lbl>,
## #   p04 <dbl+lbl>, p05a <dbl+lbl>, p05b <dbl+lbl>, p06 <dbl+lbl>,
## #   p07 <dbl+lbl>, p08 <dbl+lbl>, p09 <dbl+lbl>, p10a <dbl+lbl>, p10b <dbl>,
## #   p11 <dbl+lbl>, p12a <dbl+lbl>, p12b <dbl+lbl>, p13 <dbl+lbl>,
## #   p14 <dbl+lbl>, p15 <dbl+lbl>, p15aa <dbl+lbl>, p15ab <dbl>, p16a <dbl+lbl>,
## #   p16b <dbl+lbl>, p17a <dbl+lbl>, p17b <dbl>, p18 <dbl+lbl>, p19a <dbl+lbl>,
## #   p19b <dbl+lbl>, cod_inf <dbl+lbl>, p20 <dbl+lbl>, p21 <dbl+lbl>, ...

- contamos el número de elementos

count(data4)
## # A tibble: 1 x 1
##        n
##    <int>
## 1 110283

LEER URL.

1. Usamos la función “read.table” para leer la url, seguida de la función “header” para agregar los encabezados y “sep” para especificar su separación. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros

data5<-read.table("https://datanalytics.com/uploads/datos_treemap.txt", 
                  header=T,
                  sep= "\t")
head(data5, n=10)
##    valor   cap   div
## 1    ABE  7793 12.04
## 2    ABG  1473  1.23
## 3    ACS  7930  8.13
## 4    ACX  2217  5.06
## 5    AMS  5910  2.27
## 6    ANA  3760  5.24
## 7   BBVA 24819  8.34
## 8    BKT  1646  5.85
## 9    BME  1589 10.38
## 10  CABK 11644  6.48

- contamos el número de elementos

count(data5)
##    n
## 1 34

DESCARGAR DOCUMENTO DE URL.

1. Usamos la función “download.file” para descargar un archivo, en este caso desde una URL.

download.file("https://datanalytics.com/uploads/datos_treemap.txt", 
              "data6.txt")

2. Después de este paso, observaremos que en nuestro directorio tendremos el archvio descargado.

3. Usamos la función “read.table” para leer el archivo seguida de la función “header” para agregar los encabezados y “sep” para especificar su separación. Por cuestión de tamaño, solo vizualizamos los primeros 10 registros

data6<-read.table("data6.txt", header= T, sep= "\t")
head(data6, n=10)
##    valor   cap   div
## 1    ABE  7793 12.04
## 2    ABG  1473  1.23
## 3    ACS  7930  8.13
## 4    ACX  2217  5.06
## 5    AMS  5910  2.27
## 6    ANA  3760  5.24
## 7   BBVA 24819  8.34
## 8    BKT  1646  5.85
## 9    BME  1589 10.38
## 10  CABK 11644  6.48

- contamos el número de elementos

count(data6)
##    n
## 1 34