Este documento presenta algunos de los códigos y funciones que nos
ayudarán a realizar un análisis exploratorio de datos univariado. De
forma introductoria se presenta un ejemplo sobre el proceso de lectura y
depuración de datos, así como la realización de gráficos, distribuciones
de frecuencia y obtención de indicadores de dispersión.
#Lectura de datos directamente desde una url. Instalamos y cargamos la librería "readr"
#install.packages("readr") Instalación
library(readr) #cargamos la librería
url <- "https://www.datos.gov.co/api/views/kx2f-xjdq/rows.csv?accessType=DOWNLOAD" #Declaramos la url
df <- read_csv(url, progress = TRUE) #Leemos los datos de la url
saveRDS(df, "inclusion_financiera.rds") #Guardamos los datos en formato RDS para no tener que volver a leerlos desde la url después.
getwd() #Verificamos cuál es el directorio de trabajo en el que estamos.
En caso de necesitar cambiar el directorio usar: setwd(“ubicacion del
directorio de trabajo”).
#Leemos los datos
df <- readRDS("inclusion_financiera.rds")
dim(df) #Obtenemos el tamaño de la matriz de datos. 1566595 filas (registros) y 99 columnas (variables)
head(df) #podemos observar un fragmento de los datos
table(df$NOMBRE_ENTIDAD) #Extraemos una tabla de frecuencias para la variable nombre de entidad.
Debemos corregir las categorías de la variable usando las funciones
de la librería dplyr.
#install.packages("dplyr") #instalamos la librería
library(dplyr) #cargamos la librería
df2<-df %>%
mutate(
NOMBRE_ENTIDAD = recode(
NOMBRE_ENTIDAD,
"Bancar TecnologÃa C.F." = "Bancar Tecnologia C.F.",
"Bancar Tecnología C.F." = "Bancar Tecnologia C.F.",
"Banco de Bogotá" = "Banco de Bogota",
"Banco de Bogotá" = "Banco de Bogota",
"Banco Pichióncha S.A." = "Banco Pichincha S.A.",
"Banco Serfiónanza S.A."= "Banco Serfinanza S.A.",
"Coltefiónanciera" = "Coltefinanciera",
"Cooperativa Fiónanciera de Antioquia" = "Cooperativa Financiera de Antioquia",
"Fiónanciera Juriscoop C.F." = "Financiera Juriscoop C.F.",
"Fiónandióna" = "Finandina",
"GM Financial Colombia S.A. CompañÃa De Financiamiento" = "GM Financial Colombia S.A. Compania De Financiamiento",
"GM Financial Colombia S.A. Compañía De Financiamiento" = "GM Financial Colombia S.A. Compania De Financiamiento",
"Itaú" = "Itau",
"JFK Cooperativa Fiónanciera"= "JFK Cooperativa Financiera"
)
)
table(df2$NOMBRE_ENTIDAD)
#las distribuciones de frecuencia se visualizan mejor como dataframe.
DisFNombre<-as.data.frame(table(df2$NOMBRE_ENTIDAD))
barplot(DisFNombre$Freq~DisFNombre$Var1) #gráfico por defecto
#se puede mejorar usando la librería ggplot2
#install.packages("ggplot2") #Instalamos la librería
library(ggplot2) #cargamos la librería.
ggplot(df2, aes(x = NOMBRE_ENTIDAD)) +
geom_bar(fill = "lightgray") +
labs(
title = " ",
x = "Entidad financiera",
y = "Frecuencia"
) +
theme_minimal()+
theme(
axis.text.x = element_text(size = 16),
axis.text.y = element_text(size = 16),
axis.title.x = element_text(size = 16),
axis.title.y = element_text(size = 16)
)
¿Cómo podemos mejorar la visualización?
ggplot(df2, aes(x = NOMBRE_ENTIDAD)) +
geom_bar(fill = "lightgray") +
labs(
title = " ",
x = "Entidad financiera",
y = "Frecuencia"
) +
coord_flip() +
theme_minimal()+
theme(
axis.text.x = element_text(size = 9),
axis.text.y = element_text(size = 9),
axis.title.x = element_text(size = 12),
axis.title.y = element_text(size = 12)
)
¿Otra idea?
df2top10<-as.data.frame(sort(table(df2$NOMBRE_ENTIDAD), decreasing=T)[1:10])
ggplot(df2top10, aes(x = Var1, y=Freq)) +
geom_col(fill = "lightgray") +
labs(
title = " ",
x = "Entidad financiera",
y = "Frecuencia"
) +
coord_flip() +
theme_minimal()+
theme(
axis.text.x = element_text(size = 11),
axis.text.y = element_text(size = 11),
axis.title.x = element_text(size = 12),
axis.title.y = element_text(size = 12)
)
La distribución de frecuencias la podemos completar con la frecuencia
relativa y el porcentaje de participación.
df2top102 <- df2top10 %>%
mutate(
FreqRel = Freq / sum(Freq),
Porcentaje =100*FreqRel
)
Ejemplo de diagrama de sectores
###Diagrama de sectores
ggplot(df2top102, aes(x = "", y=Freq, fill = Var1)) +
geom_col(width = 1, color="white") +
coord_polar(theta = "y") +
geom_text(
aes(label = scales::percent(round(FreqRel,2))),
position = position_stack(vjust = 0.5),
size = 3)+
theme_void() +
labs(title = "Distribución por entidad financiera", fill = "Var1") +
theme(
plot.title = element_text(hjust = 0.5, size = 16, face = "bold")
)
Podemos agregar totales.
##agregamos fila de totales
df2top102T <- df2top102 %>%
bind_rows(
data.frame(
Var1 = "Total",
Freq = sum(df2top102$Freq),
FreqRel = sum(df2top102$FreqRel),
Porcentaje= sum(df2top102$Porcentaje)
)
)
Tabla de frecuencias para datos agrupados en intervalos de clase.
#Estad?sticas descriptivas sin datos agrupados
summary(df$`(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000e+00 0.000e+00 0.000e+00 1.439e+08 0.000e+00 2.266e+12
Ejemplo de histograma
amplitud
[1] 102984442603
ggplot(df, aes(x = `(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`)) +
geom_histogram(binwidth=amplitud, fill = "lightblue") +
labs(
title = " ",
x = "Saldo cuentas de ahorro hasta 1SMMLV",
y = "Frecuencia"
) +
theme_minimal()
Excluyendo los valores iguales a cero.
X<-df$`(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`
NumCuentas<-X[which((X>=100000) & (X<=200000))]
round(summary(NumCuentas),1)
class(NumCuentas)
NumCuentas2<-as.data.frame(NumCuentas)
ggplot(NumCuentas2, aes(x =NumCuentas)) +
geom_histogram(fill = "lightblue", color="black") +
labs(
title = " ",
x = "Saldo cuentas de ahorro hasta 1SMMLV eliminando ceros",
y = "Frecuencia"
) +
theme_minimal()
numcuentasdis<-fdt(NumCuentas, breaks="Sturges", right = T)
Percentiles y medidas de dispersión de la variable saldo de cuentas
de ahorros
percs<-c(0.1, 0.25, 0.5, 0.75, 0.8, 0.9, 0.95)
quantile(X, percs)
var(X) #Varianza
sd(X) #Desviación estándar
---
title: "Análisis Exploratorio de Datos Univariados"
output:
  html_notebook
---

Este documento presenta algunos de los códigos y funciones que nos ayudarán a realizar un análisis exploratorio de datos univariado. De forma introductoria se presenta un ejemplo sobre el proceso de lectura y depuración de datos, así como la realización de gráficos, distribuciones de frecuencia y obtención de indicadores de dispersión.


```{r}
#Lectura de datos directamente desde una url. Instalamos y cargamos la librería "readr"
#install.packages("readr") Instalación
library(readr) #cargamos la librería
url <- "https://www.datos.gov.co/api/views/kx2f-xjdq/rows.csv?accessType=DOWNLOAD" #Declaramos la url

df <- read_csv(url, progress = TRUE) #Leemos los datos de la url

saveRDS(df, "inclusion_financiera.rds") #Guardamos los datos en formato RDS para no tener que volver a leerlos desde la url después.

```

```{r}
getwd() #Verificamos cuál es el directorio de trabajo en el que estamos.

```
En caso de necesitar cambiar el directorio usar: setwd("ubicacion del directorio de trabajo").

```{r}
#Leemos los datos
df <- readRDS("inclusion_financiera.rds")
dim(df) #Obtenemos el tamaño de la matriz de datos. 1566595 filas (registros) y 99 columnas (variables)
head(df) #podemos observar un fragmento de los datos
table(df$NOMBRE_ENTIDAD) #Extraemos una tabla de frecuencias para la variable nombre de entidad.
```

Debemos corregir las categorías de la variable usando las funciones de la librería dplyr.

```{r}
#install.packages("dplyr") #instalamos la librería
library(dplyr) #cargamos la librería
df2<-df %>%
  mutate(
    NOMBRE_ENTIDAD = recode(
      NOMBRE_ENTIDAD,
      "Bancar TecnologÃ­a C.F." = "Bancar Tecnologia C.F.",
      "Bancar Tecnología C.F." = "Bancar Tecnologia C.F.",
      "Banco de BogotÃ¡" = "Banco de Bogota",
      "Banco de Bogotá" = "Banco de Bogota",
      "Banco PichiÃ³ncha S.A." = "Banco Pichincha S.A.",
      "Banco SerfiÃ³nanza S.A."= "Banco Serfinanza S.A.",
      "ColtefiÃ³nanciera" = "Coltefinanciera",
      "Cooperativa FiÃ³nanciera de Antioquia" = "Cooperativa Financiera de Antioquia",
      "FiÃ³nanciera Juriscoop C.F." = "Financiera Juriscoop C.F.",
      "FiÃ³nandiÃ³na" = "Finandina",
      "GM Financial Colombia S.A. CompaÃ±Ã­a De Financiamiento" = "GM Financial Colombia S.A. Compania De Financiamiento",
      "GM Financial Colombia S.A. Compañía De Financiamiento" = "GM Financial Colombia S.A. Compania De Financiamiento",
      "ItaÃº" = "Itau",
      "JFK Cooperativa FiÃ³nanciera"= "JFK Cooperativa Financiera"
    )
  )
table(df2$NOMBRE_ENTIDAD)
#las distribuciones de frecuencia se visualizan mejor como dataframe.
DisFNombre<-as.data.frame(table(df2$NOMBRE_ENTIDAD))
barplot(DisFNombre$Freq~DisFNombre$Var1) #gráfico por defecto
#se puede mejorar usando la librería ggplot2
```

```{r}
#install.packages("ggplot2") #Instalamos la librería
library(ggplot2) #cargamos la librería.

ggplot(df2, aes(x = NOMBRE_ENTIDAD)) +
  geom_bar(fill = "lightgray") +
  labs(
    title = " ",
    x = "Entidad financiera",
    y = "Frecuencia"
  ) +
  theme_minimal()+
  theme(
    axis.text.x = element_text(size = 16),
    axis.text.y = element_text(size = 16),
    axis.title.x = element_text(size = 16),
    axis.title.y = element_text(size = 16)
  )

```

¿Cómo podemos mejorar la visualización?
```{r}
ggplot(df2, aes(x = NOMBRE_ENTIDAD)) +
  geom_bar(fill = "lightgray") +
  labs(
    title = " ",
    x = "Entidad financiera",
    y = "Frecuencia"
  ) +
  coord_flip() +
  theme_minimal()+
  theme(
    axis.text.x = element_text(size = 9),
    axis.text.y = element_text(size = 9),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12)
  )
```

¿Otra idea?

```{r}

df2top10<-as.data.frame(sort(table(df2$NOMBRE_ENTIDAD), decreasing=T)[1:10])

ggplot(df2top10, aes(x = Var1, y=Freq)) +
  geom_col(fill = "lightgray") +
  labs(
    title = " ",
    x = "Entidad financiera",
    y = "Frecuencia"
  ) +
  coord_flip() +
  theme_minimal()+
  theme(
    axis.text.x = element_text(size = 11),
    axis.text.y = element_text(size = 11),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12)
  )
```

La distribución de frecuencias la podemos completar con la frecuencia relativa y el porcentaje de participación.
```{r}
df2top102 <- df2top10 %>%
  mutate(
    FreqRel = Freq / sum(Freq),
    Porcentaje =100*FreqRel
  )
```


Ejemplo de diagrama de sectores
```{r}
###Diagrama de sectores
ggplot(df2top102, aes(x = "", y=Freq, fill = Var1)) +
  geom_col(width = 1, color="white") +
  coord_polar(theta = "y") +
  geom_text(
    aes(label = scales::percent(round(FreqRel,2))),
    position = position_stack(vjust = 0.5),
    size = 3)+
  theme_void() +
  labs(title = "Distribución por entidad financiera", fill = "Var1") +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold")
  )

```

Podemos agregar totales.
```{r}
##agregamos fila de totales
df2top102T <- df2top102 %>%
  bind_rows(
    data.frame(
      Var1 = "Total",
      Freq = sum(df2top102$Freq),
      FreqRel = sum(df2top102$FreqRel),
      Porcentaje= sum(df2top102$Porcentaje)
    )
  )
```

Tabla de frecuencias para datos agrupados en intervalos de clase.
```{r}
#install.packages("fdth") #Librería que nos ayuda a agrupar datos en intervalos de clase.
library(fdth)

dfSALDOCTASAHORRO<-fdt(df$`(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`, breaks="Sturges", right = T)
#Estad?sticas descriptivas sin datos agrupados
summary(df$`(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`) #Estadísticas de resumen para una variable cuantitativa
```
Ejemplo de histograma
```{r}
nint=round(1+(3.322*log10(dim(df)[1])),0)
rango=max(df$`(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`)-min(df$`(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`)
amplitud=rango/nint
```


```{r}
ggplot(df, aes(x = `(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`)) +
  geom_histogram(binwidth=amplitud, fill = "lightblue") +
  labs(
    title = " ",
    x = "Saldo cuentas de ahorro hasta 1SMMLV",
    y = "Frecuencia"
  ) +
  theme_minimal()
```

Excluyendo los valores iguales a cero.

```{r}
X<-df$`(20) SALDO_CTAS_AHORRO_HASTA_1SMMLV`
NumCuentas<-X[which((X>=100000) & (X<=200000))]
round(summary(NumCuentas),1)
```

```{r}
class(NumCuentas)
```



```{r}
NumCuentas2<-as.data.frame(NumCuentas)

ggplot(NumCuentas2, aes(x =NumCuentas)) +
  geom_histogram(fill = "lightblue", color="black") +
  labs(
    title = " ",
    x = "Saldo cuentas de ahorro hasta 1SMMLV eliminando ceros",
    y = "Frecuencia"
  ) +
  theme_minimal()
```

```{r}
numcuentasdis<-fdt(NumCuentas, breaks="Sturges", right = T)
```
Percentiles y medidas de dispersión de la variable saldo de cuentas de ahorros

```{r}
percs<-c(0.1, 0.25, 0.5, 0.75, 0.8, 0.9, 0.95)
quantile(X, percs)
var(X) #Varianza
sd(X) #Desviación estándar
```





