BASE DE DATOS DATOS_CREDITO

Deberán realizar un análisis estadístico que incluya gráficos para variables cualitativas y cuantitativas y todas las medidas descriptivas vistas en clase. Para esto, por favor instale el paquete datos, cárguelo y descargue la base de datos “datos_credito”.

library(datos)
library(ggplot2)
set.seed(87)
datos.c <- data.frame(datos_credito)
muestra2 <- datos.c[sample(nrow(datos.c),size=100),0:14]

Clasificación de las variables

Para clasificar las variables utilizamos la siguiente función:

str(muestra2)
## 'data.frame':    100 obs. of  14 variables:
##  $ Estado     : Factor w/ 2 levels "malo","bueno": 1 1 2 2 2 1 1 2 2 2 ...
##  $ Antiguedad : int  12 6 2 15 2 0 1 20 21 3 ...
##  $ Vivienda   : Factor w/ 6 levels "ignorar","otra",..: 3 4 3 3 4 6 6 3 3 3 ...
##  $ Plazo      : int  60 60 60 36 48 48 60 12 60 36 ...
##  $ Edad       : int  47 23 31 51 25 32 22 49 40 37 ...
##  $ EstadoCivil: Factor w/ 5 levels "divorciado","casado",..: 2 4 2 2 4 4 4 2 2 2 ...
##  $ Registros  : Factor w/ 2 levels "no","sí": 2 1 1 2 1 1 1 1 2 1 ...
##  $ Trabajo    : Factor w/ 4 levels "fijo","freelance",..: 2 1 1 2 1 1 1 1 1 2 ...
##  $ Gastos     : int  75 35 60 45 35 41 46 90 60 35 ...
##  $ Ingresos   : int  285 50 306 160 91 60 113 110 144 141 ...
##  $ Activos    : int  20000 0 4000 15000 0 0 0 15000 6500 5000 ...
##  $ Deuda      : int  0 0 0 0 0 0 0 0 0 400 ...
##  $ Cantidad   : int  1440 1200 1000 2000 900 800 1600 125 2000 1000 ...
##  $ Precio     : int  1440 1830 2095 3318 1763 1566 1989 325 2230 1912 ...

La función data.frame aplicada a la muestra2 nos arroja la estructura de la base de datos, brindando información sobre el número de filas y columnas, así como de información adicional referente al nombre de las variables, entre otros.

Por tanto, podemos clasificar a las variables en cualitativas y cuantitativas, así:

Variables cualitativas

Son aquellas que no pueden medirse en términos númericos, como categorías o características. Dentro de la base de datos podemos identificar como variables cualitativas a:

  • Estado
  • Vivienda
  • Estado Civil
  • Registros
  • Trabajo

DISTRIBUCIÓN DE FRECUENCIAS

Representa la frecuencia o el recuento de los diferentes resultados en un conjunto de datos o muestras.

Tablas de frecuencias

Una tabla de frecuencias muestra de forma ordenada un conjunto de datos estadísticos y a cada uno de ellos le asigna una frecuencia que, en pocas palabras, son las veces que se repite un número o dato.

Pueden ser utilizadas para ordenar variables cualitativas o cuantitativas.

Tipos de frecuencias:

  • Frecuencias absolutas: son el número de veces que se repite un número en un conjunto de datos.
  • Frecuencias absolutas acumuladas: es la suma de las frecuencias absolutas.
  • Frecuencia relativa: corresponde a las veces que se repite un número en un conjunto de datos respecto al total, pero se expresa en porcentajes (%).
  • Frecuencia relativa acumulada: es la suma de las frecuencias relativas.

Tabla de frecuencia para Variables cualitativas

Tabla de frecuencia - Estado del crédito

table(muestra2$Estado)
## 
##  malo bueno 
##    32    68
fabs0 <- table(muestra2$Estado)
frel0 <- fabs0/length(muestra2$Estado)
fabsacum0 <- cumsum(fabs0)
frelacum0 <- cumsum(frel0)

tablafrecuencias0 <- cbind(fabs0,frel0,fabsacum0,frelacum0)
tablafrecuencias0
##       fabs0 frel0 fabsacum0 frelacum0
## malo     32  0.32        32      0.32
## bueno    68  0.68       100      1.00

La tabla de frecuencias nos indica de manera ordenada el número de créditos malos y el número de créditos buenos dentro de la muestra (100 créditos o individuos), ya sea como un valor o como la participación porcentual dentro del total.

Histograma Estado del crédito, Datos_credito

plot(x=muestra2$Estado, main= "Histograma sobre el Estado de los clientes, Datos_credito", xlab= "Estado", ylab= "Frecuencia", col= c("red2","springgreen"))

De esta manera, podemos saber que la entidad cuenta con 32 créditos clasificados como “malos” y 68 créditos clasificados como “buenos”, en términos porcentuales puede ser visualizado así:

Histograma porcentual Estado del crédito, Datos_credito

porcentaje <- c(0.32,0.68)
etiqueta <- paste(porcentaje,"%",sep="   ")
colores <- c("red2","springgreen")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma Estado Civil de los clientes, Datos_credito")

legend("topright",c("Malo","Bueno"),cex=0.8,fill= colores)

Tabla de frecuencia - Vivienda de los clientes

table(muestra2$Vivienda)
## 
##     ignorar        otra propietario      padres     privado     alquila 
##           0           5          41          25           9          19

Histograma Vivienda de los clientes, Datos_credito

plot(x=muestra2$Vivienda, main= "Vivienda de los clientes, Datos_credito", xlab= "Estado", ylab= "Frecuencia", col= c("saddlebrown","sandybrown","moccasin","blanchedalmond","darksalmon","salmon1"))

Histograma porcentual Estado Civil de los clientes, Datos_credito

porcentaje <- c(0,0.05,0.41,0.25,0.09,0.19)
etiqueta <- paste(porcentaje,"%",sep="   ")
colores <- c("saddlebrown","sandybrown","moccasin","blanchedalmond","darksalmon","salmon1")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma, Vivienda de los clientes, Datos_credito")

legend("topright",c("Ignorar","Otra","Propietario","Padres","Privado","Alquila"),cex=0.8,fill= colores)

table(muestra2$Estado)
## 
##  malo bueno 
##    32    68

Tablas de frecuencia - Estado civil de clientes

table(muestra2$EstadoCivil)
## 
## divorciado     casado   separado    soltero      viudo 
##          1         64          4         30          1

La tabla nos permite evidenciar el estado civil de la muestra, siendo estos 5 estados, variando entre divorciado (1), casado (64), separado (4), solter0 (30) y viudo (1).

Histograma Estado Civil de los clientes, Datos_credito

plot(x=muestra2$EstadoCivil, main= "Histograma sobre el Estado Civil de los clientes, Datos_credito", xlab= "Estado Civil", ylab= "Frecuencia", col= c("lightsteelblue1","paleturquoise3","azure3","plum","pink3"))

Histograma porcentual Estado Civil de los clientes, Datos_credito

porcentaje <- c(0.01,0.64,0.04,0.3,0.01)
etiqueta <- paste(porcentaje,"%",sep="   ")
colores <- c("lightsteelblue1","paleturquoise3","azure3","plum","pink3")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma Estado Civil de los clientes, Datos_credito")

legend("topright",c("Divorciado","Casado","Separado","Soltero","Viudo"),cex=0.8,fill= colores)

Tabla de frecuencia - Registros de los créditos

table(muestra2$Registros)
## 
## no sí 
## 82 18

Histograma sobre el Registro de créditos, Datos_credito

plot(x=muestra2$Registros, main= "Histograma sobre el Registro de créditos, Datos_credito", xlab= "Estado", ylab= "Frecuencia", col= c("lightblue3","indianred"))

Histograma sobre el registro de créditos, Datos_credito

porcentaje <- c(0.82,0.18)
etiqueta <- paste(porcentaje,"%",sep="   ")
colores <- c("lightblue3","indianred")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma sobre el Registro de créditos, Datos_crédito")

legend("topright",c("No","Sí"),cex=0.8,fill= colores)

### Tabla de frecuencia - Trabajo de los clientes

table(muestra2$Trabajo)
## 
##           fijo      freelance          otros tiempo parcial 
##             61             27              3              8

Histograma sobre el Trabajo de los clientes, Datos_credito

plot(x=muestra2$Trabajo, main= "Trabajo de los clientes, Datos_credito", xlab= "Tipo de trabajo", ylab= "Frecuencia", col= c("darkorange","tan1","yellow","gold"))

Histograma sobre el Trabajo de los clientes, Datos_credito

porcentaje <- c(0.61,0.27,0.03,0.08)
etiqueta <- paste(porcentaje,"%",sep="   ")
colores <- c("darkorange","tan1","yellow","gold")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma sobre el Registro de créditos, Datos_crédito")

legend("topright",c("Fijo","Freelance","Otros","Tiempo parcial"),cex=0.8,fill= colores)

Gracias a las gráficas, sabemos quel 61% de los créditos son otrogrados a personas con trabajo fijo, el 27% cuenta con trabajos freelance y un 11% de los créditos es otorgado a personas con otro tiepo de trabajo (3%) o personas con trabajo de tiempo parcial (8%).

TENDENCIA CENTRAL

La tendencia central es otro de los tipos de estadística descriptiva, y se refiere al resumen descriptivo de un conjunto de datos utilizando un único valor que refleja el centro de la distribución de los datos.

Las medidas que se consideran de tendecia central son:

  • Media: es el valor medio o más común en un conjunto de datos.
  • Mediana: se refiere a la puntuación media de un conjunto de datos en orden ascendente.
  • Moda: se refiere a la puntuación o valor más frecuente en un conjunto de datos.

Aplicado a nuestras variables, las medidas de tendencia se pueden ver así:

names(muestra2)
##  [1] "Estado"      "Antiguedad"  "Vivienda"    "Plazo"       "Edad"       
##  [6] "EstadoCivil" "Registros"   "Trabajo"     "Gastos"      "Ingresos"   
## [11] "Activos"     "Deuda"       "Cantidad"    "Precio"
Media_Precio <- mean(muestra2$Precio); Media_Precio
## [1] 1556.35
str(muestra2$Precio)
##  int [1:100] 1440 1830 2095 3318 1763 1566 1989 325 2230 1912 ...

La media del total de créditos, dentro de la muestra, es

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
TablaFrecuenciaPrecio <- fdt(muestra2$Precio,breaks = "Sturges"); TablaFrecuenciaPrecio
##        Class limits  f   rf rf(%)  cf cf(%)
##    [321.75,712.675)  8 0.08     8   8     8
##    [712.675,1103.6) 13 0.13    13  21    21
##   [1103.6,1494.525) 26 0.26    26  47    47
##  [1494.525,1885.45) 28 0.28    28  75    75
##  [1885.45,2276.375) 18 0.18    18  93    93
##   [2276.375,2667.3)  3 0.03     3  96    96
##   [2667.3,3058.225)  2 0.02     2  98    98
##  [3058.225,3449.15)  2 0.02     2 100   100

De esta manera, contamos con la distribución de frecuencias utilizando la regla “Sturges”

Mediana_Precio <- median(muestra2$Precio); Mediana_Precio
## [1] 1580.5
library(descriptr)
Moda_Precio <- ds_mode(muestra2$Precio); Moda_Precio
## [1] 1700
library(ggplot2)

VARIABILIDAD

Una medida de variabilidad es una estadística de resumen que refleja el grado de dispersión de una muestra. Las medidas de variabilidad determinan la distancia que los puntos de datos parecen tener con respecto al centro.