Deberán realizar un análisis estadístico que incluya gráficos para variables cualitativas y cuantitativas y todas las medidas descriptivas vistas en clase. Para esto, por favor instale el paquete datos, cárguelo y descargue la base de datos “datos_credito”.
library(datos)
library(ggplot2)
set.seed(87)
datos.c <- data.frame(datos_credito)
muestra2 <- datos.c[sample(nrow(datos.c),size=100),0:14]
Para clasificar las variables utilizamos la siguiente función:
str(muestra2)
## 'data.frame': 100 obs. of 14 variables:
## $ Estado : Factor w/ 2 levels "malo","bueno": 1 1 2 2 2 1 1 2 2 2 ...
## $ Antiguedad : int 12 6 2 15 2 0 1 20 21 3 ...
## $ Vivienda : Factor w/ 6 levels "ignorar","otra",..: 3 4 3 3 4 6 6 3 3 3 ...
## $ Plazo : int 60 60 60 36 48 48 60 12 60 36 ...
## $ Edad : int 47 23 31 51 25 32 22 49 40 37 ...
## $ EstadoCivil: Factor w/ 5 levels "divorciado","casado",..: 2 4 2 2 4 4 4 2 2 2 ...
## $ Registros : Factor w/ 2 levels "no","sí": 2 1 1 2 1 1 1 1 2 1 ...
## $ Trabajo : Factor w/ 4 levels "fijo","freelance",..: 2 1 1 2 1 1 1 1 1 2 ...
## $ Gastos : int 75 35 60 45 35 41 46 90 60 35 ...
## $ Ingresos : int 285 50 306 160 91 60 113 110 144 141 ...
## $ Activos : int 20000 0 4000 15000 0 0 0 15000 6500 5000 ...
## $ Deuda : int 0 0 0 0 0 0 0 0 0 400 ...
## $ Cantidad : int 1440 1200 1000 2000 900 800 1600 125 2000 1000 ...
## $ Precio : int 1440 1830 2095 3318 1763 1566 1989 325 2230 1912 ...
La función data.frame aplicada a la muestra2 nos arroja la estructura de la base de datos, brindando información sobre el número de filas y columnas, así como de información adicional referente al nombre de las variables, entre otros.
Por tanto, podemos clasificar a las variables en cualitativas y cuantitativas, así:
Son aquellas que no pueden medirse en términos númericos, como categorías o características. Dentro de la base de datos podemos identificar como variables cualitativas a:
Representa la frecuencia o el recuento de los diferentes resultados en un conjunto de datos o muestras.
Una tabla de frecuencias muestra de forma ordenada un conjunto de datos estadísticos y a cada uno de ellos le asigna una frecuencia que, en pocas palabras, son las veces que se repite un número o dato.
Pueden ser utilizadas para ordenar variables cualitativas o cuantitativas.
Tipos de frecuencias:
table(muestra2$Estado)
##
## malo bueno
## 32 68
fabs0 <- table(muestra2$Estado)
frel0 <- fabs0/length(muestra2$Estado)
fabsacum0 <- cumsum(fabs0)
frelacum0 <- cumsum(frel0)
tablafrecuencias0 <- cbind(fabs0,frel0,fabsacum0,frelacum0)
tablafrecuencias0
## fabs0 frel0 fabsacum0 frelacum0
## malo 32 0.32 32 0.32
## bueno 68 0.68 100 1.00
La tabla de frecuencias nos indica de manera ordenada el número de créditos malos y el número de créditos buenos dentro de la muestra (100 créditos o individuos), ya sea como un valor o como la participación porcentual dentro del total.
plot(x=muestra2$Estado, main= "Histograma sobre el Estado de los clientes, Datos_credito", xlab= "Estado", ylab= "Frecuencia", col= c("red2","springgreen"))
De esta manera, podemos saber que la entidad cuenta con 32 créditos
clasificados como “malos” y 68 créditos clasificados como “buenos”, en
términos porcentuales puede ser visualizado así:
porcentaje <- c(0.32,0.68)
etiqueta <- paste(porcentaje,"%",sep=" ")
colores <- c("red2","springgreen")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma Estado Civil de los clientes, Datos_credito")
legend("topright",c("Malo","Bueno"),cex=0.8,fill= colores)
table(muestra2$Vivienda)
##
## ignorar otra propietario padres privado alquila
## 0 5 41 25 9 19
plot(x=muestra2$Vivienda, main= "Vivienda de los clientes, Datos_credito", xlab= "Estado", ylab= "Frecuencia", col= c("saddlebrown","sandybrown","moccasin","blanchedalmond","darksalmon","salmon1"))
porcentaje <- c(0,0.05,0.41,0.25,0.09,0.19)
etiqueta <- paste(porcentaje,"%",sep=" ")
colores <- c("saddlebrown","sandybrown","moccasin","blanchedalmond","darksalmon","salmon1")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma, Vivienda de los clientes, Datos_credito")
legend("topright",c("Ignorar","Otra","Propietario","Padres","Privado","Alquila"),cex=0.8,fill= colores)
table(muestra2$Estado)
##
## malo bueno
## 32 68
table(muestra2$EstadoCivil)
##
## divorciado casado separado soltero viudo
## 1 64 4 30 1
La tabla nos permite evidenciar el estado civil de la muestra, siendo estos 5 estados, variando entre divorciado (1), casado (64), separado (4), solter0 (30) y viudo (1).
plot(x=muestra2$EstadoCivil, main= "Histograma sobre el Estado Civil de los clientes, Datos_credito", xlab= "Estado Civil", ylab= "Frecuencia", col= c("lightsteelblue1","paleturquoise3","azure3","plum","pink3"))
porcentaje <- c(0.01,0.64,0.04,0.3,0.01)
etiqueta <- paste(porcentaje,"%",sep=" ")
colores <- c("lightsteelblue1","paleturquoise3","azure3","plum","pink3")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma Estado Civil de los clientes, Datos_credito")
legend("topright",c("Divorciado","Casado","Separado","Soltero","Viudo"),cex=0.8,fill= colores)
table(muestra2$Registros)
##
## no sí
## 82 18
plot(x=muestra2$Registros, main= "Histograma sobre el Registro de créditos, Datos_credito", xlab= "Estado", ylab= "Frecuencia", col= c("lightblue3","indianred"))
porcentaje <- c(0.82,0.18)
etiqueta <- paste(porcentaje,"%",sep=" ")
colores <- c("lightblue3","indianred")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma sobre el Registro de créditos, Datos_crédito")
legend("topright",c("No","Sí"),cex=0.8,fill= colores)
### Tabla de frecuencia - Trabajo de los clientes
table(muestra2$Trabajo)
##
## fijo freelance otros tiempo parcial
## 61 27 3 8
plot(x=muestra2$Trabajo, main= "Trabajo de los clientes, Datos_credito", xlab= "Tipo de trabajo", ylab= "Frecuencia", col= c("darkorange","tan1","yellow","gold"))
porcentaje <- c(0.61,0.27,0.03,0.08)
etiqueta <- paste(porcentaje,"%",sep=" ")
colores <- c("darkorange","tan1","yellow","gold")
pie(porcentaje,labels= etiqueta,clockwise = TRUE,col=colores, main = "Histograma sobre el Registro de créditos, Datos_crédito")
legend("topright",c("Fijo","Freelance","Otros","Tiempo parcial"),cex=0.8,fill= colores)
Gracias a las gráficas, sabemos quel 61% de los créditos son otrogrados a personas con trabajo fijo, el 27% cuenta con trabajos freelance y un 11% de los créditos es otorgado a personas con otro tiepo de trabajo (3%) o personas con trabajo de tiempo parcial (8%).
La tendencia central es otro de los tipos de estadística descriptiva, y se refiere al resumen descriptivo de un conjunto de datos utilizando un único valor que refleja el centro de la distribución de los datos.
Las medidas que se consideran de tendecia central son:
Aplicado a nuestras variables, las medidas de tendencia se pueden ver así:
names(muestra2)
## [1] "Estado" "Antiguedad" "Vivienda" "Plazo" "Edad"
## [6] "EstadoCivil" "Registros" "Trabajo" "Gastos" "Ingresos"
## [11] "Activos" "Deuda" "Cantidad" "Precio"
Media_Precio <- mean(muestra2$Precio); Media_Precio
## [1] 1556.35
str(muestra2$Precio)
## int [1:100] 1440 1830 2095 3318 1763 1566 1989 325 2230 1912 ...
La media del total de créditos, dentro de la muestra, es
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
TablaFrecuenciaPrecio <- fdt(muestra2$Precio,breaks = "Sturges"); TablaFrecuenciaPrecio
## Class limits f rf rf(%) cf cf(%)
## [321.75,712.675) 8 0.08 8 8 8
## [712.675,1103.6) 13 0.13 13 21 21
## [1103.6,1494.525) 26 0.26 26 47 47
## [1494.525,1885.45) 28 0.28 28 75 75
## [1885.45,2276.375) 18 0.18 18 93 93
## [2276.375,2667.3) 3 0.03 3 96 96
## [2667.3,3058.225) 2 0.02 2 98 98
## [3058.225,3449.15) 2 0.02 2 100 100
De esta manera, contamos con la distribución de frecuencias utilizando la regla “Sturges”
Mediana_Precio <- median(muestra2$Precio); Mediana_Precio
## [1] 1580.5
library(descriptr)
Moda_Precio <- ds_mode(muestra2$Precio); Moda_Precio
## [1] 1700
library(ggplot2)
Una medida de variabilidad es una estadística de resumen que refleja el grado de dispersión de una muestra. Las medidas de variabilidad determinan la distancia que los puntos de datos parecen tener con respecto al centro.