imagen
imagen

ESTADISTICA DESCRIPTIVA

Librerias

Las librerias son paquetes o bibliotecas de codigo los cuales ya contienen ciertas funciones, datos y documentación que amplia las capacidades de R.

A continuación la lista de librerias usadas en el trabajo.

library(datos)
library(ggplot2)
library(viridisLite)
library(viridis)
library(plotrix)
library(rmarkdown)
library(descriptr)
library(fdth)
library(DT)
library(gt)
library(kableExtra)
library(knitr)
library(dplyr)
library(ggthemes)
library(gridExtra)

Datos Credito

Se realizará un análisis descriptivo del paquete datos, más especificamente de la base de datos credito, de la cual se tomara una muestra de 100 datos con respecto al credito, donde se encuentran datos tanto cualitativos como cuantitativos.

set.seed(8626) 
datos.c = data.frame(datos_credito)
muestra2 = datos.c[sample(nrow(datos.c),size=100),0:14]

Debido a que la base de datos credito tiene más de 4000 entradas tomaremos una muestra como se menciono anteriormente, esta se obtendra utilizando la muestra2 y la función set.seed para que todos obtengamos el mismo resultado.

Base de Datos

Con esta base de datos estaremos haciendo los respectivos analisis durante el trabajo contando asi con datos tanto cualitativos como cuantitativos

Variables Cualitativas

Las variables cualitativas que podemos encontrar en esta dase de datos son: estado, vivienda, estado civil y trabajo, empezaremos con dichas variables, ya que, estas nos expresan ciertas caracteristicas sobre los elementos a analizar.

Con estas variables podremos obtener graficas como la de barras o pastel las cuales permitiran un mejor analisis.

Frecuencia Absoluta

La frecuencia absoluta es el numero de veces que se repite un resultado dentro de una muestra.

Estado

Representa el estado actual del crédito.

Tabla de Frecuencía Absoluta

Estado = data.frame(table(Estado=muestra2$Estado))
Estado

Esta tabla representa la frecuencia absoluta con la cual podremos realizar las respectivas graficas.

Diagrama de Barras

barra_Estado <- ggplot(muestra2, aes(x = Estado, fill = Estado)) +
  geom_bar(lwd = 1, color = "black") +  # Cambiar el color del borde de las barras a negro
  scale_fill_manual(values = c("white", "#2e44a7", "#FFA500", "#00FF00")) +
  theme(legend.position = "bottom") + theme(panel.background = element_rect(fill = "#CCE0F0"), plot.background = element_rect(fill = "white"), axis.text = element_text(color = "black"),  legend.text = element_text(color = "black"), legend.title = element_text(color = "black"))
print(barra_Estado)

En en el anterior diagrama de barras podemos observar los cambios en el estado del crédito de nuestra muestra, donde “bueno” representa una mayor cantidad, este se repite 67 veces y “malo” siendo menor, se repite 33 veces.

Vivienda

Indica el tipo de vivienda que habita la persona siendo que esta pueda ser alquilada, propia, privada, entre otras.

Tabla de Frecuencía Absoluta

Vivienda = data.frame(table(Vivienda=muestra2$Vivienda))
Vivienda

Esta tabla representa la frecuencia absoluta con la cual podremos realizar las respectivas graficas.

Diagrama de Barras

barra_Vivienda <- ggplot(muestra2, aes(x = Vivienda, fill = Vivienda)) +
  geom_bar(lwd = 1, color = "black") +  # Cambiar el color del borde de las barras a negro
  scale_fill_manual(values = c("#2e44a7", "#769ed3", "#9acae9", "#bef7ff", "white")) +
  theme(legend.position = "bottom") + theme(panel.background = element_rect(fill = "#CCE0F0"), plot.background = element_rect(fill = "white"), axis.text = element_text(color = "black"),  legend.text = element_text(color = "black"), legend.title = element_text(color = "black"))
print(barra_Vivienda)

Este diagrama de barra nos muestra las cantidades de cada uno de los tipos de vivienda, encontramos una frecuencia mayor en las personas que son propietarias, esta se repite 49 veces, con frecuencias menores encontramos a las personas que viven con los padres o alquilan la propiedad,18 y 19 respectivamente, finalmente se encuentran las frecuencias de las personas que cuentan con propiedad privada u otras, con valores de 6 y 8 para cada una.

Estado Civil

Da la información respecto al estado civil de la persona, siendo que pueda encontrarse casado, viudo, divorciado, soltero, etc.

Tabla de frecuencia Absoluta

EstadoCivil = data.frame(table(Estado_Civil=muestra2$EstadoCivil))
EstadoCivil

Esta tabla representa la frecuencia absoluta con la cual podremos realizar las respectivas graficas.

Diagrama de Barras

barra_EstadoCivil1 <- ggplot(muestra2, aes(x = EstadoCivil, fill = EstadoCivil)) +
  geom_bar(lwd = 1, color = "black") +  # Cambiar el color del borde de las barras a negro
  scale_fill_manual(values = c("#2e44a7", "#769ed3", "#9acae9", "#bef7ff", "white")) +
  theme(legend.position = "bottom") + theme(panel.background = element_rect(fill = "#CCE0F0"), plot.background = element_rect(fill = "white"), axis.text = element_text(color = "black"),  legend.text = element_text(color = "black"), legend.title = element_text(color = "black"))
print(barra_EstadoCivil1)

En este diagrama de barras podemos observar distintas variables acerca del estado civil de las personas, encontramos a quienes están casados con una frecuencia de 70, muy por encima de las demás. Las siguientes son las personas que están solteras, con una frecuencia de 21, finalmente observamos frecuencias muy similares para las personas divorciadas, separadas y viudas, con valores de 2, 4 y 3. Todos los datos anteriores nos ofrecen información acerca de las variaciones que pueden ser de vital importancia al momento de considerar a las personas participantes en nuestra muestra.

Trabajo

Especifica el tipo de trabajo que realiza la persona.

Tabla de frecuencia Absoluta

Trabajo = data.frame(table(Trabajo=muestra2$Trabajo))
Trabajo

Esta tabla representa la frecuencia absoluta con la cual podremos realizar las respectivas graficas.

Diagrama de Barras

barra_Trabajo <- ggplot(muestra2, aes(x = Trabajo, fill = Trabajo)) +
  geom_bar(lwd = 1, color = "black") +  # Cambiar el color del borde de las barras a negro
  scale_fill_manual(values = c("#2e44a7", "#5271bd", "#9acae9", "white")) +
  theme(legend.position = "bottom") + theme(panel.background = element_rect(fill = "#CCE0F0"), plot.background = element_rect(fill = "white"), axis.text = element_text(color = "black"),  legend.text = element_text(color = "black"), legend.title = element_text(color = "black"))
print(barra_Trabajo)

Acerca del trabajo de las personas y el diagrama de barras, tenemos la siguiente información: una frecuencia de 65 para las personas con trabajo fijo, 26 para freelance, 8 en personas que trabajan a tiempo parcial y 1 en otros tipos de trabajo de los que no tenemos conocimiento. Esta información es bastante relevante si consideramos que nuestros datos pertenecen a creditos de consumo sobre estas personas.

Frecuencia Relativa

la frecuencia relativa nos informa acerca de la proporción o el porcentaje de veces que sucede un valor especifico dentro de un conjunto de datos en relación con el tamaño total de datos.

Esta se calcula teniendo la frecuencia absoluta sobre el tamaño total de la población.

\[ Frecuencia \ Relativa = \frac{frecuencia \ absoluta}{tamaño\ total\ del \ conjunto \ de \ datos} \]

Estado

La grafica representa la frecuencia relativa de la variable estado en porcentaje.

par(mar = c(0, 0, 0, 0))
par(bg = "#EAEBEB")

frelEstado = paste0(round(Estado$Freq/sum(Estado$Freq) * 100, 2), "%")
Leyenda = c(as.character(Estado$Estado))

pie3D(Estado$Freq,main = "Estado", col = hcl.colors(length(Estado$Freq), "Blues"), shade = 0.5, border = "black", labels = frelEstado,
      labelcol = "black",
      labelcex = 0.9,
      explode = 0.03,
      theta = 0.9)

legend("right", legend = Leyenda, fill = hcl.colors(length(Estado$Freq), "Blues"), title = "Estados", x = 0.5, y =1.2)

En esta gráfica podemos observar cada uno de los porcentajes que representan el estado actual del crédito, bueno o malo, tenemos que la frecuencia es mayor para nuestra variable “bueno” con un 67% y una frecuencia menor para “malo” con un 33%. Representando de esta manera, el 100% de la frecuencia.

Vivienda

La grafica representa la frecuencia relativa de la variable vivienda en porcentaje.

par(mar = c(0, 0, 0, 0))
par(bg = "#EAEBEB")

frelVivienda = paste0(round(Vivienda$Freq/sum(Vivienda$Freq) * 100, 2), "%")
Leyenda = c(as.character(Vivienda$Vivienda))


pie3D(Vivienda$Freq,main = "Vivivenda", col = hcl.colors(length(Vivienda$Freq), "blues"), shade = 0.5, border = "black", labels = frelVivienda,
      labelcol = "black",
      labelcex = 0.9,
      explode = 0.05,
      theta = 0.9)
legend("right", legend = Leyenda, fill = hcl.colors(length(Vivienda$Freq), "blues"), title = "Vivienda", x=0.8,y=1.4)

Aquí podemos observar los porcentajes representados por cada una de las alternativas presentes en “Vivienda”, donde con casi el 50% encontramos a las personas que son propietarias de la vivienda, los porcentajes restantes se encuentran distribuidos de la siguiente manera: 19% personas que alquilan el lugar en el que viven, 18% quienes viven con sus padres, un 6% quienes cuentan con vivienda privada y finalmente 8% de las cuales no se tiene mucha información.

Estado Civil

La grafica representa la frecuencia relativa de la variable estado civil en porcentaje.

par(mar = c(0, 0, 0, 0))
par(bg = "#EAEBEB")
frelCivil = paste0(round(EstadoCivil$Freq/sum(EstadoCivil$Freq) * 100, 2), "%")
Leyenda = c(as.character(EstadoCivil$Estado_Civil))

pie3D(EstadoCivil$Freq,main = "Estado Civil", col = hcl.colors(length(EstadoCivil$Freq), "blues"), shade = 0.5, border = "black", labels = frelCivil,
      labelcol = "black",
      labelcex = 0.9,
      explode = 0.01,
      theta = 0.9)
legend("right", legend = Leyenda, fill = hcl.colors(length(Estado$Freq), "Blues"), title = "Estado Civil", x=0.6,y=1.2)

En el gráfico se pueden ver representadas cada una de las alternativas para nuestra variable “Estado Civil”, de esta se puede concluir lo siguiente: La mayoria de las personas pertenecientes a nuestra muestra, se encuentran casadas puesto que representan el 70% de la frecuencia total, el 30% restante se encuentra distribuido entre las personas solteras (21%), separadas (4%), viudas (3%) y divorciadas (2%).

Trabajo

La grafica representa la frecuencia relativa de la variable trabajo en porcentaje.

par(mar = c(0, 0, 0, 0))
par(bg = "#EAEBEB")
frelTrabajo = paste0(round(Trabajo$Freq/sum(Trabajo$Freq) * 100, 2), "%")
Leyenda = c(as.character(Trabajo$Trabajo))

pie3D(Trabajo$Freq,main = "Tipo de Trabajo", col = hcl.colors(length(Trabajo$Freq), "blues"), shade = 0.5, border = "black", labels = frelTrabajo,
      labelcol = "black",
      labelcex = 0.9,
      explode = 0.01,
      theta = 0.9)
legend("right", legend = Leyenda, fill = hcl.colors(length(Trabajo$Freq), "Blues"), title = "Trabajo", x=0.6,y=1.2)

En esta gráfica se puede ver una variable a la que podríamos considerar relevante al momento de analizar el crédito de las personas en nuestra muestra, aquí conocemos las frecuencias en el tipo de trabajo que desempeña cada una. La mayoria, con un 65% de la frecuencia, tiene un trabajo fijo, el 26% se encuentran en trabajo freelance, el 8% trabaja a tiempo parcial y solo el 1% tiene otro tipo de trabajo.

Variables Cuantitativas

Las variables cuantitativas, son aquellas que representan cantidades numéricas y se pueden medir de manera cuantitativa, dichas variables se expresan en números.

Este tipo de variables se dividen en dos tipos de categorias:

  • Variables Cuantitativas Discretas: Estas variables representan valores numéricos especificos que son contables.

  • Variables Cuantitativas Continuas: Estas varables representan valores numéricos que pueden tomar cualquier valor dentro de un rango especifico y puede inclir valores decimales.

Dentro de este trabajo se pueden encontrar variables cuantitativas como lo son: la antiguedad, el plazo, los gastos, el ingreso, activos, deuda y precio, a medida que desarrollemos el trabajo designaremos si cada una de estas es Continua o Discreta

Para esta parte del trabajo es importante tener encuenta los conceptos de moda, media y mediana, ya que, los usaremos cuando estemos, analizando las medidas de tendencia central.

Moda : Este nos representa el valor o los valores que aparecen con mayor frecuencia en una muestra de datos.

Para calcular esta en R se usa la función mode

Media : Esta se utiliza para representar un valor central dentro de un conjunto de datos numéricos, para calcular esta se suman todos los valores en el conjunto de datos y luego divides esa suma por la cantidad de valores.

\[ Media = \frac{Suma \ de \ todos \ los \ valores}{Cantidad \ de \ Valores} \]

Para calcular esta en R se usa la función mean

Mediana : Esta se utiliza para representar un valor central dentro de un conjunto de datos, en otras palabras este es el valor que ocupa la posición central cuando los datos estan ordenados en orden ascendente o descendente.

Para calcular esta en R se usa la función median

tablaresultado = ds_tidy_stats(muestra2)
tablaresultado

Antiguedad

Tabla de Frecuencia

as.data.frame(fdt(muestra2$Antiguedad))

Histograma

ggplot(muestra2, aes(x = Antiguedad)) + 
  geom_histogram(bins = 20, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 7.48
  • La moda es de : 4
  • La mediana es de : 3
  moda_ca<-mfv(muestra2$Antiguedad)
  media_ca<-mean(muestra2$Antiguedad)
  mediana_ca<-median(muestra2$Antiguedad)

ggplot(muestra2, aes(x = Antiguedad)) + 
  geom_histogram(aes(y = after_stat(density)),
                 fill = "lightyellow", alpha = 0.5, colour = 4, bins = 20) +
  geom_density(aes(colour = "densidad"),
               fill = "#685ad3", alpha = 0.5,lwd = 0.1, linetype = 2) +
       geom_vline(aes(xintercept =moda_ca, color="moda"),
              lty="dashed",
             lwd = 2)+
       geom_vline(aes(xintercept =media_ca, color="media"),
              lty="dashed",
             lwd = 2) +
       geom_vline(aes(xintercept =mediana_ca, color="mediana"),
              lty="dashed",
             lwd = 2)+

      scale_color_manual(name = "Estadisticas", values = c("moda" = "black", "media" = "#2ada2d", "mediana" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Antiguedad, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Antiguedad")

Para esta variable cuantitativa discreta, se tiene una clasificación por periodos de tiempo. Se tiene que; el dato mínimo, es de 0 periodos; el máximo, de 40; el promedio, 7.4 periodos; la mediana, 4 periodos; y por último, la moda en 4 periodos.

Los datos tienen una desviación estándar de 8.5, por lo que se infiere que están relativamente dispersos del promedio, sin embargo, vale la pena aclarar que existen varios datos atípicos que se acercan al máximo de los datos.

Por otro lado, para esta variable se tiene una curtosis de 2.9, muy cercana a 3, por lo que se concluye que se acerca a la mesocurtosis, es decir, los datos están concentrados alrededor del promedio.

Estos datos dan a entender que la compañía suele dar créditos a gente con poca o intermedia experiencia laboral, pues la mayoría de datos se concentran entre 0 y 10 periodos laborales.

Plazo

Tabla de Frecuencia

as.data.frame(fdt(muestra2$Plazo))

Histograma

ggplot(muestra2, aes(x = Plazo)) + 
  geom_histogram(bins = 5, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 46.2
  • La moda es de : 60
  • La mediana es de : 48
  moda_ca<-mfv(muestra2$Plazo)
  media_ca<-mean(muestra2$Plazo)
  mediana_ca<-median(muestra2$Plazo)

ggplot(muestra2, aes(x = Plazo)) + 
  geom_histogram(aes(y = after_stat(density)),
                 fill = "lightyellow", alpha = 0.5, colour = 4, bins = 5) +
  geom_density(aes(colour = "densidad"),
               fill = "#685ad3", alpha = 0.5,lwd = 0.1, linetype = 2) +
       geom_vline(aes(xintercept =moda_ca, color="moda"),
              lty="dashed",
             lwd = 2)+
       geom_vline(aes(xintercept =media_ca, color="media"),
              lty="dashed",
             lwd = 2) +
       geom_vline(aes(xintercept =mediana_ca, color="mediana"),
              lty="dashed",
             lwd = 2)+

      scale_color_manual(name = "Estadisticas", values = c("moda" = "black", "media" = "#2ada2d", "mediana" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Plazo, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Plazo")

Para esta variable se tiene que el valor máximo plazo del crédito son 60 meses, y el mínimo, 6. Las medidas de tendencia central son; el promedio, 46.2 meses; la mediana, 48 meses; y la moda, 60.

La desviación de la duración del crédito en meses, respecto a su promedio (46.2 meses), es de 14.5 meses. Por otra parte su curtosis es de -0.15, que es menor que tres, lo que indica que es platicúrtica, es decir, sus datos no están concentrados en gran cantidad, respecto al promedio.

De esto se puede inferir que la empresa desembolsa créditos, en su mayoría, de largo plazo, pues las medidas de tendencia central superan los 12 meses. Y no posee datos atípicos.

Edad

Tabla de Frecuencia

as.data.frame(fdt(muestra2$Edad))

Histograma

ggplot(muestra2, aes(x = Edad)) + 
  geom_histogram(bins = 30, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 36.13
  • La moda es de : 34
  • La mediana es de : 34
  moda_ca<-mfv(muestra2$Edad)
  media_ca<-mean(muestra2$Edad)
  mediana_ca<-median(muestra2$Edad)

ggplot(muestra2, aes(x = Edad)) + 
  geom_histogram(aes(y = after_stat(density)),
                 fill = "lightyellow", alpha = 0.5, colour = 4, bins = 30) +
  geom_density(aes(colour = "densidad"),
               fill = "#685ad3", alpha = 0.5,lwd = 0.1, linetype = 2) +
       geom_vline(aes(xintercept =moda_ca, color="moda"),
              lty="dashed",
             lwd = 2)+
       geom_vline(aes(xintercept =media_ca, color="media"),
              lty="dashed",
             lwd = 2) +
       geom_vline(aes(xintercept =mediana_ca, color="mediana"),
              lty="dashed",
             lwd = 2)+

      scale_color_manual(name = "Estadisticas", values = c("moda" = "black", "media" = "#2ada2d", "mediana" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Edad, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Edad")

Para esta variable se tiene que la edad de los clientes máxima son 66 años, y la mínima, 19. Las medidas de tendencia central son; el promedio, 36.13 años; la mediana, 34 años; y la moda, 34 años.

La desviación estándar de la edad de los clientes en esta compañía respecto a su promedio es de 10.63 años. Su curtosis es de 0.3, menor a 3, por lo que es platicúrtica, es decir, sus datos no están concentrados en gran cantidad, respecto al promedio. Posee datos atípicos que se acercan al máximo.

Las personas de esta muestra están en la mediana edad, lo que es un dato de interés para realizar algún tipo de decisión financiera frente a los créditos.

Gastos

Tabla de Frecuencia

as.data.frame(fdt(muestra2$Gastos))

Histograma

ggplot(muestra2, aes(x = Gastos)) + 
  geom_histogram(bins = 15, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 55.47
  • La moda es de : 35
  • La mediana es de : 47.5
  moda_ca<-mfv(muestra2$Gastos)
  media_ca<-mean(muestra2$Gastos)
  mediana_ca<-median(muestra2$Gastos)

ggplot(muestra2, aes(x = Gastos)) + 
  geom_histogram(aes(y = after_stat(density)),
                 fill = "lightyellow", alpha = 0.5, colour = 4, bins = 15) +
  geom_density(aes(colour = "densidad"),
               fill = "#685ad3", alpha = 0.5,lwd = 0.1, linetype = 2) +
       geom_vline(aes(xintercept =moda_ca, color="moda"),
              lty="dashed",
             lwd = 2)+
       geom_vline(aes(xintercept =media_ca, color="media"),
              lty="dashed",
             lwd = 2) +
       geom_vline(aes(xintercept =mediana_ca, color="mediana"),
              lty="dashed",
             lwd = 2)+

      scale_color_manual(name = "Estadisticas", values = c("moda" = "black", "media" = "#2ada2d", "mediana" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Gastos, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Gastos")

Para el análisis del gasto de los clientes se tiene que el valor máximo de los gastos es de 105 unidades monetarias, y el mínimo de 35. Las medidas de tendencia central son el promedio: 55.4 unidades monetarias; la moda, 35 unidades monetarias; la mediana es de 47.5 unidades monetarias

La desviación estándar de los gastos de los clientes en esta compañía respecto a su promedio es de 19 unidades monetarias. Su curtosis es de -0.4, menor a 3, por lo que es platicúrtica, es decir, sus datos no están concentrados en gran cantidad, respecto al promedio. Posee un dato atípico que es el máximo.

Los clientes de esta compañía tienen un gasto medio, lo cual no puede ser buen indicador para el pago oportuno de las cuotas del crédito, puesto que no se conoce el ratio entre los gastos y el ingreso del usuario.

Ingresos

Histograma

ggplot(muestra2, aes(x = Ingresos)) + 
  geom_histogram(bins = 24, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 156.76
  • La moda es de : 150
  • La mediana es de : 135

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Ingresos, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Ingresos")

Para el análisis del ingreso de los clientes se tiene que el valor máximo del ingreso es de 535 unidades monetarias, y el mínimo de 45. Las medidas de tendencia central son el promedio: 156.7 unidades monetarias; la moda, 150 unidades monetarias; la mediana es de 135 unidades monetarias.

La desviación estándar de los ingresos de los clientes en esta compañía respecto a su promedio es de 85.8 unidades monetarias. Su curtosis es de 1.6, menor a 3, por lo que es platicúrtica, es decir, sus datos no están concentrados en gran cantidad, respecto al promedio. Posee un dato atípico que es el máximo.

Se puede concluir que la mayoría de los datos se agrupan entre 100 y 200 unidades monetarias, que al analizar junto a los gastos, se encuentran muy a la par, lo que puede indicar que el pago del crédito, se hará a un mayor número de cuotas, en promedio, puesto que existen otros casos donde los ingresos llegan hasta un poco más de 500, lo que da un rango mayor de acción frente al pago del crédito

Activos

Tabla de Frecuencia

as.data.frame(fdt(muestra2$Activos))

Histograma

ggplot(muestra2, aes(x = Activos)) + 
  geom_histogram(bins = 15, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 5578.51
  • La moda es de : 0
  • La mediana es de : 3500
  moda_ca<-mfv(muestra2$Activos)
  media_ca<-mean(muestra2$Activos)
  mediana_ca<-median(muestra2$Activos)

ggplot(muestra2, aes(x = Activos)) + 
  geom_histogram(aes(y = after_stat(density)),
                 fill = "lightyellow", alpha = 0.5, colour = 4, bins = 15) +
  geom_density(aes(colour = "densidad"),
               fill = "#685ad3", alpha = 0.5,lwd = 0.1, linetype = 2) +
       geom_vline(aes(xintercept =moda_ca, color="moda"),
              lty="dashed",
             lwd = 2)+
       geom_vline(aes(xintercept =media_ca, color="media"),
              lty="dashed",
             lwd = 2) +
       geom_vline(aes(xintercept =mediana_ca, color="mediana"),
              lty="dashed",
             lwd = 2)+

      scale_color_manual(name = "Estadisticas", values = c("moda" = "black", "media" = "#2ada2d", "mediana" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Activos, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Activos")

Para el análisis de los activos y su valor se tiene que el valor máximo de los activos de un cliente es de 60000 unidades monetarias, y el mínimo de 0. Las medidas de tendencia central son el promedio: 156.7 unidades monetarias; la moda, 0 unidades monetarias; la mediana es de 135 unidades monetarias.

La desviación estándar del valor de los activos de los clientes en esta compañía, respecto a su promedio, es de 8629.99 unidades monetarias. Su curtosis es de 19, mayor a 3, por lo que es leptocúrtica, es decir, sus datos no están concentrados en gran cantidad, respecto al promedio. Posee varios datos atípicos que se encuentran desde las 20000 unidades monetarias, lo que afecta al promedio.

La perspectiva de esta variable puede ser ambigua, porque si bien existe una garantía hipotecaria, al tener una distribución leptocúrtica, con un promedio distinto de 0, es menester resaltar que la moda es de 0, por lo que muchos clientes no tienen garantía hipotecaría al incumplimiento del pago del crédito. Esto es un grave problema para la compañía que presta dinero. Sin embargo, al complementar este análisis con otras variables, se puede entender desde una mejor perspectiva el comportamiento y caracterización de los clientes.

Deuda

Tabla de Frecuencia

as.data.frame(fdt(muestra2$Deuda))

Histograma

ggplot(muestra2, aes(x = Deuda)) + 
  geom_histogram(bins = 15, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 637.42
  • La moda es de : 0
  • La mediana es de : 0
  moda_ca<-mfv(muestra2$Deuda)
  media_ca<-mean(muestra2$Deuda)
  mediana_ca<-median(muestra2$Deuda)

ggplot(muestra2, aes(x = Deuda)) + 
  geom_histogram(aes(y = after_stat(density)),
                 fill = "lightyellow", alpha = 0.5, colour = 4, bins = 15) +
  geom_density(aes(colour = "densidad"),
               fill = "#685ad3", alpha = 0.5,lwd = 0.1, linetype = 2) +
       geom_vline(aes(xintercept =moda_ca, color="moda"),
              lty="dashed",
             lwd = 1)+
       geom_vline(aes(xintercept =media_ca, color="media"),
              lty="dashed",
             lwd = 2) +
       geom_vline(aes(xintercept =mediana_ca, color="mediana"),
              lty="dashed",
             lwd = 2)+

      scale_color_manual(name = "Estadisticas", values = c("moda" = "black", "media" = "#2ada2d", "mediana" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Deuda, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Deuda")

Tenemos una variable cuantitativa continua que puede ser representada en diversas cantidades, cada una con sus propias características. Esta variable varía desde un valor mínimo de 0 hasta uno máximo de 10,500, lo que sugiere la posible presencia de valores atípicos que indican deudas significativamente más altas en comparación con otras. La media de la variable “Deuda” se sitúa en aproximadamente 637.42, lo que implica que, en promedio, las observaciones presentan una cantidad de deuda cercana a este valor.

La moda de 0 revela que el valor más frecuente en la variable es 0, lo que podría indicar que muchas observaciones tienen una deuda muy baja. Esto también se ve reflejado en la mediana que es igual a 0, indicando que el 50% de las observaciones tienen una deuda igual o inferior a 0. Estos patrones se reflejan claramente en nuestro histograma, donde la mayoría de las barras se agrupan en valores cercanos a 0.

La desviación estándar de 1658.4 nos indica que los valores de “Deuda” tienden a fluctuar alrededor de la media de 637.42 en un rango de aproximadamente ±1658.4. Además, la curtosis de 15.02 sugiere que la distribución de “Deuda” es más puntiaguda o afilada en comparación con una distribución normal estándar en forma de campana. Estos patrones pueden ser analizados de forma más clara en nuestra gráfica de caja, el histograma y la tabla de frecuencia.

Cantidad

Tabla de Frecuencia

as.data.frame(fdt(muestra2$Deuda))

Histograma

ggplot(muestra2, aes(x = Cantidad)) + 
  geom_histogram(bins = 12, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 1037.54
  • La moda es de : 1000
  • La mediana es de : 1000
  moda_ca<-mfv(muestra2$Cantidad)
  media_ca<-mean(muestra2$Cantidad)
  mediana_ca<-median(muestra2$Cantidad)

ggplot(muestra2, aes(x = Cantidad)) + 
  geom_histogram(aes(y = after_stat(density)),
                 fill = "lightyellow", alpha = 0.5, colour = 4, bins = 15) +
  geom_density(aes(colour = "densidad"),
               fill = "#685ad3", alpha = 0.5,lwd = 0.1, linetype = 2) +
       geom_vline(aes(xintercept =moda_ca, color="moda"),
              lty="dashed",
             lwd = 1)+
       geom_vline(aes(xintercept =media_ca, color="media"),
              lty="dashed",
             lwd = 2) +
       geom_vline(aes(xintercept =mediana_ca, color="mediana"),
              lty="dashed",
             lwd = 2)+

      scale_color_manual(name = "Estadisticas", values = c("moda" = "black", "media" = "#2ada2d", "mediana" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Cantidad, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Cantidad")

Tenemos una variable cuantitativa discreta expresada en unidades numéricas, con diversas características que analizaremos en detalle. La variable exhibe un valor mínimo de 250, que funciona como punto de referencia en la parte inferior de la distribución de datos. Por otro lado, su valor máximo es de 2,700. La amplitud total de la variable (2,700 - 250), asciende a 2,450, indicando que la variable abarca una amplia gama de valores. En cuanto a las medidas de tendencia central, observamos que la media es de 1037.54, lo que representa el valor promedio de la variable. La mediana, situada en 1000, señala que el 50% de los datos tienen un valor igual o inferior a 1000, y la moda, también en 1000, sugiere la presencia de un pico en la distribución de datos en torno a este valor. La leve diferencia entre la media (1037.54) y la mediana (1000) podría insinuar una ligera asimetría positiva en la distribución de los datos.

La desviación estándar, cifrada en 456.07, indica que los valores de la “Cantidad” tienden a variar en torno a la media de 1037.54 en un rango de aproximadamente ±456.07. Por otro lado, la curtosis de 1.73 revela una distribución leptocúrtica, lo que sugiere una concentración de datos en la región central de la distribución y colas más ligeras que las de una distribución normal.

Todos los datos que se mencionaron anteriormente pueden ser analizados de forma más detenida en nuestro Histograma, diagrama de caja y tabla de frecuencia. En ellos se pueden visualizar los comportamientos de nuestra variable y los posibles datos atípicos que se presentan.

Precio

Tabla de Frecuencia

as.data.frame(fdt(muestra2$Precio))

Histograma

ggplot(muestra2, aes(x = Precio)) + 
  geom_histogram(bins = 12, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

Medidas de Tendencia Central

  • La media es de : 1448.74
  • La moda es de : 800
  • La mediana es de : 1360
  moda_ca<-mfv(muestra2$Precio)
  media_ca<-mean(muestra2$Precio)
  mediana_ca<-median(muestra2$Precio)

ggplot(muestra2, aes(x = Precio)) + 
  geom_histogram(aes(y = after_stat(density)),
                 fill = "lightyellow", alpha = 0.5, colour = 4, bins = 15) +
  geom_density(aes(colour = "densidad"),
               fill = "#685ad3", alpha = 0.5,lwd = 0.1, linetype = 2) +
       geom_vline(aes(xintercept =moda_ca, color="moda"),
              lty="dashed",
             lwd = 2)+
       geom_vline(aes(xintercept =media_ca, color="media"),
              lty="dashed",
             lwd = 2) +
       geom_vline(aes(xintercept =mediana_ca, color="mediana"),
              lty="dashed",
             lwd = 2)+

      scale_color_manual(name = "Estadisticas", values = c("moda" = "black", "media" = "#2ada2d", "mediana" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Grafica de Caja

par(bg = "#e4dcff") 

boxplot(muestra2$Precio, horizontal = TRUE,
        boxwex = 1, 
        boxlty = 1,   
        boxlwd = 1,   
        boxcol = 1,   
        boxfill = "#685ad3",
        whisklty = 2,       
        whisklwd = 2,      
        whiskcol = "#BC3030",
        border = "black", 
        main = "Box plot de Precio")

Tenemos una variable cuantitativa continua, que puede ser expresada en distintas cantidades monetarias y que posee las siguientes características: Dato Mínimo de 500 el cual indica el precio más bajo en el conjunto de datos, un dato Máximo de 4,138 el cual establece el límite superior de la distribución de precios.

Para las medidas de tendencia central tenemos una media de 1,448.74, esta es el promedio de los precios en el conjunto de datos. Una mediana de 1360 que es el valor que separa el 50% superior e inferior de los precios en orden. Es menos sensible a valores extremos que la media y es una medida de tendencia central robusta. También contamos con una moda de 800 la cual indica que el valor más común en la variable “Precio” es 800.

La desviación estándar es de 579.8 y mide la dispersión de los precios. Indica que los precios tienden a variar en torno a la media de 1,448.74 en un rango de aproximadamente ±579.8. También poseemos información acerca de la curtosis la cual es de 5.05 y esta indica que la distribución de los precios es leptocúrtica, es decir, tiene colas pesadas y picos pronunciados.

Debemos tener en cuenta que algunos de estos datos pueden ser altamente variables y atípicos. Para tener una vista más detallada, se pueden analizar cada uno de los gráficos dispuestos para esto, en ellos se encuentra toda la información mencionada anteriormente pero de forma gráfica.

Desviaciones y Varianzas

Dispersión

Ingresos y Activos

plot(x=muestra2$Ingresos, y=muestra2$Activos, xlab="Ingresos", ylab="Activos", col= hcl.colors(3,"Sunset"), main="Dispersion Ingreso con Activos") 

Ingresos y Deuda

plot(x=muestra2$Ingresos, y=muestra2$Deuda, xlab="Ingresos", ylab="Deuda", col= hcl.colors(5,"Sunset"), main="Dispersion Ingreso con Deuda") 

Ingresos y Gastos

plot(x=muestra2$Ingresos, y=muestra2$Gastos, xlab="Ingresos", ylab="Gastos", col= hcl.colors(3,"Sunset"), main="Dispersion Ingreso con Gastos") 

Ingresos y Precios

plot(x=muestra2$Ingresos, y=muestra2$Precio, xlab="Ingresos", ylab="Precio", col= hcl.colors(5,"Sunset"), main="Dispersion Ingreso con Precios") 

Comparación Ingreso, Gastos, Deudas, Precios

En los siguientes gráficos se representan las variables de ingreso, gasto, deuda y precio, los cuales pueden ser de vital importancia si consideramos el impacto que tienen sobre la muestra que tomamos a partir de datos de crédito, estos ya fueron analizados anteriormente de forma individual, lo cual nos ha permitido obtener una comprensión detallada de su comportamiento.

histogramaPrecio=ggplot(muestra2, aes(x = Precio)) + 
  geom_histogram(bins = 12, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

histogramaDeuda=ggplot(muestra2, aes(x = Deuda)) + 
  geom_histogram(bins = 15, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

histogramaIngresos=ggplot(muestra2, aes(x = Ingresos)) + 
  geom_histogram(bins = 24, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

histogrmaGastos=ggplot(muestra2, aes(x = Gastos)) + 
  geom_histogram(bins = 15, fill = "#685ad3", alpha = 0.5, colour = "black") +
  theme(panel.background = element_rect(fill="#e4dcff"))

denh=grid.arrange(histogramaDeuda, histogramaIngresos, histogramaPrecio, histogrmaGastos, nrow = 2)

Cuartiles y Percentiles

Los cuartiles y percentiles son medidas estadísticas utilizadas para describir la distribución de datos en un conjunto de valores. Los cuartiles dividen los datos en cuatro partes iguales. El primer cuartil (Q1) representa el valor que deja un 25% de los datos por debajo y se calcula como:

\[ Q1 = \frac{(n+1)}{4} \]

donde “n” es el número de datos. El segundo cuartil (Q2) es la mediana, dividiendo los datos en dos partes iguales y se calcula tomando el valor central si el número de datos es impar. El tercer cuartil (Q3) deja un 75% de los datos por debajo y se calcula como:

\[ Q3 = \frac{3(n+1)}{4} \]

Por otro lado, los percentiles se calculan de manera similar, donde el percentil P se obtiene como:

\[ P = \frac{P(n+1)}{100} \]

con P siendo el percentil deseado. Estas medidas son útiles para comprender la dispersión y la posición relativa de un valor en un conjunto de datos.

Activos

Cuartiles

Cuartil con respecto al 25%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Activos)
maximo.precio <- max(muestra2$Activos) 
mediana.precio <- median(muestra2$Activos)

Q1.activos <- quantile(muestra2$Activos, c(0.25), type = 6)
data.frame(Q1.activos)

Cuartil con respecto al 50%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Activos)
maximo.precio <- max(muestra2$Activos) 
mediana.precio <- median(muestra2$Activos)

Q2.activos <- quantile(muestra2$Activos, c(0.50), type = 6)
data.frame(Q2.activos)

Cuartil con respecto al 75%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Activos)
maximo.precio <- max(muestra2$Activos) 
mediana.precio <- median(muestra2$Activos)

Q3.activos <- quantile(muestra2$Activos, c(0.75), type = 6)
data.frame(Q3.activos)

Percentiles

mediana.activos2 <- median(datos$Activos)
maximo.activos2 <- max(datos$Activos)              
minimo.activos2 <- min(datos$Activos)               

percentiles.activos <- quantile(datos$Activos, c(0.01, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1), type = 6)
data.frame(percentiles.activos)

Histograma

datos.precio2 <- data.frame(muestra2$Activos)
                               
ggplot(data = muestra2, aes(x=muestra2$Activos)) +
  geom_histogram(bins = 30, fill = "#685ad3", color = "black") + 
  geom_vline(aes(xintercept = Q1.activos,
                 color = "Q1"),
             linetype = "dashed",
             linewidth = 1) +
  geom_vline(aes(xintercept = Q2.activos,            
                 color = "Q2"),
             linetype = "dashed",
             linewidth = 1) +
  geom_vline(aes(xintercept = Q3.activos,
                 color = "Q3"),
             linetype = "dashed",
            linewidth = 1) +  
  labs(title = "Histograma de Activos",subtitle =  paste("Cuartil 1 al 25% = ",Q1.activos, ", Cuartil 2 al 50% = ",Q2.activos, ", Cuartil 3 al 75% = ",Q3.activos))+
   scale_color_manual(name = "Estadisticas", values = c("Q1" = "black", "Q2" = "#2ada2d", "Q3" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Con esta gráfica podemos observar la ubicación de los datos, encontrando que el cuartil 1 se cuentran ubicados mayormente los datos tendiendo hacia cero, con el cuartil dos podemos darnos cuenta del dato que se encuentra en el punto medio y en cambio en el resto de cuartiles hay una disminución en la distribución de los datos.

Deuda

Cuartiles

Cuartil con respecto al 25%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Deuda)
maximo.precio <- max(muestra2$Deuda) 
mediana.precio <- median(muestra2$Deuda)

Q1.deuda <- quantile(muestra2$Deuda, c(0.25), type = 6)
data.frame(Q1.deuda)

Cuartil con respecto al 50%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Deuda)
maximo.precio <- max(muestra2$Deuda) 
mediana.precio <- median(muestra2$Deuda)

Q2.deuda <- quantile(muestra2$Deuda, c(0.25), type = 6)
data.frame(Q2.deuda)

Cuartil con respecto al 75%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Deuda)
maximo.precio <- max(muestra2$Deuda) 
mediana.precio <- median(muestra2$Deuda)

Q3.deuda <- quantile(muestra2$Deuda, c(0.25), type = 6)
data.frame(Q3.deuda)

Percentiles

mediana.deuda2 <- median(datos$Deuda)
maximo.deuda2 <- max(datos$Deuda)              
minimo.deuda2 <- min(datos$Deuda)               

percentiles.deuda <- quantile(datos$Deuda, c(0.01, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1), type = 6)
data.frame(percentiles.deuda)

Histograma

datos.precio2 <- data.frame(muestra2$Deuda)
                               
ggplot(data = muestra2, aes(x=muestra2$Deuda)) +
  geom_histogram(bins = 30, fill = "#685ad3", color = "black") + 
  geom_vline(aes(xintercept = Q1.deuda,
                 color = "Q1"),
             linetype = "dashed",
             linewidth = 1) +
  geom_vline(aes(xintercept = Q2.deuda,            
                 color = "Q2"),
             linetype = "dashed",
             linewidth = 2) +
  geom_vline(aes(xintercept = Q3.deuda,
                 color = "Q3"),
             linetype = "dashed",
             linewidth = 1.5) +  
  labs(title = "Histograma de Deuda",subtitle =  paste("Cuartil 1 al 25% = ",Q1.deuda, ", Cuartil 2 al 50% = ",Q2.deuda, ", Cuartil 3 al 75% = ",Q3.deuda))+
     scale_color_manual(name = "Estadisticas", values = c("Q1" = "black", "Q2" = "#2ada2d", "Q3" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Encontramos que en la distribución de los datos no se encuentran a lo largo de la grafica, encambio todos se encuentran concentrados en un punto y la distribución de los cuartiles se encuentran allí (hacia cero).

Gastos

Cuartiles

Cuartil con respecto al 25%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Gastos)
maximo.precio <- max(muestra2$Gastos) 
mediana.precio <- median(muestra2$Gastos)

Q1.gastos <- quantile(muestra2$Gastos, c(0.25), type = 6)
data.frame(Q1.gastos)

Cuartil con respecto al 50%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Gastos)
maximo.precio <- max(muestra2$Gastos) 
mediana.precio <- median(muestra2$Gastos)

Q2.gastos <- quantile(muestra2$Gastos, c(0.50), type = 6)
data.frame(Q2.gastos)

Cuartil con respecto al 75%

datos <- data.frame(muestra2) 

minimo.precio <- min(muestra2$Gastos)
maximo.precio <- max(muestra2$Gastos) 
mediana.precio <- median(muestra2$Gastos)

Q3.gastos <- quantile(muestra2$Gastos, c(0.75), type = 6)
data.frame(Q3.gastos)

Percentiles

mediana.gastos2 <- median(datos$Gastos)
maximo.gastos2 <- max(datos$Gastos)              
minimo.gastos2 <- min(datos$Gastos)               

percentiles.gastos <- quantile(datos$Gastos, c(0.01, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1), type = 6)
data.frame(percentiles.gastos)

Histograma

datos.precio2 <- data.frame(muestra2$Gastos)
                               
ggplot(data = muestra2, aes(x=muestra2$Gastos)) +
  geom_histogram(bins = 30, fill = "#685ad3", color = "black") + 
  geom_vline(aes(xintercept = Q1.gastos,
                 color = "Q1"),
             linetype = "dashed",
             linewidth = 1) +
  geom_vline(aes(xintercept = Q2.gastos,            
                 color = "Q2"),
             linetype = "dashed",
             linewidth = 1) +
  geom_vline(aes(xintercept = Q3.gastos,
                 color = "Q3"),
             linetype = "dashed",
             linewidth = 1) +  
  labs(title = "Histograma de Gastos",subtitle =  paste("Cuartil 1 al 25% = ",Q1.gastos, ", Cuartil 2 al 50% = ",Q2.gastos, ", Cuartil 3 al 75% = ",Q3.gastos))+
  
   scale_color_manual(name = "Estadisticas", values = c("Q1" = "black", "Q2" = "#2ada2d", "Q3" = "#A72A2A", "densidad"="palegreen4"))+
  theme_bw() + 
  theme(panel.background = element_rect(fill = "#e4dcff"),  
        plot.background = element_rect(fill="white"))

Podemos ver que los datos se encuentran mayormente entre 35 y 100, representando que el cuartil uno se encuentra con la mayor parte de los datos, sin embargo los cuartiles dos y tres se encuentran distribuidos en diferentes partes de la gráfica, pero al final con una tendencia hacia la izquierda.

Conclusiones

A partir de la realización del anterior trabajo, pudimos realizar un análisis detallado sobre una muestra de la base de datos crédito, donde por medio de tablas, gráficos de barras, gráficos de pastel, histogramas y demás métodos aprendidos durante el curso, se logra tener una claridad completa acerca de la información presentada en dicha muestra.

Durante el análisis podemos apreciar de diferentes formas la información obtenida de la muestra, pues como con las variables estado, vivienda, estado civil y trabajo, vemos la misma información en forma de tabla, pero también en forma de gráfico de barras y de pastel, esto a fin de mejorar su visualización y entendimiento, pues es mucho más agradable y útil ver los datos en un gráfico y realizar las debidas comparaciones que en una forma tan elemental como lo son las tablas.

Por otra parte, los histogramas, los gráficos de tendencia central y los gráficos de caja, nos fueron de gran utilidad, principalmente en variables tales como antigüedad, plazo, edad, gastos, ingresos, activos, cantidad y precio, donde a cada una de ellas se les realizaron sus tres respectivas gráficas a base de la media, la cual fue calculada anteriormente. Estos tres tipos de gráficos nos sirven de una forma muy similar, pues todos nos representan la distribución de los datos, algunos presentan ventajas que otros no, por ejemplo, en el gráfico de caja podemos apreciar con una mayor claridad los datos outliers o datos atípicos. Además, a algunas de estas variables se les realizó el gráfico de dispersión, donde podemos apreciar la relación entre dos de estas variables, observando el comportamiento de los datos y la cercanía que hay entre ellos. Así mismo hallamos medidas como la moda, que simplemente es el dato más repetido; también hallamos la desviación estándar, la cual nos indica numéricamente la dispersión de los datos.

Por último, se realizaron los cuartiles y percentiles, donde igualmente hallamos medidas como la mediana, la cual es fundamental para obtener los cuartiles y percentiles; estos también pueden representarse gráficamente con histogramas, los cuales nos facilitan la visualización de la ubicación de los datos en los cuartiles.

Por todo lo mencionado anteriormente, se considera que se cumplió con los objetivos planteados previos a la realización del presente y que a medida de efectuar el trabajo fuimos teniendo cada vez más claros los conceptos aplicados en este.