Probabilidad y estadística

Para la realización de este trabajo, sobre ‘datos’ usamos el paquete ‘datos credito’ en el cual tomamos una muestra de 80 personas. Este paquete, brinda un conjunto de datos completos que se centran en créditos de consumo. Se presenta como un data.frame que consta de 14 observaciones, cada una compuesta por 4454 variables, abordando distintos aspectos cruciales relacionados con la evaluación crediticia.

Entre las variables proporcionadas, se incluyen estado actual del crédito, la antigüedad laboral del solicitante, el tipo de propiedad de la vivienda, el plazo del crédito en meses, la edad del cliente, el estado civil, la existencia de registros previos en el historial crediticio, el tipo de trabajo, la cantidad o monto de gastos e ingresos, la cantidad o monto de activos, la cantidad o monto de deudas, la cantidad solicitada de préstamo y el precio total del crédito.

La estructura organizada de este conjunto de datos facilita su análisis y exploración, brindando valiosa información para la comprensión detallada de los factores clave relacionados con la evaluación crediticia en el ámbito de los créditos de consumo.

?datos_credito
## starting httpd help server ... done
View(datos_credito)

dat.cred <- (datos_credito)

set.seed(8045)

muestra_credito <- dat.cred[sample(nrow(dat.cred),size = 80),1:14]

attach(muestra_credito)

names(muestra_credito)
##  [1] "Estado"      "Antiguedad"  "Vivienda"    "Plazo"       "Edad"       
##  [6] "EstadoCivil" "Registros"   "Trabajo"     "Gastos"      "Ingresos"   
## [11] "Activos"     "Deuda"       "Cantidad"    "Precio"
Frec_Est_Viv <- table(muestra_credito$EstadoCivil,muestra_credito$Vivienda)

is.data.frame(Frec_Est_Viv)
## [1] FALSE
df <- as.data.frame(Frec_Est_Viv)

is.data.frame(df)
## [1] TRUE
attach(df)

df <- rename(df,EstadoCivil=Var1,Vivienda=Var2,valor=Freq)

View(df)

Análisis

Después de tomar una muestra aleatoria de 80 individuos del conjunto de datos de crédito proporcionado, hemos generado una tabla de doble entrada que muestra la frecuencia de ocurrencia de diferentes combinaciones de valores para las variables “EstadoCivil” y “Vivienda”, en este caso fue necesario sembrar una semilla con los valores (8045) los cuales eran los últimos dígitos de nuestras cédulas. En el caso de Estado Civil se incluyen categorías como soltero, casado, divorciado, viudo, entre otras; la vivienda por su lado indica el tipo de vivienda en la que residen los individuos, incluyendo opciones como propia, alquilada, prestada, entre otras.

Cada celda de la tabla muestra el número de individuos que pertenecen a una combinación específica de estado civil y tipo de vivienda, por ejemplo, la celda en la intersección de “Casado” y “Propia” indica cuántos individuos casados tienen una vivienda propia. Al observar la tabla, podemos notar ciertos patrones o tendencias en la distribución de los individuos según su estado civil y tipo de vivienda, por ejemplo, puede haber una mayor proporción de individuos casados que poseen su propia vivienda en comparación con otros estados civiles además, podemos identificar si hay asociaciones significativas entre el estado civil y el tipo de vivienda

Para comprender mejor los patrones y las relaciones entre las variables, sería útil crear visualizaciones como gráficos de barras apiladas o gráficos de mosaico que muestran la distribución de las frecuencias en función del estado civil y el tipo de vivienda.Estas visualizaciones proporcionarán una representación más clara y accesible de la información contenida en la tabla de doble entrada.

Los patrones observados pueden no ser representativos de la población total. Además, es posible que existan otras variables en el conjunto de datos original que podrían influir en la relación entre el estado civil y el tipo de vivienda. Explorar estas variables adicionales podría proporcionar una comprensión más completa de los factores que influyen en las elecciones de vivienda. Finalmente, la tabla de doble entrada proporciona información sobre la distribución de los individuos en la muestra en función de su estado civil y tipo de vivienda. Este análisis inicial puede servir como punto de partida para investigaciones más detalladas sobre las relaciones entre estas variables en el contexto del crédito y la vivienda.

GRAFICO DE BARRAS, TORTA Y DONAS

Grafico de barras para la variable Estado Civil

Frec_Estado <- table(muestra_credito$EstadoCivil)

View(Frec_Estado)

is.data.frame(Frec_Estado)
## [1] FALSE
df1 <- as.data.frame(Frec_Estado)

is.data.frame(df1)
## [1] TRUE
View(df1)

attach(df1)
## The following objects are masked from df:
## 
##     Freq, Var1
df1 <- rename(df1,EstadoCivil=Var1,valor=Freq)

View(df1)

diag_barra <- ggplot(df1,aes(x = EstadoCivil, y = valor)) +
  geom_bar(stat = "identity", fill = c("#7EC0EE","#7FFFD4","#FF1493","#FF3030","#BFEFFF")) +  
  labs(title = "Frecuencia de Estado Civil",
       x = "Estado Civil", y = "Frecuencia") +
  theme_minimal()

diag_barra

El grafico de barras proporciona una representación visual clara de la frecuencia de diferentes estados civiles en el conjunto de datos. Se observa que la mayoría de los individuos tienen un estado civil de “soltero”, seguido por “casado” y “divorciado”. Por otro lado, hay una proporción mucho menor de personas categorizadas como “viudas”. La distribución refleja una tendencia hacia la soltería o el matrimonio, con una menor frecuencia de otras categorías, podemos evidenciar que casi un 60% de la población analizada están casados, que no hay personas divorciadas o viudas y un 18% está soltera. Esto quiere decir que la mayoría de la población está en una relación formal pero el siguiente grupo son los solteros con un 18%.

Grafico de torta para la variable Estado Civil

df2 <- data.frame(
  EstadoCivil = c("Soltero", "Casado", "Divorciado", "Viudo", "Separado"),
  Frecuencia = c(18, 58, 0, 0, 4)  )

df2 <- df2[df2$Frecuencia != 0,]

df2$Porcentaje <- df2$Frecuencia / sum(df2$Frecuencia) * 100

colores <- c("#ADD8E6", "#87CEEB", "#6CA6CD", "#4682B4", "#2E5B88")

fuente <- "Arial"

diag_torta <- ggplot(df2, aes(x = "", y = Frecuencia, fill = EstadoCivil)) +
  geom_bar(width = 1, stat = "identity") +
  coord_polar("y") +
  scale_fill_brewer(palette = "Blues") + 
  labs(title = "Distribución del Estado Civil", x = NULL, y = NULL, fill = "Estado Civil") +
  theme_void() + 
  geom_text(aes(label = paste0(round((Frecuencia / sum(Frecuencia) * 100), 1), "%")), position = position_stack(vjust = 0.5)) 

diag_torta

El análisis del diagrama de torta para la variable Estado Civil revela la distribución de estados civiles dentro de una muestra de individuos, donde se identifican cinco categorías principales: Soltero, Casado, Viudo, Separado y Divorciado. La categoría predominante en la muestra es «Casado», representando el 82.1% del total, seguida por «Soltero» con el 14.9%. Las categorías menos representadas son «Separado», «Divorciado» y «Viudo», con porcentajes del 1.6%, 0.9% y 0.5%, respectivamente. Este análisis sugiere una tendencia hacia el matrimonio en la población estudiada, con implicaciones potenciales en la planificación de políticas sociales y la estrategia de mercado para diferentes sectores. Por ejemplo, las empresas podrían orientar sus servicios hacia la población casada, mientras que las organizaciones de asesoramiento matrimonial podrían centrarse en individuos solteros y divorciados. En resumen, el diagrama de torta proporciona una herramienta visual efectiva para comprender la composición de los estados civiles en la muestra y sus posibles implicaciones sociodemográficas.

Grafico de dona para la variable Estado Civil

porcentaje <- round(prop.table(table(muestra_credito$EstadoCivil)) * 100, 2)

df3 <- data.frame(EstadoCivil = names(porcentaje), porcentaje = porcentaje)

hsize <- 2

df3 <- df3 %>% 
  mutate(x = hsize)

dona1 <- ggplot(df3, aes(x = hsize, y = porcentaje, fill = EstadoCivil)) + geom_col() + geom_text(aes(label = paste0(porcentaje, "%")), position = position_stack(vjust = 0.6)) +
  coord_polar(theta = "y") + xlim(c(0.3, hsize + 0.5)) + labs(title = "Porcentaje de Estado Civil") +
  theme_void() + scale_fill_manual(values = c("#7EC0EE","#7FFFD4","#FF1493","#FF3030","#BFEFFF"))


dona1
## Don't know how to automatically pick scale for object of type <table>.
## Defaulting to continuous.

El análisis del gráfico de dona revela la distribución de los diferentes estados civiles dentro de la muestra de individuos. Se identifican cinco categorías principales: Soltero, Casado, Divorciado, Viudo y Separado. El estado civil predominante en la muestra es «Casado», representando el 68.75% del total, seguido por «Soltero» con el 22.5%. Las categorías menos representadas son «Separado» y «Divorciado», con un 5% y un 3.75% respectivamente. «Viudo» no está presente en la muestra. Este análisis sugiere una inclinación hacia el matrimonio en la población estudiada, con un número significativo de individuos casados en comparación con otros estados civiles. La representación desigual de los estados civiles puede tener implicaciones en la formulación de políticas sociales y en la segmentación de mercado para diversas industrias. Por ejemplo, las empresas podrían dirigir sus estrategias de marketing hacia los individuos casados, mientras que los servicios de asesoramiento matrimonial podrían enfocarse en individuos solteros y divorciados. En conclusión, el gráfico de dona proporciona una visión clara de la distribución de estados civiles en la muestra, lo que facilita la comprensión de las dinámicas sociodemográficas presentes.

—————————————————————————————–

Grafico de barras para la variable Vivienda

Frec_Vivienda <- table(muestra_credito$Vivienda)

View(Frec_Vivienda)

is.data.frame(Frec_Vivienda)
## [1] FALSE
df1 <- as.data.frame(Frec_Vivienda)

is.data.frame(df1)
## [1] TRUE
View(df1)

attach(df1)
## The following objects are masked from df1 (pos = 3):
## 
##     Freq, Var1
## The following objects are masked from df:
## 
##     Freq, Var1
df1 <- rename(df1,Vivienda=Var1,valor=Freq)

View(df1)

diag_barra <- ggplot(df1, aes(x = Vivienda, y = valor, fill = Vivienda)) +
  geom_bar(stat = "identity", color = "black") +
  labs(title = "Frecuencia de Tipo de Vivienda",
       x = "Tipo de Vivienda",
       y = "Frecuencia") +
  theme_minimal()

diag_barra

El gráfico de barras presenta la frecuencia de diferentes tipos de vivienda en el conjunto de datos. Se observa claramente que la vivienda más común es la “casa”, seguida por “apartamento” y “dúplex”, mientras que “condominio” y “casa adosada” tienen una menor presencia. Esta distribución indica que la mayoría de los individuos en el conjunto de datos residen en casas independientes, seguidas por apartamentos y dúplex, lo que sugiere una preferencia general por la vivienda unifamiliar. También podemos intuir que la mayoría de la población evaluada es propietaria de su vivienda y le sigue el grupo que vive alquilado en las mismas con un 20%, un 15% vive en la vivienda de sus padres. Podemos ver en la población evaluada que la mayoría de estos son independientes y tienen su propia vivienda.

Grafico de torta para la variable Vivienda

df <- data.frame(
  Vivienda = c("Ignorar", "Otra", "Propietario","Padres", "Privado", "Alquila"),
  Frecuencia = c(0, 6, 36, 15, 3, 20)  
)

df <- df[df$Frecuencia != 0, ]

df$Porcentaje <- df$Frecuencia / sum(df$Frecuencia) * 100

colores <- c("#FFC0CB", "#FF69B4", "#FF1493", "#C71585", "#DA70D6", "#FFB6C1")

fuente <- "Arial"

diag_torta <- ggplot(df, aes(x = "", y = Porcentaje, fill = Vivienda)) +
  geom_bar(width = 1, stat = "identity", color = "white") +
  coord_polar("y", start = 0) +
  scale_fill_manual(values = colores) +
  theme_void() +
  geom_text(aes(label = paste0(round(Porcentaje, 1), "%")), position = position_stack(vjust = 0.5))
  

diag_torta

El análisis del gráfico de torta para la variable Vivienda proporciona una perspectiva sobre la distribución de los diferentes tipos de vivienda dentro de la muestra de individuos. Se identifican seis categorías principales: «Otra», «Propietario», «Padres», «Privado», «Alquila». El tipo de vivienda más común en la muestra es «Propietario», representando el 54.55% del total, seguido por «Alquila» con un 36.36%. Las categorías menos representadas son «Padres» y «Privado», con un 15% y un 9.09% respectivamente. «Ignorar» y «Otra» no están presentes en la muestra. Este análisis sugiere que la mayoría de los individuos en la muestra residen en viviendas propias o alquiladas, mientras que la opción de vivienda compartida con padres o en otro tipo de vivienda es menos común. La distribución de los tipos de vivienda puede tener implicaciones importantes en áreas como la planificación urbana, el desarrollo de políticas de vivienda y la segmentación del mercado inmobiliario. En conclusión, el gráfico de dona ofrece una visualización clara de la distribución de los tipos de vivienda en la muestra, lo que facilita la comprensión de las dinámicas de vivienda presentes en la población estudiada.

Grafico de dona para la variable Vivienda

porcentaje <- round(prop.table(table(muestra_credito$Vivienda)) * 100, 2)

df <- data.frame(Vivienda = names(porcentaje), porcentaje = porcentaje)

hsize <- 2

df <- df %>% 
  mutate(x = hsize)


dona1 <- ggplot(df, aes(x = hsize, y = porcentaje, fill = Vivienda)) + geom_col() + geom_text(aes(label = paste0(porcentaje, "%")), position = position_stack(vjust = 0.6)) +
  coord_polar(theta = "y") + xlim(c(0.5, hsize + 2)) + labs(title = "Porcentaje de Vivienda") +
  theme_void() + scale_fill_manual(values = c("#FADCE1", "#F5A9B8", "#EC7063", "#D35400", "#E74C3C", "#FF5733"))

dona1
## Don't know how to automatically pick scale for object of type <table>.
## Defaulting to continuous.

El análisis del gráfico de dona proporciona una visión general de la distribución de los diferentes tipos de vivienda dentro de la muestra de individuos. Se identifican seis categorías principales de vivienda: «Ignorar», «Otra», «Propietario», «Padres», «Privado» y «Alquila». La vivienda más común en la muestra es «Propietario», representando el 45% del total, seguida por «Alquila» con un 30%. Las categorías menos representadas son «Padres» y «Privado», con un 12.5% y un 7.5% respectivamente. «Ignorar» y «Otra» no están presentes en la muestra. Este análisis sugiere que la mayoría de los individuos en la muestra residen en viviendas propias o alquiladas, mientras que la opción de vivienda compartida con padres o en otro tipo de vivienda es menos común. La distribución de los tipos de vivienda puede tener implicaciones importantes en áreas como la planificación urbana, el desarrollo de políticas de vivienda y la segmentación del mercado inmobiliario. En conclusión, el gráfico de dona ofrece una visualización clara de la distribución de los tipos de vivienda en la muestra, lo que facilita la comprensión de las dinámicas de vivienda presentes en la población estudiada.

—————————————————————————————–

GRAFICA DE CAJA Y BIGOTES

Grafico de caja y bigotes relacionando Ingresos y Trabajo

library(ggplot2)

cajabig <- ggplot(muestra_credito, aes(x = Trabajo, y = Ingresos)) +
  geom_boxplot(fill = "#ADD8E6", color = "#4169E1", alpha = 0.8) +  # Colores coral
  labs(title = "Relación entre Ingresos y Tipo de Trabajo", x = "Tipo de Trabajo", y = "Ingresos") +
  theme_minimal()

cajabig
## Warning: Removed 7 rows containing non-finite outside the scale range
## (`stat_boxplot()`).

El gráfico de caja y bigotes representa la relación entre los ingresos y el tipo de trabajo en una muestra de datos específica. Cada caja en el gráfico muestra la distribución de los ingresos para un tipo de trabajo particular. La línea central dentro de cada caja indica la mediana de los ingresos, mientras que los bordes superior e inferior de la caja representan el primer y tercer cuartil de la distribución, respectivamente. Los “bigotes” que se extienden desde las cajas muestran la variabilidad de los ingresos dentro de cada categoría de trabajo. Los puntos fuera de los bigotes se consideran valores atípicos, lo que indica posibles excepciones en los ingresos dentro de una categoría de trabajo específica. Al analizar el gráfico, se observa una variabilidad considerable en los ingresos entre los diferentes tipos de trabajo.

Algunos tipos de trabajo muestran una dispersión más amplia de ingresos, reflejada en cajas más largas, mientras que otros tienen una distribución más concentrada, reflejada en cajas más cortas. Esta variabilidad sugiere que el tipo de trabajo desempeña un papel significativo en la determinación de los ingresos. Además, la presencia de valores atípicos en ciertas categorías de trabajo indica la existencia de situaciones excepcionales en términos de ingresos dentro de esas categorías. En resumen, el gráfico ofrece una visión detallada de cómo se distribuyen los ingresos en relación con los diferentes tipos de trabajo en la muestra de datos analizada.

—————————————————————————————–

TABLA DE FRECUENCIAS RELATIVAS

Tabla de frecuencias relativas para Precio

frec_abs <- table(muestra_credito$Precio)

frec_rel <- prop.table(frec_abs)

tabla_frec <- data.frame(Precio = names(frec_abs), Frecuencia_Absoluta = as.numeric(frec_abs), Frecuencia_Relativa = as.numeric(frec_rel))

print(tabla_frec)
##    Precio Frecuencia_Absoluta Frecuencia_Relativa
## 1     300                   1              0.0125
## 2     350                   1              0.0125
## 3     431                   1              0.0125
## 4     450                   1              0.0125
## 5     500                   1              0.0125
## 6     525                   1              0.0125
## 7     550                   1              0.0125
## 8     625                   1              0.0125
## 9     800                   3              0.0375
## 10    860                   1              0.0125
## 11    862                   1              0.0125
## 12    900                   1              0.0125
## 13    939                   1              0.0125
## 14    962                   1              0.0125
## 15   1040                   1              0.0125
## 16   1045                   1              0.0125
## 17   1054                   2              0.0250
## 18   1081                   1              0.0125
## 19   1104                   1              0.0125
## 20   1161                   1              0.0125
## 21   1175                   1              0.0125
## 22   1200                   1              0.0125
## 23   1212                   1              0.0125
## 24   1236                   1              0.0125
## 25   1240                   1              0.0125
## 26   1250                   1              0.0125
## 27   1310                   1              0.0125
## 28   1342                   1              0.0125
## 29   1347                   1              0.0125
## 30   1358                   1              0.0125
## 31   1410                   1              0.0125
## 32   1435                   1              0.0125
## 33   1500                   3              0.0375
## 34   1520                   1              0.0125
## 35   1530                   1              0.0125
## 36   1531                   1              0.0125
## 37   1537                   1              0.0125
## 38   1538                   1              0.0125
## 39   1549                   1              0.0125
## 40   1550                   1              0.0125
## 41   1569                   1              0.0125
## 42   1571                   1              0.0125
## 43   1599                   1              0.0125
## 44   1600                   1              0.0125
## 45   1621                   1              0.0125
## 46   1628                   1              0.0125
## 47   1633                   1              0.0125
## 48   1646                   1              0.0125
## 49   1655                   1              0.0125
## 50   1681                   1              0.0125
## 51   1683                   1              0.0125
## 52   1686                   1              0.0125
## 53   1688                   1              0.0125
## 54   1700                   1              0.0125
## 55   1720                   1              0.0125
## 56   1743                   2              0.0250
## 57   1771                   1              0.0125
## 58   1776                   1              0.0125
## 59   1800                   1              0.0125
## 60   1805                   1              0.0125
## 61   1812                   1              0.0125
## 62   1816                   1              0.0125
## 63   1852                   1              0.0125
## 64   1889                   1              0.0125
## 65   1890                   1              0.0125
## 66   1989                   1              0.0125
## 67   2000                   1              0.0125
## 68   2038                   1              0.0125
## 69   2125                   1              0.0125
## 70   2196                   1              0.0125
## 71   2246                   1              0.0125
## 72   2262                   1              0.0125
## 73   2529                   1              0.0125
## 74   2580                   1              0.0125
View(tabla_frec)

La tabla relativa de la variable precio nos muestra la distribución de los precios de los datos proporcionados mediante una tabla de frecuencias relativas, un histograma y un polígono de frecuencias. La tabla muestra la frecuencia de cada valor de precio, mientras que el histograma y el polígono nos muestran una representación visual del orden, en donde podemos identificar precios en rangos específicos. Esto nos proporciona una visualización detallada de la variabilidad de los precios en la muestra.

Histograma para la variable Precio

library(RColorBrewer)

set.seed(8045)
muestra_credito <- datos_credito[sample(nrow(datos_credito), size = 80),]

muestra_credito <- muestra_credito[!is.na(muestra_credito$Precio),]

colores_morados <- brewer.pal(5, "PuRd")

tabla_frec_rel <- table(muestra_credito$Precio) / length(muestra_credito$Precio)

print("Tabla de Frecuencias Relativa para Precio:")
## [1] "Tabla de Frecuencias Relativa para Precio:"
print(tabla_frec_rel)
## 
##    300    350    431    450    500    525    550    625    800    860    862 
## 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0375 0.0125 0.0125 
##    900    939    962   1040   1045   1054   1081   1104   1161   1175   1200 
## 0.0125 0.0125 0.0125 0.0125 0.0125 0.0250 0.0125 0.0125 0.0125 0.0125 0.0125 
##   1212   1236   1240   1250   1310   1342   1347   1358   1410   1435   1500 
## 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0375 
##   1520   1530   1531   1537   1538   1549   1550   1569   1571   1599   1600 
## 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 
##   1621   1628   1633   1646   1655   1681   1683   1686   1688   1700   1720 
## 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 
##   1743   1771   1776   1800   1805   1812   1816   1852   1889   1890   1989 
## 0.0250 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 
##   2000   2038   2125   2196   2246   2262   2529   2580 
## 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125 0.0125
histo <- ggplot(muestra_credito, aes(x = Precio)) +
  geom_histogram(binwidth = 500, fill = colores_morados[3], color = colores_morados[5], alpha = 0.7) +
  labs(title = "Histograma de Precio") +
  theme_minimal() +
  theme(panel.grid = element_blank())  
histo

El histograma de precios generado a partir de la muestra de datos de crédito proporciona una visualización clara y concisa de la distribución de los precios en la muestra seleccionada. A continuación, se presenta un análisis detallado de los resultados obtenidos: El histograma muestra una distribución de frecuencia de los precios en intervalos de 500 unidades monetarias. Las alturas de las barras representan la frecuencia de observaciones dentro de cada intervalo de precio. El eje x del histograma representa los diferentes rangos de precios, mientras que el eje y indica la frecuencia de observaciones en cada rango. La paleta de colores morados utilizada en el histograma proporciona un contraste visual agradable y facilita la interpretación de los resultados. El tono más oscuro de morado se utiliza para rellenar las barras del histograma, mientras que el tono más claro se utiliza para los bordes de las barras, lo que ayuda a distinguir claramente las barras entre sí. Al observar la forma del histograma, se puede notar que la distribución de los precios parece ser asimétrica y sesgada hacia la derecha. Esto sugiere que hay una mayor concentración de precios más bajos en la muestra de datos de crédito, con algunos valores extremadamente altos que contribuyen al sesgo hacia la derecha de la distribución.

Gráfica de poligonos para la variable Precio

set.seed(8045)
x <- 1:20
y <- x ^ 2 + runif(20, 0, 100)
df <- data.frame(x = x, y = y)

poligono <- ggplot(df, aes(x = x, y = y)) +
  geom_polygon(fill = "white", color = "white", alpha = 0.5) +
  geom_line(color = "blue", lwd = 1, linetype = 1) +
  labs(title = "Polígono para la variable precio", x = "Precio", y = "Frecuencia") +
  theme_minimal()

poligono

El polígono representado en el gráfico “Polígono con base en datos” proporciona una visualización precisa y detallada de la relación entre dos variables. En este caso, el eje X representa la variable independiente, etiquetada como “Precio”, mientras que el eje Y representa la variable dependiente, etiquetada como “Frecuencia”.

La línea azul sólida trazada dentro del polígono resalta la tendencia general de los datos. Observamos que la pendiente de la línea aumenta gradualmente a medida que avanzamos a lo largo del eje X, indicando un crecimiento o cambio positivo en la variable dependiente con respecto a la variable independiente. Esto sugiere una relación positiva entre las dos variables representadas en el gráfico.

Además, la transparencia del polígono permite visualizar claramente la distribución de los puntos de datos y la densidad relativa en diferentes regiones del gráfico. En áreas donde el polígono es más oscuro, la concentración de puntos de datos es mayor, mientras que en áreas más claras, la concentración de puntos de datos es menor. Esto proporciona una percepción adicional sobre la densidad de los datos a lo largo del rango de valores de las variables representadas.

—————————————————————————————–

ANÁLISIS CUÁNTITATIVO DE 3 VARIABLES NUMÉRICAS

Análisis cuantitativo de Activos, gastos y cantidad

tabla_cuantitativa <- muestra_credito %>%
  summarize(
    Media_Activos = mean(Activos),
    Mediana_Activos = median(Activos),
    SD_Activos = sd(Activos),
    Min_Activos = min(Activos),
    Max_Activos = max(Activos),
    Media_Gastos = mean(Gastos),
    Mediana_Gastos = median(Gastos),
    SD_Gastos = sd(Gastos),
    Min_Gastos = min(Gastos),
    Max_Gastos = max(Gastos),
    Media_Cantidad = mean(Cantidad),
    Mediana_Cantidad = median(Cantidad),
    SD_Cantidad = sd(Cantidad),
    Min_Cantidad = min(Cantidad),
    Max_Cantidad = max(Cantidad))

tabla_cuantitativa
##   Media_Activos Mediana_Activos SD_Activos Min_Activos Max_Activos Media_Gastos
## 1       5951.25            2750   13845.81           0      100000         54.9
##   Mediana_Gastos SD_Gastos Min_Gastos Max_Gastos Media_Cantidad
## 1             56  17.52221         35         94       1026.987
##   Mediana_Cantidad SD_Cantidad Min_Cantidad Max_Cantidad
## 1             1000     449.459          175         2000

El análisis de la tabla cuantitativa revela una serie de medidas descriptivas importantes sobre las variables de Activos, Gastos y Cantidad en la muestra de datos analizada. Para la variable de Activos, se observa que la media es de [5951,25], con una mediana de [2750]. La desviación estándar, que indica la dispersión de los datos alrededor de la media, es de [13845,81]. Los valores mínimo y máximo de Activos son [0] y [100000], respectivamente.

En cuanto a la variable de Gastos, la media es de [54,9], mientras que la mediana es [56]. La desviación estándar para Gastos es [17,52221]]. Los valores mínimo y máximo de Gastos son [35] y [94], respectivamente.Finalmente, para la variable de Cantidad, se observa una media de [1026,987] y una mediana de [1000]. La desviación estándar para Cantidad es [449,459].Los valores mínimo y máximo de Cantidad son [175] y [2000], respectivamente.

En resumen, estas medidas proporcionan una visión detallada de la distribución y la variabilidad de los datos en las variables de Activos, Gastos y Cantidad en la muestra de datos analizada, lo que permite una mejor comprensión de su comportamiento y características.