La clasificación de crédito es una herramienta fundamental utilizada por las instituciones financieras para evaluar la capacidad de un individuo de cumplir con sus compromisos económicos. Este proceso depende de múltiples factores, como la edad, los ingresos y el historial financiero, que ayudan a identificar patrones de comportamiento financiero y riesgos asociados.
El presente estudio tiene como objetivo realizar un análisis inferencial sobre una base de datos relacionada con la clasificación de crédito. A través de esta investigación, se busca identificar las relaciones entre las variables incluidas en la base de datos y determinar su influencia en el proceso de clasificación crediticia. Las variables analizadas incluyen características demográficas y financieras de los solicitantes, como su edad, género, nivel de ingresos, estado civil, propiedad de vivienda y puntaje crediticio.
El análisis se centrará en dos variables clave de la base de datos ClasificacionCredito: Ingresos (variable continua) y Puntaje crediticio (variable cualitativa ordinal). Estas variables fueron seleccionadas debido a su relevancia en la evaluación del perfil crediticio y su potencial para revelar patrones significativos.
Ingresos: Representa los ingresos anuales de los solicitantes, expresados en dolares en una escala continua. Esta variable permite analizar la capacidad económica de los individuos.
El objetivo es determinar si existe una relación estadísticamente significativa en los ingresos de los solicitantes. Este análisis permitirá inferir cómo los ingresos pueden influir en la clasificación crediticia y, en consecuencia, en la toma de decisiones por parte de las instituciones financieras.
library(readr)
ClasificacionCredito <- read_csv("ClasificacionCredito.csv") #Cargamos la base de datos
ClasificacionCredito=as.data.frame(unclass(ClasificacionCredito),stringsAsFactors = TRUE)
nrow(ClasificacionCredito)
## [1] 164
La población objeto de estudio está compuesta por 164 individuos, correspondientes a solicitantes de crédito evaluados según sus ingresos y puntaje crediticio.
#Seleccion de la muestra
Para este análisis, se trabajará con una muestra de 100 individuos, seleccionados mediante un muestreo por conveniencia utilizando generación de aleatoriedad (sample) en R para extraer la muestra de la siguiente manera:
set.seed(123)
n1=sample(ClasificacionCredito$Income, size = 100, replace = FALSE) #Muetra de los Ingresos
n1
## [1] 122500 55000 67500 27500 57500 87500 47500 130000 77500 57500
## [11] 52500 112500 105000 162500 97500 45000 40000 90000 95000 52500
## [21] 27500 120000 127500 75000 80000 110000 37500 140000 37500 70000
## [31] 122500 68000 105000 67500 72500 155000 117500 35000 67500 142500
## [41] 87500 32500 25000 85000 65000 135000 140000 130000 67500 112500
## [51] 117500 95000 62500 150000 57500 82000 27500 77500 110000 105000
## [61] 110000 62500 55000 125000 117500 95000 77500 82500 80000 87500
## [71] 105000 115000 47500 155000 95000 55000 135000 150000 67500 90000
## [81] 77500 115000 160000 105000 47500 65000 60000 92500 55000 65000
## [91] 75000 90000 85000 60000 145000 27500 57500 115000 80000 102500
Como parametros se tendra encuentan el promedio de la poblacion y la desviacion estandar.
Por el lado de los estimadores se realizara la media muestral de los ingresos y su desviacion estandar muestral.
Promedio_Ingresos=mean(n1) #Promedio muestral Ingresos
Promedio_Ingresos
## [1] 87125
Como se logra observar el promedio muestral para los ingresos de las personas dentro de la base de datos es de 87.125 dolares al año.
Desviacion_Ingresos=sd(n1) #Desviacion Estandar muestral del estimador Ingresos
Desviacion_Ingresos
## [1] 34888.38
La desviacion estandar del estimador Ingresos es de 34.900 dolares aproximadamente
Se empleara de la estimacion puntual para el estimador ingresos.
sesgo_ingresos=Promedio_Ingresos - mean(ClasificacionCredito$Income) #Valor Sesgado de los ingresos
sesgo_ingresos
## [1] 3359.756
Como se puede observar el sesgo del estimador Ingresos es de 3,359,75 dolares, lo que significa que hay que calcular el sesgo relativo para poder analizar la magnitud de este sesgo.
sesgo_relativo=sesgo_ingresos/Promedio_Ingresos
sesgo_relativo #Sesgo Relativo
## [1] 0.03856248
Un sesgo del 3.85% generalmente se considera bajo, lo que sugiere que, aunque hay un sesgo, no tiene un impacto importante en la precisión general de la estimación.
Para hallar la eficiencia del estimador hay que calcular la varianza muestral.
Varianza_Ingresos=var(n1)
Varianza_Ingresos
## [1] 1217198864
Ahora se calcula la eficienta teniendo en cuenta que se extrae otra muestra por conveniencia de 75.
var_ingresos= Varianza_Ingresos / 75 #Eficiencia del estimador ingresos
var_ingresos
## [1] 16229318
El valor de eficiencia obtenido para el estimador de ingresos ( 16,229,318 ) refleja que el método utilizado para estimar el parámetro poblacional de ingresos es adecuado en términos de estabilidad y precisión relativa. Esto sugiere que, aunque existe variabilidad en los datos (como lo indica la desviación estándar de 34.900 dólares y la varianza de 1,217,198,864; el estimador presenta un comportamiento consistente en la aproximación al promedio poblacional.
Para realizar la consistencia del estimador Ingresos debemos calcular una segunda muestra por conveniencia de 80 de nuestros estimadores y calcular el promedio
set.seed(123)
n2=sample(ClasificacionCredito$Income, size = 80, replace = FALSE) #Muestra 2 de los Ingresos
n2
## [1] 122500 55000 67500 27500 57500 87500 47500 130000 77500 57500
## [11] 52500 112500 105000 162500 97500 45000 40000 90000 95000 52500
## [21] 27500 120000 127500 75000 80000 110000 37500 140000 37500 70000
## [31] 122500 68000 105000 67500 72500 155000 117500 35000 67500 142500
## [41] 87500 32500 25000 85000 65000 135000 140000 130000 67500 112500
## [51] 117500 95000 62500 150000 57500 82000 27500 77500 110000 105000
## [61] 110000 62500 55000 125000 117500 95000 77500 82500 80000 87500
## [71] 105000 115000 47500 155000 95000 55000 135000 150000 67500 90000
Promedio.muestra2ingresos=mean(n2) #Promedio muestra 2 ingresos
Promedio.muestra2ingresos
## [1] 87906.25
Como se observa, el promedio de las segunda muestra del estimador es de 85,631.25 dolares al año.
Consistencia.ingresos=Promedio_Ingresos / Promedio.muestra2ingresos #Consistencia del estimador ingresos
Consistencia.ingresos
## [1] 0.9911127
Una consistencia de 0.9911 para el estimador de Ingresos indica que este es altamente confiable al aproximarse al verdadero valor del parámetro poblacional. Este valor, muy cercano a 1, refleja que el estimador tiene un alto grado de estabilidad y precisión.
Para realizar una estimacion mas precisa y confiable para poder inferir sobre el parametro Ingresos se realiza intervalos de confianza para poder tener mas confiabilidad a la hora de inferir sobre la poblacion.
nivel.confianza=0.95 #Nivel de confianza
Promedio_Ingresos #Media muestral de los ingresos
## [1] 87125
Desviacion_Ingresos #Desviacion estandar muestral de los ingresos
## [1] 34888.38
n=100 #Tamaño Muestral
Teniendo en cuenta el nivel de confianza, promedio y desviacion estandar de la muestra se realizara el error estandar, valor critico, margen de error y el intervalo de confianza para la media.
Error.estandar= Desviacion_Ingresos/ sqrt(n)
Error.estandar
## [1] 3488.838
Valor.Critico= qnorm((1+nivel.confianza)/2)
Valor.Critico
## [1] 1.959964
El valor critico para nuestro nivel de confianza es de 1.95 para el estimador Ingresos.
Margen.error.ingresos= Valor.Critico*Error.estandar
Margen.error.ingresos
## [1] 6837.996
El margen de error de 6,837 dólares significa que cualquier variación en la estimación del promedio poblacional de ingresos estará dentro de este rango, arriba o abajo del promedio muestral.
intervalo.confianza.media= c(Promedio_Ingresos- Margen.error.ingresos, Promedio_Ingresos + Margen.error.ingresos)
intervalo.confianza.media
## [1] 80287 93963
El intervalo de confianza es de (80,287 a 93,963) dolares anuales. Esto indica que, con un nivel de confianza del 95%, se espera que el verdadero promedio de ingresos en la población esté dentro de este rango.
Con base a la muestra del estimador Ingresos, se tiene en cuenta el promedio y la desviacion estandar para aplicar la funcion de verosimilitud para una distribucion normal
Promedio_Ingresos #Media Ingresos
## [1] 87125
Desviacion_Ingresos #Desviacion Estandar Ingresos
## [1] 34888.38
Teniendo en cuenta los estadigrafos de la variable Ingresos, se aplica la funcion de verosimilitud con una muestra de 100 personas
datos=rnorm(100, Promedio_Ingresos, Desviacion_Ingresos)
Logaritmo.delaprobabilidad=function(par,data){
mu=par[1]
sigma=par[2]
-sum(dnorm(data, mean = mu, sd = sigma, log = TRUE))
}
Se asigna la funcion de logaritmo para una distribucion normal, para aplicarla con los dos estimadores para la poder deducir cuanta veracidad tiene el estimador
inicializacion= c(Promedio_Ingresos, Desviacion_Ingresos)
estimadores_mle= optim(par = inicializacion, fn= Logaritmo.delaprobabilidad, data= datos)
estimadores_mle$par[1] #Estimador por verosimilitud
## [1] 85122.36
La estimación por máxima verosimilitud de 85,100 dolares es coherente con el promedio muestral de 84,925 dolares y el intervalo de confianza. Esto indica que la muestra respalda fuertemente el uso como un estimador confiable del promedio poblacional de ingresos, y se puede usar con seguridad para inferenciar y tomar decisiones basadas en los datos.
H(0): La media poblacional de ingresos es igual a 80.000 dólares.
H(0 Verdadero) H(0 No Rechazo): La media real es 80,000 dólares y, al hacer la prueba, encontramos que no hay suficiente evidencia para rechazar H(0)
H(0 Verdadero) H(0 Rechazo): La media real es 80,000 dólares, pero el análisis sugiere que es diferente (rechazamos H(0) erróneamente).
H(0 Falso) H(0 No Rechazo): La media real NO es 80,000 dólares, pero el análisis no encontró suficiente evidencia para rechazar H(0)
H(0 Falso) H(0 Rechazo): La media real NO es 80,000 dólares, y correctamente rechazamos H(0)
Como se puede analizar los datos se representan en forma lineal por lo que indica que los datos siguen una distribucion normal o al menos una distribución muy cercana a la normal).
La prueba de Kolmogorov-Smirnov compara la distribución empírica acumulativa de los datos con la distribución acumulativa esperada para una distribución normal. Interpretación: Un valor p alto indica que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad.
ks.test(ingreso.personas, "pnorm", mean = Promedio_Ingresos, sd = Desviacion_Ingresos)
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: ingreso.personas
## D = 0.093034, p-value = 0.3522
## alternative hypothesis: two-sided
Aplicando Kolmogorov se puede apreciar que el p-value es de 0.3522, lo que al ser mayor a 0.05 significa que no se rechaza la hipotesis nula de Kolmogorov, lo que en conclusion no hay suficiente evidencia para decir que los datos no siguen una distribucion normal.
# Realizar la prueba t de Student
resultado_ingresos <- t.test(ingreso.personas)
resultado_ingresos
##
## One Sample t-test
##
## data: ingreso.personas
## t = 28.348, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 83960.05 96598.18
## sample estimates:
## mean of x
## 90279.12
Después de realizar la prueba de una muestra, se rechaza la hipótesis nula de que la media poblacional de ingresos es igual a 80.000 dólares. Con un p-valor muy bajo (menor que(2.2e-16) y un intervalo de confianza al 95% que no incluye el valor de 80.000 dólares, se puede concluir con alta certeza que los ingresos promedio de la población no son iguales a 80.000 dólares. La media muestral de los ingresos fue de 90,279 dólares, lo que respalda esta conclusión.
Con base en los resultados obtenidos de la prueba T-STUDENT de una muestra y el análisis de los ingresos de los solicitantes, podemos inferir lo siguiente:
Media de los ingresos : La media de los ingresos de la muestra es significativamente diferente de 80,000 dólares, lo que sugiere que el ingreso promedio de los solicitantes en la población es superior a 80,000 dólares. La media muestral de 90,279 dólares está respaldada por un intervalo de confianza del 95% entre 83,960.05 y 96,598.18 dólares, lo que refuerza la idea de que los ingresos de la población están por encima de este valor de referencia.
Prueba de normalidad : El análisis de normalidad (utilizando QQ plots y pruebas como Kolmogorov) sugiere que los ingresos siguen una distribución normal, lo que valida la aplicación de la prueba t de Student.
Implicaciones prácticas : Dado que los ingresos son significativamente mayores que los 80,000 dólares, las políticas o decisiones basadas en estos datos pueden ajustarse para reflejar un escenario donde los solicitantes tienen una capacidad económica más alta de lo que se había considerado inicialmente. Esto podría influir en decisiones de crédito, planificación financiera o estrategias comerciales.
El rechazo de la hipótesis nula nos permite concluir que, con un alto nivel de confianza, la media de los ingresos no es igual a 80.000 dólares, sino que se encuentra dentro del rango estimado de aproximadamente entre 83,960.05 y 96,598.18 dólares al año. Esto sugiere una tendencia hacia un nivel de ingresos superior al esperado, lo cual es un hallazgo relevante para las decisiones futuras que involucren la evaluación de esta población.
Esta inferencia, basada en la prueba t, proporciona una visión clara de la distribución de los ingresos en la muestra y permite realizar afirmaciones generalizables a la población de solicitantes en base a los datos recogidos.