Introducción

La clasificación de crédito es una herramienta fundamental utilizada por las instituciones financieras para evaluar la capacidad de un individuo de cumplir con sus compromisos económicos. Este proceso depende de múltiples factores, como la edad, los ingresos y el historial financiero, que ayudan a identificar patrones de comportamiento financiero y riesgos asociados.

El presente estudio tiene como objetivo realizar un análisis inferencial sobre una base de datos relacionada con la clasificación de crédito. A través de esta investigación, se busca identificar las relaciones entre las variables incluidas en la base de datos y determinar su influencia en el proceso de clasificación crediticia. Las variables analizadas incluyen características demográficas y financieras de los solicitantes, como su edad, género, nivel de ingresos, estado civil, propiedad de vivienda y puntaje crediticio.

Descripción de los datos

El análisis se centrará en dos variables clave de la base de datos ClasificacionCredito: Ingresos (variable continua) y Puntaje crediticio (variable cualitativa ordinal). Estas variables fueron seleccionadas debido a su relevancia en la evaluación del perfil crediticio y su potencial para revelar patrones significativos.

Ingresos: Representa los ingresos anuales de los solicitantes, expresados en dolares en una escala continua. Esta variable permite analizar la capacidad económica de los individuos.

El objetivo es determinar si existe una relación estadísticamente significativa en los ingresos de los solicitantes. Este análisis permitirá inferir cómo los ingresos pueden influir en la clasificación crediticia y, en consecuencia, en la toma de decisiones por parte de las instituciones financieras.

library(readr)
ClasificacionCredito <- read_csv("ClasificacionCredito.csv") #Cargamos la base de datos

ClasificacionCredito=as.data.frame(unclass(ClasificacionCredito),stringsAsFactors = TRUE)
nrow(ClasificacionCredito)

## [1] 164

Metodología

Población

La población objeto de estudio está compuesta por 164 individuos, correspondientes a solicitantes de crédito evaluados según sus ingresos y puntaje crediticio.

#Seleccion de la muestra

Para este análisis, se trabajará con una muestra de 100 individuos, seleccionados mediante un muestreo por conveniencia utilizando generación de aleatoriedad (sample) en R para extraer la muestra de la siguiente manera:

set.seed(123)
n1=sample(ClasificacionCredito$Income, size = 100, replace = FALSE) #Muetra de los Ingresos
n1

##   [1] 122500  55000  67500  27500  57500  87500  47500 130000  77500  57500
##  [11]  52500 112500 105000 162500  97500  45000  40000  90000  95000  52500
##  [21]  27500 120000 127500  75000  80000 110000  37500 140000  37500  70000
##  [31] 122500  68000 105000  67500  72500 155000 117500  35000  67500 142500
##  [41]  87500  32500  25000  85000  65000 135000 140000 130000  67500 112500
##  [51] 117500  95000  62500 150000  57500  82000  27500  77500 110000 105000
##  [61] 110000  62500  55000 125000 117500  95000  77500  82500  80000  87500
##  [71] 105000 115000  47500 155000  95000  55000 135000 150000  67500  90000
##  [81]  77500 115000 160000 105000  47500  65000  60000  92500  55000  65000
##  [91]  75000  90000  85000  60000 145000  27500  57500 115000  80000 102500

Tipo de variables

PARAMETROS

Como parametros se tendra encuentan el promedio de la poblacion y la desviacion estandar.

ESTIMADORES

Media muestral

Por el lado de los estimadores se realizara la media muestral de los ingresos y su desviacion estandar muestral.

Promedio_Ingresos=mean(n1) #Promedio muestral Ingresos
Promedio_Ingresos

## [1] 87125

Como se logra observar el promedio muestral para los ingresos de las personas dentro de la base de datos es de 87.125 dolares al año.

Desviacion_Ingresos=sd(n1)  #Desviacion Estandar muestral del estimador Ingresos
Desviacion_Ingresos

## [1] 34888.38

La desviacion estandar del estimador Ingresos es de 34.900 dolares aproximadamente

Resultados

Se empleara de la estimacion puntual para el estimador ingresos.

Sesgo de la estimacion media

sesgo_ingresos=Promedio_Ingresos - mean(ClasificacionCredito$Income) #Valor Sesgado de los ingresos
sesgo_ingresos

## [1] 3359.756

Como se puede observar el sesgo del estimador Ingresos es de 3,359,75 dolares, lo que significa que hay que calcular el sesgo relativo para poder analizar la magnitud de este sesgo.

sesgo_relativo=sesgo_ingresos/Promedio_Ingresos
sesgo_relativo #Sesgo Relativo

## [1] 0.03856248

Un sesgo del 3.85% generalmente se considera bajo, lo que sugiere que, aunque hay un sesgo, no tiene un impacto importante en la precisión general de la estimación.

Eficiencia del estimador

Para hallar la eficiencia del estimador hay que calcular la varianza muestral.

Varianza_Ingresos=var(n1)
Varianza_Ingresos

## [1] 1217198864

Ahora se calcula la eficienta teniendo en cuenta que se extrae otra muestra por conveniencia de 75.

var_ingresos= Varianza_Ingresos / 75  #Eficiencia del estimador ingresos
var_ingresos

## [1] 16229318

El valor de eficiencia obtenido para el estimador de ingresos ( 16,229,318 ) refleja que el método utilizado para estimar el parámetro poblacional de ingresos es adecuado en términos de estabilidad y precisión relativa. Esto sugiere que, aunque existe variabilidad en los datos (como lo indica la desviación estándar de 34.900 dólares y la varianza de 1,217,198,864; el estimador presenta un comportamiento consistente en la aproximación al promedio poblacional.

Consistencia del estimador

Para realizar la consistencia del estimador Ingresos debemos calcular una segunda muestra por conveniencia de 80 de nuestros estimadores y calcular el promedio

set.seed(123)
n2=sample(ClasificacionCredito$Income, size = 80, replace = FALSE) #Muestra 2 de los Ingresos
n2

##  [1] 122500  55000  67500  27500  57500  87500  47500 130000  77500  57500
## [11]  52500 112500 105000 162500  97500  45000  40000  90000  95000  52500
## [21]  27500 120000 127500  75000  80000 110000  37500 140000  37500  70000
## [31] 122500  68000 105000  67500  72500 155000 117500  35000  67500 142500
## [41]  87500  32500  25000  85000  65000 135000 140000 130000  67500 112500
## [51] 117500  95000  62500 150000  57500  82000  27500  77500 110000 105000
## [61] 110000  62500  55000 125000 117500  95000  77500  82500  80000  87500
## [71] 105000 115000  47500 155000  95000  55000 135000 150000  67500  90000

Promedio.muestra2ingresos=mean(n2) #Promedio muestra 2 ingresos
Promedio.muestra2ingresos

## [1] 87906.25

Como se observa, el promedio de las segunda muestra del estimador es de 85,631.25 dolares al año.

Consistencia.ingresos=Promedio_Ingresos / Promedio.muestra2ingresos #Consistencia del estimador ingresos
Consistencia.ingresos

## [1] 0.9911127

Una consistencia de 0.9911 para el estimador de Ingresos indica que este es altamente confiable al aproximarse al verdadero valor del parámetro poblacional. Este valor, muy cercano a 1, refleja que el estimador tiene un alto grado de estabilidad y precisión.

INTERVALOS DE CONFIANZA

Para realizar una estimacion mas precisa y confiable para poder inferir sobre el parametro Ingresos se realiza intervalos de confianza para poder tener mas confiabilidad a la hora de inferir sobre la poblacion.

nivel.confianza=0.95 #Nivel de confianza
Promedio_Ingresos #Media muestral de los ingresos

## [1] 87125

Desviacion_Ingresos #Desviacion estandar muestral de los ingresos

## [1] 34888.38

n=100  #Tamaño Muestral

Teniendo en cuenta el nivel de confianza, promedio y desviacion estandar de la muestra se realizara el error estandar, valor critico, margen de error y el intervalo de confianza para la media.

Error Estandar

Error.estandar= Desviacion_Ingresos/ sqrt(n)
Error.estandar

## [1] 3488.838

Valor Critico

Valor.Critico= qnorm((1+nivel.confianza)/2)
Valor.Critico

## [1] 1.959964

El valor critico para nuestro nivel de confianza es de 1.95 para el estimador Ingresos.

Margen de Error

Margen.error.ingresos= Valor.Critico*Error.estandar
Margen.error.ingresos

## [1] 6837.996

El margen de error de 6,837 dólares significa que cualquier variación en la estimación del promedio poblacional de ingresos estará dentro de este rango, arriba o abajo del promedio muestral.

intervalo.confianza.media= c(Promedio_Ingresos- Margen.error.ingresos, Promedio_Ingresos + Margen.error.ingresos)
intervalo.confianza.media

## [1] 80287 93963

El intervalo de confianza es de (80,287 a 93,963) dolares anuales. Esto indica que, con un nivel de confianza del 95%, se espera que el verdadero promedio de ingresos en la población esté dentro de este rango.

ESTIMACION POR VEROSIMILITUD

Con base a la muestra del estimador Ingresos, se tiene en cuenta el promedio y la desviacion estandar para aplicar la funcion de verosimilitud para una distribucion normal

Promedio_Ingresos #Media Ingresos

## [1] 87125

Desviacion_Ingresos #Desviacion Estandar Ingresos

## [1] 34888.38

Teniendo en cuenta los estadigrafos de la variable Ingresos, se aplica la funcion de verosimilitud con una muestra de 100 personas

datos=rnorm(100, Promedio_Ingresos, Desviacion_Ingresos)

Logaritmo.delaprobabilidad=function(par,data){
  mu=par[1]
  sigma=par[2]
  -sum(dnorm(data, mean = mu, sd = sigma, log = TRUE))
  
}

Se asigna la funcion de logaritmo para una distribucion normal, para aplicarla con los dos estimadores para la poder deducir cuanta veracidad tiene el estimador

inicializacion= c(Promedio_Ingresos, Desviacion_Ingresos)
estimadores_mle= optim(par = inicializacion, fn= Logaritmo.delaprobabilidad, data= datos)

estimadores_mle$par[1] #Estimador por verosimilitud

## [1] 85122.36

La estimación por máxima verosimilitud de 85,100 dolares es coherente con el promedio muestral de 84,925 dolares y el intervalo de confianza. Esto indica que la muestra respalda fuertemente el uso como un estimador confiable del promedio poblacional de ingresos, y se puede usar con seguridad para inferenciar y tomar decisiones basadas en los datos.

Hipotesis

H_(0): La media poblacional de ingresos es igual a 80.000 dólares.

H_{(0 Verdadero)} H_{(0 No Rechazo):} La media real es 80,000 dólares y, al hacer la prueba, encontramos que no hay suficiente evidencia para rechazar H₍₀₎

H_{(0 Verdadero)} H_{(0 Rechazo):} La media real es 80,000 dólares, pero el análisis sugiere que es diferente (rechazamos H₍₀₎ erróneamente).

H_{(0 Falso)} H_{(0 No Rechazo):} La media real NO es 80,000 dólares, pero el análisis no encontró suficiente evidencia para rechazar H₍₀₎

H_{(0 Falso)} H_{(0 Rechazo):} La media real NO es 80,000 dólares, y correctamente rechazamos H₍₀₎

NORMALIDAD

Q-QPLOT

Como se puede analizar los datos se representan en forma lineal por lo que indica que los datos siguen una distribucion normal o al menos una distribución muy cercana a la normal).

KOLMOGOROV-SMIRNOV

La prueba de Kolmogorov-Smirnov compara la distribución empírica acumulativa de los datos con la distribución acumulativa esperada para una distribución normal. Interpretación: Un valor p alto indica que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad.

ks.test(ingreso.personas, "pnorm", mean = Promedio_Ingresos, sd = Desviacion_Ingresos)

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  ingreso.personas
## D = 0.093034, p-value = 0.3522
## alternative hypothesis: two-sided

Aplicando Kolmogorov se puede apreciar que el p-value es de 0.3522, lo que al ser mayor a 0.05 significa que no se rechaza la hipotesis nula de Kolmogorov, lo que en conclusion no hay suficiente evidencia para decir que los datos no siguen una distribucion normal.

# Realizar la prueba t de Student
resultado_ingresos <- t.test(ingreso.personas)
resultado_ingresos

## 
##  One Sample t-test
## 
## data:  ingreso.personas
## t = 28.348, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  83960.05 96598.18
## sample estimates:
## mean of x 
##  90279.12

Después de realizar la prueba de una muestra, se rechaza la hipótesis nula de que la media poblacional de ingresos es igual a 80.000 dólares. Con un p-valor muy bajo (menor que(2.2e-16) y un intervalo de confianza al 95% que no incluye el valor de 80.000 dólares, se puede concluir con alta certeza que los ingresos promedio de la población no son iguales a 80.000 dólares. La media muestral de los ingresos fue de 90,279 dólares, lo que respalda esta conclusión.

INFERENCIA

Con base en los resultados obtenidos de la prueba T-STUDENT de una muestra y el análisis de los ingresos de los solicitantes, podemos inferir lo siguiente:

Media de los ingresos : La media de los ingresos de la muestra es significativamente diferente de 80,000 dólares, lo que sugiere que el ingreso promedio de los solicitantes en la población es superior a 80,000 dólares. La media muestral de 90,279 dólares está respaldada por un intervalo de confianza del 95% entre 83,960.05 y 96,598.18 dólares, lo que refuerza la idea de que los ingresos de la población están por encima de este valor de referencia.

Prueba de normalidad : El análisis de normalidad (utilizando QQ plots y pruebas como Kolmogorov) sugiere que los ingresos siguen una distribución normal, lo que valida la aplicación de la prueba t de Student.

Implicaciones prácticas : Dado que los ingresos son significativamente mayores que los 80,000 dólares, las políticas o decisiones basadas en estos datos pueden ajustarse para reflejar un escenario donde los solicitantes tienen una capacidad económica más alta de lo que se había considerado inicialmente. Esto podría influir en decisiones de crédito, planificación financiera o estrategias comerciales.

CONCLUSIONES

El rechazo de la hipótesis nula nos permite concluir que, con un alto nivel de confianza, la media de los ingresos no es igual a 80.000 dólares, sino que se encuentra dentro del rango estimado de aproximadamente entre 83,960.05 y 96,598.18 dólares al año. Esto sugiere una tendencia hacia un nivel de ingresos superior al esperado, lo cual es un hallazgo relevante para las decisiones futuras que involucren la evaluación de esta población.

Esta inferencia, basada en la prueba t, proporciona una visión clara de la distribución de los ingresos en la muestra y permite realizar afirmaciones generalizables a la población de solicitantes en base a los datos recogidos.

INFORME INFERENCIA ESTADISTICA

Angie Varon; Jose Betancur; Diego Bernal; Daniel Quino

2024-12-04