Acerca de los datos:
Esta base de datos surge de un proceso de SMOTENC el cual consiste de hacer un sobremuestreo y ejemplos sintéticos de datos ya existentes. La base de datos proviene de Kaggle, de la ya existente base de datos: “Credit Risk dataset on Kaggle” y se le añadieron vairables de la base de datos: ” Financial Risk for Loan Approval data”. Ambas bases de datos pertenecen a Kaggle de igual forma. Esta unión me ha sido más útil que las bases de datos por separado, dado que, incluye dos poblaciones: Hombre y mujer, esto es fundamental para hacer cálculos de diferencia de promedios y proporciones. Las otras variables cualitativas también cuentan con diferentes poblacuones, de hasta cinco diferentes poblaciones por una sola variable (person_education).
He identificado en esta base de datos variables cualitativas, tales como: person_age, person_gender, person_education, person_home_ownership y loan_intent. En la variable “person_gender” tengo tres categorias: Male, Female. Usaré ésta población para evaluar todas las variables cuantitativas que están dentro de la base de datos, las cuales son por ejemplo: person_income, person_exp_emp, credit_score, etc.
## person_age person_income loan_amnt loan_int_rate
## Min. : 20.00 Min. : 8000 Min. : 500 Min. : 5.42
## 1st Qu.: 24.00 1st Qu.: 47204 1st Qu.: 5000 1st Qu.: 8.59
## Median : 26.00 Median : 67048 Median : 8000 Median :11.01
## Mean : 27.76 Mean : 80319 Mean : 9583 Mean :11.01
## 3rd Qu.: 30.00 3rd Qu.: 95789 3rd Qu.:12237 3rd Qu.:12.99
## Max. :144.00 Max. :7200766 Max. :35000 Max. :20.00
## loan_percent_income cb_person_cred_hist_length
## Min. :0.0000 Min. : 2.000
## 1st Qu.:0.0700 1st Qu.: 3.000
## Median :0.1200 Median : 4.000
## Mean :0.1397 Mean : 5.867
## 3rd Qu.:0.1900 3rd Qu.: 8.000
## Max. :0.6600 Max. :30.000
##
## Pearson's product-moment correlation
##
## data: edad and duracion_credito
## t = 360.7, df = 44998, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8595911 0.8643402
## sample estimates:
## cor
## 0.8619846
## [1] "Promedio edad: 27.76 años"
## [1] "Desviación edad: 6.05 años"
## [1] "Promedio ingresos: $ 80319.05"
## [1] "Desviación ingresos: $ 80422.5"
## [1] "Promedio experiencia laboral: 5.41 años"
## [1] "Desviación experiencia laboral: 6.06 años"
## [1] "Promedio monto prestamo: $ 9583.16"
## [1] "Desviación monto prestamo: $ 6314.89"
## [1] "Promedio interés: 11.01 %"
## [1] "Desviación del interés: 2.98 %"
## [1] "Promedio monto del préstamo como porcentaje del ingreso anual : 0.14 %"
## [1] "Desviación monto del préstamo como porcentaje del ingreso anual : 0.09 %"
## [1] "Promedio plazo histórico del prestamo: 5.87 años"
## [1] "Desviación plazo histórico del prestamo: 3.88 años"
## [1] "Promedio puntuación crediticia: 632.61"
## [1] "Desviación puntuación crediticia: 50.44"
En la base de datos encontramos dos categorias, dos poblaciones. Estas poblaciones mencionadas se conforman de: Hombre y mujer, por lo cual, podremos luego de tener estos datos establecer pruebas de hipótesis, además, por ejemplo, será posible establecer si en promedio se le presta más dinero a un hombre que a una mujer, si el nivel educativo es más alto en hombres o mujeres, como también, por último establecer la relación entre la tasa de interés y la experiencia crediticia o puntaje crediticio.
## # A tibble: 2 × 21
## person_gender ...1_promedio ...1_desviacion person_age_promedio
## <chr> <dbl> <dbl> <dbl>
## 1 female 22539. 13017. 27.6
## 2 male 22469. 12969. 27.9
## # ℹ 17 more variables: person_age_desviacion <dbl>,
## # person_income_promedio <dbl>, person_income_desviacion <dbl>,
## # person_emp_exp_promedio <dbl>, person_emp_exp_desviacion <dbl>,
## # loan_amnt_promedio <dbl>, loan_amnt_desviacion <dbl>,
## # loan_int_rate_promedio <dbl>, loan_int_rate_desviacion <dbl>,
## # loan_percent_income_promedio <dbl>, loan_percent_income_desviacion <dbl>,
## # cb_person_cred_hist_length_promedio <dbl>, …
## # A tibble: 2 × 2
## person_gender n
## <chr> <int>
## 1 female 20159
## 2 male 24841
## [1] 24841
## [1] 20159
## [1] 80319.05
## [1] 80422.5
## [1] "Intervalo de confianza del 95% para una población de hombres de acuerdo a sus ingresos está en el intervalo: 79318.91 a 81319.2 \n"
Esto significa que si se repite este análisis muchas veces con diferentes muestras de hombres, el 95% de esos intervalos incluirían el verdadero ingreso promedio de los hombres en la población. Un intervalo estrecho, como el que se obtuvo, suele indicar que la estimación es relativamente precisa.
Ahora calcularemos el intervalo de confianza entre hombres y mujeres en base a sus ingresos, esto lo haremos por medio de:
## [1] "Intervalo de confianza del 95% para la diferencia entre dos poblaciones se encuentra ubicado en el intervalo: 160.08 a 3130.18 \n"
Este intervalo de confianza para la diferencia entre los ingresos promedio de hombres y mujeres indica que, con un 95% de relevancia, los ingresos promedio de los hombres son entre 160.08 y 3,130.19 unidades más altos que los ingresos promedio de las mujeres.
La razón es que dado que el intervalo está completamente por encima de 0, puedes interpretar que, de acuerdo con esta muestra, existe una diferencia real entre los ingresos promedio de hombres y mujeres, siendo los hombres quienes tienden a tener ingresos más altos en esta muestra.
## # A tibble: 2 × 4
## person_gender total con_ingreso_alto proporcion
## <chr> <int> <dbl> <dbl>
## 1 female 20159 14259 0.707
## 2 male 24841 17694 0.712
## [1] "Intervalo de confianza del 95% para la diferencia entre proporciones: -0.004 a 0.013"
## [1] "Estimación puntual de la diferencia de proporciones está en el intervalo: 0.005"
La justificación de este punto se presenta de la siguiente forma:
Como el intervalo incluye el valor 0, no hay evidencia estadísticamente significativa de que exista una diferencia real entre las proporciones de hombres y mujeres que cumplen con la característica. Esto implica que la diferencia observada podría ser atribuible al azar.
En conclusión, aunque se observa una pequeña diferencia positiva en la proporción de hombres y mujeres (0.5% más para los hombres), el intervalo de confianza indica que esta diferencia podría no ser real y puede deberse a la variabilidad de la muestra.