Avance 1 : Estádistica aplicada.

Acerca de los datos:

Esta base de datos surge de un proceso de SMOTENC el cual consiste de hacer un sobremuestreo y ejemplos sintéticos de datos ya existentes. La base de datos proviene de Kaggle, de la ya existente base de datos: “Credit Risk dataset on Kaggle” y se le añadieron vairables de la base de datos: ” Financial Risk for Loan Approval data”. Ambas bases de datos pertenecen a Kaggle de igual forma. Esta unión me ha sido más útil que las bases de datos por separado, dado que, incluye dos poblaciones: Hombre y mujer, esto es fundamental para hacer cálculos de diferencia de promedios y proporciones. Las otras variables cualitativas también cuentan con diferentes poblacuones, de hasta cinco diferentes poblaciones por una sola variable (person_education).

He identificado en esta base de datos variables cualitativas, tales como: person_age, person_gender, person_education, person_home_ownership y loan_intent. En la variable “person_gender” tengo tres categorias: Male, Female. Usaré ésta población para evaluar todas las variables cuantitativas que están dentro de la base de datos, las cuales son por ejemplo: person_income, person_exp_emp, credit_score, etc.

  1. Por medio de la función summary, encuentro indicadores estádisticos básicos de las variables cuantitativas.
##    person_age     person_income       loan_amnt     loan_int_rate  
##  Min.   : 20.00   Min.   :   8000   Min.   :  500   Min.   : 5.42  
##  1st Qu.: 24.00   1st Qu.:  47204   1st Qu.: 5000   1st Qu.: 8.59  
##  Median : 26.00   Median :  67048   Median : 8000   Median :11.01  
##  Mean   : 27.76   Mean   :  80319   Mean   : 9583   Mean   :11.01  
##  3rd Qu.: 30.00   3rd Qu.:  95789   3rd Qu.:12237   3rd Qu.:12.99  
##  Max.   :144.00   Max.   :7200766   Max.   :35000   Max.   :20.00  
##  loan_percent_income cb_person_cred_hist_length
##  Min.   :0.0000      Min.   : 2.000            
##  1st Qu.:0.0700      1st Qu.: 3.000            
##  Median :0.1200      Median : 4.000            
##  Mean   :0.1397      Mean   : 5.867            
##  3rd Qu.:0.1900      3rd Qu.: 8.000            
##  Max.   :0.6600      Max.   :30.000
  1. Para la evaluación de la relación lineal entre dos variables cuantitativas, usaré las siguientes variables que voy a crear que son : edad y duracion_credito, dado que, estos se encuentran altamente relacionados con una relación superior al 55%.
## 
##  Pearson's product-moment correlation
## 
## data:  edad and duracion_credito
## t = 360.7, df = 44998, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8595911 0.8643402
## sample estimates:
##       cor 
## 0.8619846

Histograma de la Edad:

  1. Podemos notar primero que nada, un dato atipico que corresponde a 109, 116, 123 y 144 años de edad, este dato no puede ser, por lo que, se delimitó el eje x de 20 (Edad mínima) y 75 que es una edad máxima a la cual los bancos dan prestamos bancarios. Seguido de esto vemos una clara mayoría de prestamos entre las edades de 23 a 30 años.

Diagrama de cajas edad vs lapso de tiempo crédito :

  1. Para realizar los diagramas de cajas se analizarán los datos de edad vs experiencia creditica de la persona, donde se nota una clara semejanza en la experiencia creditica entre los niveles educativos: Universidad, maestría y educación superior de pregrado. En cambio, muy por debajo se encuentran las personas que cuentan con educación secundaria y muy por arriba aquellos con doctorados, con respecto a los antes analizados.

Avance 2 : Estádistica Aplicada.

  1. Para realizar el cálculo de los promedios y desviación estándar para cada variable cuantitativa, tal que, obtenemos estos datos:

- a. Promedio y desviación de la edad :

## [1] "Promedio edad: 27.76 años"
## [1] "Desviación edad: 6.05 años"

- b. Promedio y desviación de los ingresos :

## [1] "Promedio ingresos: $ 80319.05"
## [1] "Desviación ingresos: $ 80422.5"

- c. Promedio y desviación de la experiencia laboral :

## [1] "Promedio experiencia laboral: 5.41 años"
## [1] "Desviación experiencia laboral: 6.06 años"

- d. Promedio y desviación de la cantidad solicitada :

## [1] "Promedio monto prestamo: $ 9583.16"
## [1] "Desviación monto prestamo: $ 6314.89"

- e. Promedio y desviación del interés :

## [1] "Promedio interés: 11.01 %"
## [1] "Desviación del interés: 2.98 %"

- f. Promedio y desviación del monto del préstamo como porcentaje del ingreso anual :

## [1] "Promedio monto del préstamo como porcentaje del ingreso anual  : 0.14 %"
## [1] "Desviación monto del préstamo como porcentaje del ingreso anual  : 0.09 %"

- g. Promedio y desviación del monto del plazo histórico del prestamo:

## [1] "Promedio plazo histórico del prestamo: 5.87 años"
## [1] "Desviación plazo histórico del prestamo: 3.88 años"

- h. Promedio y desviación de la puntuación crediticia:

## [1] "Promedio puntuación crediticia: 632.61"
## [1] "Desviación puntuación crediticia: 50.44"

Cálculo de promedio y desviación en base a las dos poblaciones de la base de datos.

En la base de datos encontramos dos categorias, dos poblaciones. Estas poblaciones mencionadas se conforman de: Hombre y mujer, por lo cual, podremos luego de tener estos datos establecer pruebas de hipótesis, además, por ejemplo, será posible establecer si en promedio se le presta más dinero a un hombre que a una mujer, si el nivel educativo es más alto en hombres o mujeres, como también, por último establecer la relación entre la tasa de interés y la experiencia crediticia o puntaje crediticio.

## # A tibble: 2 × 21
##   person_gender ...1_promedio ...1_desviacion person_age_promedio
##   <chr>                 <dbl>           <dbl>               <dbl>
## 1 female               22539.          13017.                27.6
## 2 male                 22469.          12969.                27.9
## # ℹ 17 more variables: person_age_desviacion <dbl>,
## #   person_income_promedio <dbl>, person_income_desviacion <dbl>,
## #   person_emp_exp_promedio <dbl>, person_emp_exp_desviacion <dbl>,
## #   loan_amnt_promedio <dbl>, loan_amnt_desviacion <dbl>,
## #   loan_int_rate_promedio <dbl>, loan_int_rate_desviacion <dbl>,
## #   loan_percent_income_promedio <dbl>, loan_percent_income_desviacion <dbl>,
## #   cb_person_cred_hist_length_promedio <dbl>, …
  1. Establezco el intervalo de confianza para la edad, para el hombre y luego comparo las dos poblaciones. Para lo cual debo establecer la muestra que se tiene de cada uno, obteniendo como resultado para un intervalo de confianza en base a los ingresos de:
## # A tibble: 2 × 2
##   person_gender     n
##   <chr>         <int>
## 1 female        20159
## 2 male          24841
## [1] 24841
## [1] 20159
## [1] 80319.05
## [1] 80422.5
## [1] "Intervalo de confianza del 95% para una población de hombres de acuerdo a sus ingresos está en el intervalo: 79318.91 a 81319.2 \n"

Esto significa que si se repite este análisis muchas veces con diferentes muestras de hombres, el 95% de esos intervalos incluirían el verdadero ingreso promedio de los hombres en la población. Un intervalo estrecho, como el que se obtuvo, suele indicar que la estimación es relativamente precisa.

Ahora calcularemos el intervalo de confianza entre hombres y mujeres en base a sus ingresos, esto lo haremos por medio de:

## [1] "Intervalo de confianza del 95% para la diferencia entre dos poblaciones se encuentra ubicado en el intervalo: 160.08 a 3130.18 \n"

Este intervalo de confianza para la diferencia entre los ingresos promedio de hombres y mujeres indica que, con un 95% de relevancia, los ingresos promedio de los hombres son entre 160.08 y 3,130.19 unidades más altos que los ingresos promedio de las mujeres.

La razón es que dado que el intervalo está completamente por encima de 0, puedes interpretar que, de acuerdo con esta muestra, existe una diferencia real entre los ingresos promedio de hombres y mujeres, siendo los hombres quienes tienden a tener ingresos más altos en esta muestra.

  1. Para obtener este indicador debemos de establecer algún tipo de P_0 que nos permita medir el número de población por cada genero que cumple con aquel límite (Umbral). Éstos son los resultados obtenidos:
## # A tibble: 2 × 4
##   person_gender total con_ingreso_alto proporcion
##   <chr>         <int>            <dbl>      <dbl>
## 1 female        20159            14259      0.707
## 2 male          24841            17694      0.712
## [1] "Intervalo de confianza del 95% para la diferencia entre proporciones: -0.004 a 0.013"
## [1] "Estimación puntual de la diferencia de proporciones está en el intervalo: 0.005"

La justificación de este punto se presenta de la siguiente forma:

Como el intervalo incluye el valor 0, no hay evidencia estadísticamente significativa de que exista una diferencia real entre las proporciones de hombres y mujeres que cumplen con la característica. Esto implica que la diferencia observada podría ser atribuible al azar.

En conclusión, aunque se observa una pequeña diferencia positiva en la proporción de hombres y mujeres (0.5% más para los hombres), el intervalo de confianza indica que esta diferencia podría no ser real y puede deberse a la variabilidad de la muestra.