Pregunta 1

Muestre la distribución del ingreso de los clientes con un grafico y comente:

library(readxl)
base <- read_excel("D:/Desktop/Cursos/Diplomado_Estadistica/Modelos_Estadisticos/210422_Clase1/Base_de_datos_1.xlsx")

hist(base$Ingreso_Anual)

Con este gráfico se puede deducir que la distribución de los datos es asimétrica a la derecha(o asimetría positiva), es decir: Moda < Mediana < Media.

Ahora analizremos la distribución de los datos con un gráfico de caja:

boxplot(base$Ingreso_Anual)

Comentario Ayudante:

Pregunta 2

Ingresos promedios por sexo, desviación estándar y coeficiente de variación. Comente cada uno:

PROMEDIO / utilizando R básico.

#Renombrar las observaciones de la variable Sexo:
base$Sexo_recodificado <- ifelse(base$Sexo == 1, "Hombre", "Mujer")

Promedio_mujeres <- mean(base$Ingreso_Anual[base$Sexo_recodificado == "Mujer"]) 
Promedio_hombre <- mean(base$Ingreso_Anual[base$Sexo_recodificado == "Hombre"]) 

DESVIACIÓN ESTANDAR / utilizando R básico.

Sd_mujeres <- sd(base$Ingreso_Anual[base$Sexo_recodificado == "Mujer"]) 
Sd_hombre <- sd(base$Ingreso_Anual[base$Sexo_recodificado == "Hombre"]) 

COEFICIENTE DE VARIACIÓN / utilizando R básico.

coef.v_mujeres <- sd(base$Ingreso_Anual[base$Sexo_recodificado == "Mujer"]) / mean(base$Ingreso_Anual[base$Sexo_recodificado == "Mujer"]) 
coef.v_hombres <- sd(base$Ingreso_Anual[base$Sexo_recodificado == "Hombre"]) / mean(base$Ingreso_Anual[base$Sexo_recodificado == "Hombre"]) 

RESUMEN DE RESULTADOS / utilizando R básico.

Sexo <- c("Mujer","Hombre")
Promedio <- c(Promedio_mujeres, Promedio_hombre)
Desviacion_Sd <- c(Sd_mujeres, Sd_hombre)
Coeficiente_Var <- c(coef.v_mujeres, coef.v_hombres)
tabla_1 <- rbind (Sexo,Promedio, Desviacion_Sd, Coeficiente_Var)
tabla_1
##                 [,1]                [,2]               
## Sexo            "Mujer"             "Hombre"           
## Promedio        "27191.1082274247"  "27950.2891973244" 
## Desviacion_Sd   "12794.4099056281"  "13104.5386688899" 
## Coeficiente_Var "0.470536537114134" "0.468851630706719"

Al observar el promedio del “Ingreso Anual” segun el “Sexo” del individuo, se puede apreciar lo siguiente:

  • El centro de gravedad de las “Mujeres” está mas a la izquierda, en relación al centro de gravedad de los “Hombres”.

Al observar la desviación estandar de los datos de acuerdo al “Ingreso Anual” segun el “Sexo” del individuo, se puede apreciar lo siguiente:

  • Los datos de las mujeres se encuentran levemente menos dispersos que la de los hombres.

Al observar los coeficientes de variación de los datos de acuerdo al “Ingreso Anual” segun el “Sexo” del individuo, se puede apreciar lo siguiente:

  • No son comparables hombres y mujeres, puesto que la media de los datos es distinta.

  • Dado que para el caso de mujeres y hombres el C.V. no supera el 80%, se puede indicar que la media es representativa del conjunto de datos, por ende el conjunto de datos es “Homogeneo”.

Comentario Ayudante:

  • Se puede utilizar el paquete “dplyr”. Este paquete incluye:
    • Pipe = %>%, Permite concatenar funciones.
    • Group_by: Agrupa de acuerdo algun criterio logico.
    • Ademas permite visualizar de mejor forma los datos.

Ejemplo:

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.5
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
promedio_dplyr <-  base %>% group_by(Sexo_recodificado) %>%  summarise(Promedio = mean (Ingreso_Anual),
                                                                       Desviacion = sd(Ingreso_Anual), 
                                                                       CV = sd (Ingreso_Anual)/mean(Ingreso_Anual)*100)

promedio_dplyr
## # A tibble: 2 x 4
##   Sexo_recodificado Promedio Desviacion    CV
##   <chr>                <dbl>      <dbl> <dbl>
## 1 Hombre              27950.     13105.  46.9
## 2 Mujer               27191.     12794.  47.1

Pregunta 3

Distribución del ingreso según sexo (grafico de cajas, histograma y violín):

GRÁFICO DE CAJAS

boxplot(base$Ingreso_Anual ~ base$Sexo_recodificado) 

Comentario Ayudante:

  • Se puede utilizar el paquete “Ggplot”. Este paquete incluye:
    • Personalizar los gráficos.
  • Cada linea de la caja acumula hasta el 25%. Con estas lineas se puede analizar la distribución.

Ejemplo:

library(ggplot2)

ggplot(base,
aes(x = Sexo_recodificado, y = Ingreso_Anual,
fill = Sexo_recodificado)) + 
geom_boxplot(alpha=0.4) +
theme_bw(base_size=10) +
theme(legend.position = "none") +
labs(x = "Sexo", y = "Ingreso Anual",
title = "Distribución del Ingreso Anual",
subtitle = "Según sexo del individuo",
caption = "Fuente Datos: Diplomado_Estadística")

  • La caja de las mujeres al ser mas grande, indica mayor dispersión.
  • El límite inferior, indica que la mujeres con el ingreso anual minimo es mas bajo al de los hombrsre

HISTOGRAMA

MUJERES

library(dplyr)
Solo_Mujeres<- filter(base, Sexo_recodificado == "Mujer")

hist(Solo_Mujeres$Ingreso_Anual)

HOMBRES

Solo_Hombres<- filter(base, Sexo_recodificado == "Hombre")
hist(Solo_Hombres$Ingreso_Anual)

Comentario Ayudante:

  • Se puede visulaizar los dos histogramas, en una sola imagen.

Ejemplo:

#Para mostrar 2 histogramas, se crea un marco de 1 *2
par(mfrow = c(1,2))
hist(Solo_Mujeres$Ingreso_Anual)
hist(Solo_Hombres$Ingreso_Anual)

VIOLIN

library(vioplot)
vioplot(base$Ingreso_Anual ~ base$Sexo_recodificado)

Comentario Ayudante:

  • El gráfico de violin genera un espejo en relación a la densidad.
    • Si la cola es mas larga, indica mayor distribución de los datos.

Pregunta 4

Número y proporción de hombres y mujeres por sucursal:

Cantidad de individuos segun sexo por sucursal:

tabla_4 <- table(base$Sexo_recodificado, base$Sucursal)  
tabla_4
##         
##            A   B   C   D
##   Hombre  47  92 131  29
##   Mujer   49  81 137  32

Proporción de individuos segun sexo por sucursal:

tabla_5 <- prop.table(tabla_4) 
tabla_5
##         
##                   A          B          C          D
##   Hombre 0.07859532 0.15384615 0.21906355 0.04849498
##   Mujer  0.08193980 0.13545151 0.22909699 0.05351171

Pregunta 5

Haga un gráfico de barras que muestre la distribución porcentual de las solicitudes de crédito por sucursal:

tabla_solicitud <- table(base$Solicitud, base$Sucursal)
barplot(prop.table(tabla_solicitud, margin = 2))

tabla_solicitud
##     
##        A   B   C   D
##   NO  50 102 145  27
##   SI  46  71 123  34

Comentario Ayudante:

Ejemplo:

si_solicitud <- filter(base, Solicitud == "SI")
tabla_si_solicitud <- table(si_solicitud$Solicitud, si_solicitud$Sucursal)
barplot(tabla_si_solicitud)

Taller 1, Parte 2.