Muestre la distribución del ingreso de los clientes con un grafico y comente:
library(readxl)
base <- read_excel("D:/Desktop/Cursos/Diplomado_Estadistica/Modelos_Estadisticos/210422_Clase1/Base_de_datos_1.xlsx")
hist(base$Ingreso_Anual)
Con este gráfico se puede deducir que la distribución de los datos es asimétrica a la derecha(o asimetría positiva), es decir: Moda < Mediana < Media.
Ahora analizremos la distribución de los datos con un gráfico de caja:
boxplot(base$Ingreso_Anual)
Comentario Ayudante:
Se puede utilizar ambos gráficos.
Con el histograma se puede ver que tiene asimetria positiva.
La curtosis tambien podria ser utilizada para observar la simetria.
Con el boxplot, podemos ver que el limite sumperior esta muy alejado de la caja, es decir asimetrico. En poca palabras exste pocas personas que ganan mucho.
Ingresos promedios por sexo, desviación estándar y coeficiente de variación. Comente cada uno:
#Renombrar las observaciones de la variable Sexo:
base$Sexo_recodificado <- ifelse(base$Sexo == 1, "Hombre", "Mujer")
Promedio_mujeres <- mean(base$Ingreso_Anual[base$Sexo_recodificado == "Mujer"])
Promedio_hombre <- mean(base$Ingreso_Anual[base$Sexo_recodificado == "Hombre"])
Sd_mujeres <- sd(base$Ingreso_Anual[base$Sexo_recodificado == "Mujer"])
Sd_hombre <- sd(base$Ingreso_Anual[base$Sexo_recodificado == "Hombre"])
coef.v_mujeres <- sd(base$Ingreso_Anual[base$Sexo_recodificado == "Mujer"]) / mean(base$Ingreso_Anual[base$Sexo_recodificado == "Mujer"])
coef.v_hombres <- sd(base$Ingreso_Anual[base$Sexo_recodificado == "Hombre"]) / mean(base$Ingreso_Anual[base$Sexo_recodificado == "Hombre"])
Sexo <- c("Mujer","Hombre")
Promedio <- c(Promedio_mujeres, Promedio_hombre)
Desviacion_Sd <- c(Sd_mujeres, Sd_hombre)
Coeficiente_Var <- c(coef.v_mujeres, coef.v_hombres)
tabla_1 <- rbind (Sexo,Promedio, Desviacion_Sd, Coeficiente_Var)
tabla_1
## [,1] [,2]
## Sexo "Mujer" "Hombre"
## Promedio "27191.1082274247" "27950.2891973244"
## Desviacion_Sd "12794.4099056281" "13104.5386688899"
## Coeficiente_Var "0.470536537114134" "0.468851630706719"
Al observar el promedio del “Ingreso Anual” segun el “Sexo” del individuo, se puede apreciar lo siguiente:
Al observar la desviación estandar de los datos de acuerdo al “Ingreso Anual” segun el “Sexo” del individuo, se puede apreciar lo siguiente:
Al observar los coeficientes de variación de los datos de acuerdo al “Ingreso Anual” segun el “Sexo” del individuo, se puede apreciar lo siguiente:
No son comparables hombres y mujeres, puesto que la media de los datos es distinta.
Dado que para el caso de mujeres y hombres el C.V. no supera el 80%, se puede indicar que la media es representativa del conjunto de datos, por ende el conjunto de datos es “Homogeneo”.
Comentario Ayudante:
Ejemplo:
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.5
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
promedio_dplyr <- base %>% group_by(Sexo_recodificado) %>% summarise(Promedio = mean (Ingreso_Anual),
Desviacion = sd(Ingreso_Anual),
CV = sd (Ingreso_Anual)/mean(Ingreso_Anual)*100)
promedio_dplyr
## # A tibble: 2 x 4
## Sexo_recodificado Promedio Desviacion CV
## <chr> <dbl> <dbl> <dbl>
## 1 Hombre 27950. 13105. 46.9
## 2 Mujer 27191. 12794. 47.1
Distribución del ingreso según sexo (grafico de cajas, histograma y violín):
boxplot(base$Ingreso_Anual ~ base$Sexo_recodificado)
Comentario Ayudante:
Ejemplo:
library(ggplot2)
ggplot(base,
aes(x = Sexo_recodificado, y = Ingreso_Anual,
fill = Sexo_recodificado)) +
geom_boxplot(alpha=0.4) +
theme_bw(base_size=10) +
theme(legend.position = "none") +
labs(x = "Sexo", y = "Ingreso Anual",
title = "Distribución del Ingreso Anual",
subtitle = "Según sexo del individuo",
caption = "Fuente Datos: Diplomado_Estadística")
MUJERES
library(dplyr)
Solo_Mujeres<- filter(base, Sexo_recodificado == "Mujer")
hist(Solo_Mujeres$Ingreso_Anual)
HOMBRES
Solo_Hombres<- filter(base, Sexo_recodificado == "Hombre")
hist(Solo_Hombres$Ingreso_Anual)
Comentario Ayudante:
Ejemplo:
#Para mostrar 2 histogramas, se crea un marco de 1 *2
par(mfrow = c(1,2))
hist(Solo_Mujeres$Ingreso_Anual)
hist(Solo_Hombres$Ingreso_Anual)
library(vioplot)
vioplot(base$Ingreso_Anual ~ base$Sexo_recodificado)
Comentario Ayudante:
Número y proporción de hombres y mujeres por sucursal:
tabla_4 <- table(base$Sexo_recodificado, base$Sucursal)
tabla_4
##
## A B C D
## Hombre 47 92 131 29
## Mujer 49 81 137 32
tabla_5 <- prop.table(tabla_4)
tabla_5
##
## A B C D
## Hombre 0.07859532 0.15384615 0.21906355 0.04849498
## Mujer 0.08193980 0.13545151 0.22909699 0.05351171
Haga un gráfico de barras que muestre la distribución porcentual de las solicitudes de crédito por sucursal:
tabla_solicitud <- table(base$Solicitud, base$Sucursal)
barplot(prop.table(tabla_solicitud, margin = 2))
tabla_solicitud
##
## A B C D
## NO 50 102 145 27
## SI 46 71 123 34
Comentario Ayudante:
Ejemplo:
si_solicitud <- filter(base, Solicitud == "SI")
tabla_si_solicitud <- table(si_solicitud$Solicitud, si_solicitud$Sucursal)
barplot(tabla_si_solicitud)