#Creando la data para el análisis
library(haven)
library(rAmCharts)
##
## rAmCharts is still in developement
## See profile 'datastorm-open' on GitHub for the latest version
## or run directly devtools::install_github('datastorm-open/rAmCharts')
##
## Attaching package: 'rAmCharts'
## The following objects are masked from 'package:graphics':
##
## legend, title
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(dplyr)
# puede tener nuevas carácteristicas en la versión de desarrollo
devtools::install_github("datastorm-open/rAmCharts")
## WARNING: Rtools is required to build R packages, but is not currently installed.
##
## Please download and install Rtools 4.0 from https://cran.r-project.org/bin/windows/Rtools/.
## Skipping install of 'rAmCharts' from a github remote, the SHA1 (7e0caf2e) has not changed since last install.
## Use `force = TRUE` to force installation
## Llamar a la data ##
LCV20192020<-read_spss("Lima_Como_Vamos_2010-2019.sav")
head(LCV20192020)
## # A tibble: 6 x 770
## INDICE SERIE NRO SEXO ANIOS EDAD ESTRATOS_IOP ESTRATOS_IOP1 NSE_IOP
## <dbl> <dbl+lb> <dbl> <dbl+l> <dbl> <dbl+l> <dbl+lbl> <dbl+lbl> <dbl+l>
## 1 19200 9 [2019] 1920 2 [Muj~ 18 1 [18 ~ 4 [Lima Sur] NA 1 [A/B]
## 2 19199 9 [2019] 1919 2 [Muj~ 23 1 [18 ~ 4 [Lima Sur] NA 3 [D/E]
## 3 19198 9 [2019] 1918 2 [Muj~ 33 2 [30 ~ 4 [Lima Sur] NA 3 [D/E]
## 4 19197 9 [2019] 1917 1 [Hom~ 47 3 [45 ~ 4 [Lima Sur] NA 2 [C]
## 5 19196 9 [2019] 1916 2 [Muj~ 41 2 [30 ~ 4 [Lima Sur] NA 3 [D/E]
## 6 19195 9 [2019] 1915 1 [Hom~ 50 3 [45 ~ 4 [Lima Sur] NA 1 [A/B]
## # ... with 761 more variables: NSE_IOP1 <dbl+lbl>, UBIGEO <dbl+lbl>,
## # NSE1 <dbl+lbl>, NSE2A <dbl+lbl>, NSE2B <dbl+lbl>, NSE2C <dbl+lbl>,
## # NSE2D <dbl+lbl>, NSE2E <dbl+lbl>, NSE2F <dbl+lbl>, NSE3_1 <dbl+lbl>,
## # NSE3_2 <dbl>, NSE4 <dbl+lbl>, DG1 <dbl+lbl>, DG1_1 <dbl+lbl>, DG <dbl+lbl>,
## # DG2 <dbl+lbl>, DG3 <dbl>, DG4 <dbl>, DG5 <dbl+lbl>, DG5OTRO <chr>,
## # DG6 <dbl+lbl>, DG6TXT <chr>, DG7 <dbl+lbl>, DG8 <dbl+lbl>, DG9 <dbl+lbl>,
## # DG10 <dbl+lbl>, DG10OTRO <chr>, DG11 <dbl+lbl>, DG11TXT <chr+lbl>, ...
##Seleccionar las columnas a trabajar##
df1<- select(LCV20192020,Año=SERIE,Edad= EDAD, Sexo=SEXO,Gasto_Prom_Educacion=PE10D,
Tipo_Gasto=PE11D,Seguridad=EG4_X, Nivel_socioeconomico=NSE_IOP1, Edad_num = ANIOS, medio_transporte = MT3, ocupacion = MT1, distrito_sale = MT20, tipo_vivienda = VI4, total_ingreso = PE5) %>%
as_factor()
## Visualizar estructura de la data ##
str(df1)
## tibble [19,200 x 13] (S3: tbl_df/tbl/data.frame)
## $ Año : Factor w/ 10 levels "2010","2011",..: 10 10 10 10 10 10 10 10 10 10 ...
## ..- attr(*, "label")= chr "Año de aplicación de la encuesta"
## $ Edad : Factor w/ 3 levels "18 a 29 años",..: 1 1 2 3 2 3 3 3 2 2 ...
## ..- attr(*, "label")= chr "Grupo de edad del entrevistado"
## $ Sexo : Factor w/ 2 levels "Hombre","Mujer": 2 2 2 1 2 1 1 1 2 2 ...
## ..- attr(*, "label")= chr "Sexo del entrevistado"
## $ Gasto_Prom_Educacion: num [1:19200] 100 300 150 400 0 0 0 0 250 50 ...
## ..- attr(*, "label")= chr "En promedio, cuánto gasta su hogar en Educación (pensiones, útiles, matrícula) (monto)"
## ..- attr(*, "format.spss")= chr "F9.2"
## ..- attr(*, "display_width")= int 11
## $ Tipo_Gasto : Factor w/ 6 levels "-1","Diario",..: 5 5 4 4 NA NA NA NA 4 5 ...
## ..- attr(*, "label")= chr "En promedio, cuánto gasta su hogar en Educación (pensiones, útiles, matrícula) (frecuencia)"
## $ Seguridad : Factor w/ 4 levels "Inseguro","Ni seguro ni inseguro",..: 2 1 1 1 1 3 2 1 1 1 ...
## ..- attr(*, "label")= chr "En general, ¿qué tan seguro se siente usted en Lima?"
## $ Nivel_socioeconomico: Factor w/ 5 levels "A","B","C","D",..: 2 4 4 3 4 2 3 4 2 3 ...
## ..- attr(*, "label")= chr "Nivel socioeconómico (versión larga)"
## $ Edad_num : num [1:19200] 18 23 33 47 41 50 81 67 33 42 ...
## ..- attr(*, "label")= chr "Edad del entrevistado"
## ..- attr(*, "format.spss")= chr "F9.0"
## ..- attr(*, "display_width")= int 10
## $ medio_transporte : Factor w/ 15 levels "Camino o voy a pie",..: 5 NA NA 5 1 NA NA 5 5 NA ...
## ..- attr(*, "label")= chr "¿Cómo se moviliza usted principalmente dentro de la ciudad para ir a su trabajo, oficina o centro de estudio?"
## $ ocupacion : Factor w/ 8 levels "Trabaja fuera de casa",..: 2 4 4 1 1 5 7 1 1 6 ...
## ..- attr(*, "label")= chr "¿Actualmente usted…?"
## $ distrito_sale : Factor w/ 45 levels "Lima","Ancón",..: 42 NA NA 45 43 NA NA 41 33 NA ...
## ..- attr(*, "label")= chr "¿A que distrito se dirige principalmente para ir a trabajar o estudiar? Señale aquel destino en el que pase una"| __truncated__
## $ tipo_vivienda : Factor w/ 3 levels "Propia","Alquilada",..: NA NA NA NA NA NA NA NA NA NA ...
## ..- attr(*, "label")= chr "¿Su vivienda es propia o alquilada?"
## $ total_ingreso : Factor w/ 5 levels "Les alcanza bien y pueden ahorrar",..: 1 2 2 3 2 2 1 3 2 2 ...
## ..- attr(*, "label")= chr "El total de ingreso de su hogar…"
##Gráfico de barras##
###gráfico de barra Actualmente usted esta ?
group_ocupacion<- df1 %>%
group_by(ocupacion) %>%
count() %>%
ungroup()
amBarplot(x = "ocupacion", y = "n", data = group_ocupacion,
depth = 10, labelRotation = -45,show_values = TRUE, main = "Actualmente usted esta ...",mainColor = "#68838B", mainSize = 25, creditsPosition = "top-right")
En este gráfico nos permite observar la ocupación de las personas de la encuesta, se visualiza que 8464 trabajan fuera de casa, 4236 personas se encargan de la casa y 693 estaban desempleados.
###GRÁFICO DE BARRA ¿A que distrito se dirige principalmente para ir a trabajar o estudiar? Señale aquel destino en el que pase una mayor cantidad de horas al dia.
group_distrito_Sale<- df1 %>%
group_by(distrito_sale) %>%
count() %>%
ungroup()
group_distrito_Sale <-group_distrito_Sale[!is.na(group_distrito_Sale$distrito_sale ),]
amBarplot(x = "distrito_sale", y = "n", data =group_distrito_Sale,
labelRotation = -45, main = "¿A que distrito se dirige principalmente para ir a trabajar o estudiar?",mainColor = "#68838B", mainSize = 25, creditsPosition = "top-right")
En este gráfico se observa que 401 personas se dirigen principalmente para ir a trabajar o estudiar en el distrito de Lima.
######El total de ingreso de su hogar… PE5##########
group_total_ingreso<- df1 %>%
group_by(total_ingreso) %>%
count() %>%
ungroup()
group_total_ingreso <-group_total_ingreso[!is.na(group_total_ingreso$total_ingreso ),]
amBarplot(x = "total_ingreso", y = "n", group_total_ingreso,
horiz = TRUE, main="Total de ingreso del Hogar")
##Gráfico de Pastel##
##### Gráfico de pastel según sexo
group_Sexo<- df1 %>%
group_by(Sexo) %>%
count() %>%
ungroup()
group_Sexo<- rename(group_Sexo, label = Sexo, value = n)
amPie(data = group_Sexo, main="Porcentaje según Género")
Este gráfico nos permite visualizar que hay un 51.42% de mujeres y 48.58% de hombres que completaron las encuestas.
###Gráfico de pastel ¿Su vivienda es propia o alquilada?
group_tipo_vivienda<- df1 %>%
group_by(tipo_vivienda) %>%
count() %>%
ungroup()
group_tipo_vivienda<-group_tipo_vivienda[!is.na(group_tipo_vivienda$tipo_vivienda),]
group_tipo_vivienda<- rename(group_tipo_vivienda, label = tipo_vivienda, value = n)
amPie(data = group_tipo_vivienda, inner_radius = 50, main="Porcentaje según tipo de vivienda")
Este gráfico nos permite informarnos que el 17.55% tienen su vivienda alquilada y el 81.98% cuentan con vivienda propia.
##Gráfico de piramide##
##### Gráfico de Pirámide Nivel Socioeconómico
group_NIVEL_SOCIOECONOMICO<- df1 %>%
group_by(Nivel_socioeconomico) %>%
count() %>%
ungroup()
group_NIVEL_SOCIOECONOMICO<- rename(group_NIVEL_SOCIOECONOMICO, description = Nivel_socioeconomico, value = n)
amFunnel(data = group_NIVEL_SOCIOECONOMICO, inverse = TRUE, main = "Gráfico de pirámide según nivel económico",
mainColor = "#68838B", mainSize = 25, creditsPosition = "bottom-left")
##Histograma##
######HISTOGRAMAA########
Edades = df1$Edad_num
amHist(x = Edades, col = "#CECECE", border = "blue", xlab = "xlab", ylab = "ylab",labels = TRUE,export = TRUE, exportFormat = "JPG", main="Histograma de las edades de los encuestados")
En este gráfico visualizamos que existe una asimetría positiva.
#######boxplot#############
amBoxplot(Edades, main="Gráfico de cajas según Edad")