Lima Como Vamos 2010 - 2019

#Creando la data para el análisis

library(haven)
library(rAmCharts)
## 
## rAmCharts is still in developement
## See profile 'datastorm-open' on GitHub for the latest version
## or run directly devtools::install_github('datastorm-open/rAmCharts')
## 
## Attaching package: 'rAmCharts'
## The following objects are masked from 'package:graphics':
## 
##     legend, title
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(dplyr)
# puede tener nuevas carácteristicas en la versión de desarrollo
devtools::install_github("datastorm-open/rAmCharts")
## WARNING: Rtools is required to build R packages, but is not currently installed.
## 
## Please download and install Rtools 4.0 from https://cran.r-project.org/bin/windows/Rtools/.
## Skipping install of 'rAmCharts' from a github remote, the SHA1 (7e0caf2e) has not changed since last install.
##   Use `force = TRUE` to force installation
## Llamar a la data ##

LCV20192020<-read_spss("Lima_Como_Vamos_2010-2019.sav")

head(LCV20192020)
## # A tibble: 6 x 770
##   INDICE    SERIE   NRO    SEXO ANIOS    EDAD ESTRATOS_IOP ESTRATOS_IOP1 NSE_IOP
##    <dbl> <dbl+lb> <dbl> <dbl+l> <dbl> <dbl+l>    <dbl+lbl>     <dbl+lbl> <dbl+l>
## 1  19200 9 [2019]  1920 2 [Muj~    18 1 [18 ~ 4 [Lima Sur]            NA 1 [A/B]
## 2  19199 9 [2019]  1919 2 [Muj~    23 1 [18 ~ 4 [Lima Sur]            NA 3 [D/E]
## 3  19198 9 [2019]  1918 2 [Muj~    33 2 [30 ~ 4 [Lima Sur]            NA 3 [D/E]
## 4  19197 9 [2019]  1917 1 [Hom~    47 3 [45 ~ 4 [Lima Sur]            NA 2 [C]  
## 5  19196 9 [2019]  1916 2 [Muj~    41 2 [30 ~ 4 [Lima Sur]            NA 3 [D/E]
## 6  19195 9 [2019]  1915 1 [Hom~    50 3 [45 ~ 4 [Lima Sur]            NA 1 [A/B]
## # ... with 761 more variables: NSE_IOP1 <dbl+lbl>, UBIGEO <dbl+lbl>,
## #   NSE1 <dbl+lbl>, NSE2A <dbl+lbl>, NSE2B <dbl+lbl>, NSE2C <dbl+lbl>,
## #   NSE2D <dbl+lbl>, NSE2E <dbl+lbl>, NSE2F <dbl+lbl>, NSE3_1 <dbl+lbl>,
## #   NSE3_2 <dbl>, NSE4 <dbl+lbl>, DG1 <dbl+lbl>, DG1_1 <dbl+lbl>, DG <dbl+lbl>,
## #   DG2 <dbl+lbl>, DG3 <dbl>, DG4 <dbl>, DG5 <dbl+lbl>, DG5OTRO <chr>,
## #   DG6 <dbl+lbl>, DG6TXT <chr>, DG7 <dbl+lbl>, DG8 <dbl+lbl>, DG9 <dbl+lbl>,
## #   DG10 <dbl+lbl>, DG10OTRO <chr>, DG11 <dbl+lbl>, DG11TXT <chr+lbl>, ...
##Seleccionar las columnas a trabajar##
df1<- select(LCV20192020,Año=SERIE,Edad= EDAD, Sexo=SEXO,Gasto_Prom_Educacion=PE10D,
             
             Tipo_Gasto=PE11D,Seguridad=EG4_X, Nivel_socioeconomico=NSE_IOP1, Edad_num = ANIOS,  medio_transporte = MT3, ocupacion = MT1, distrito_sale = MT20, tipo_vivienda = VI4, total_ingreso = PE5) %>% 
      as_factor()
## Visualizar estructura de la data ##
str(df1)
## tibble [19,200 x 13] (S3: tbl_df/tbl/data.frame)
##  $ Año                 : Factor w/ 10 levels "2010","2011",..: 10 10 10 10 10 10 10 10 10 10 ...
##   ..- attr(*, "label")= chr "Año de aplicación de la encuesta"
##  $ Edad                : Factor w/ 3 levels "18 a 29 años",..: 1 1 2 3 2 3 3 3 2 2 ...
##   ..- attr(*, "label")= chr "Grupo de edad del entrevistado"
##  $ Sexo                : Factor w/ 2 levels "Hombre","Mujer": 2 2 2 1 2 1 1 1 2 2 ...
##   ..- attr(*, "label")= chr "Sexo del entrevistado"
##  $ Gasto_Prom_Educacion: num [1:19200] 100 300 150 400 0 0 0 0 250 50 ...
##   ..- attr(*, "label")= chr "En promedio, cuánto gasta su hogar en Educación (pensiones, útiles, matrícula) (monto)"
##   ..- attr(*, "format.spss")= chr "F9.2"
##   ..- attr(*, "display_width")= int 11
##  $ Tipo_Gasto          : Factor w/ 6 levels "-1","Diario",..: 5 5 4 4 NA NA NA NA 4 5 ...
##   ..- attr(*, "label")= chr "En promedio, cuánto gasta su hogar en Educación (pensiones, útiles, matrícula) (frecuencia)"
##  $ Seguridad           : Factor w/ 4 levels "Inseguro","Ni seguro ni inseguro",..: 2 1 1 1 1 3 2 1 1 1 ...
##   ..- attr(*, "label")= chr "En general, ¿qué tan seguro se siente usted en Lima?"
##  $ Nivel_socioeconomico: Factor w/ 5 levels "A","B","C","D",..: 2 4 4 3 4 2 3 4 2 3 ...
##   ..- attr(*, "label")= chr "Nivel socioeconómico (versión larga)"
##  $ Edad_num            : num [1:19200] 18 23 33 47 41 50 81 67 33 42 ...
##   ..- attr(*, "label")= chr "Edad del entrevistado"
##   ..- attr(*, "format.spss")= chr "F9.0"
##   ..- attr(*, "display_width")= int 10
##  $ medio_transporte    : Factor w/ 15 levels "Camino o voy a pie",..: 5 NA NA 5 1 NA NA 5 5 NA ...
##   ..- attr(*, "label")= chr "¿Cómo se moviliza usted principalmente dentro de la ciudad para ir a su trabajo, oficina o centro de estudio?"
##  $ ocupacion           : Factor w/ 8 levels "Trabaja fuera de casa",..: 2 4 4 1 1 5 7 1 1 6 ...
##   ..- attr(*, "label")= chr "¿Actualmente usted…?"
##  $ distrito_sale       : Factor w/ 45 levels "Lima","Ancón",..: 42 NA NA 45 43 NA NA 41 33 NA ...
##   ..- attr(*, "label")= chr "¿A que distrito se dirige principalmente para ir a trabajar o estudiar? Señale aquel destino en el que pase una"| __truncated__
##  $ tipo_vivienda       : Factor w/ 3 levels "Propia","Alquilada",..: NA NA NA NA NA NA NA NA NA NA ...
##   ..- attr(*, "label")= chr "¿Su vivienda es propia o alquilada?"
##  $ total_ingreso       : Factor w/ 5 levels "Les alcanza bien y pueden ahorrar",..: 1 2 2 3 2 2 1 3 2 2 ...
##   ..- attr(*, "label")= chr "El total de ingreso de su hogar…"

##Gráfico de barras##

###gráfico de barra Actualmente usted esta ?

group_ocupacion<- df1 %>% 
  
  group_by(ocupacion) %>%
  
  count() %>%
  
  ungroup()

amBarplot(x = "ocupacion", y = "n", data = group_ocupacion,
           depth = 10, labelRotation = -45,show_values = TRUE, main = "Actualmente usted esta ...",mainColor = "#68838B", mainSize = 25, creditsPosition = "top-right") 

En este gráfico nos permite observar la ocupación de las personas de la encuesta, se visualiza que 8464 trabajan fuera de casa, 4236 personas se encargan de la casa y 693 estaban desempleados.

###GRÁFICO DE BARRA ¿A que distrito se dirige principalmente para ir a trabajar o estudiar? Señale aquel destino en el que pase una mayor cantidad de horas al dia.

group_distrito_Sale<- df1 %>% 
  
  group_by(distrito_sale) %>%
  
  count() %>%
  
  ungroup()


group_distrito_Sale <-group_distrito_Sale[!is.na(group_distrito_Sale$distrito_sale ),]

amBarplot(x = "distrito_sale", y = "n",  data =group_distrito_Sale,
          labelRotation = -45, main = "¿A que distrito se dirige principalmente para ir a trabajar o estudiar?",mainColor = "#68838B", mainSize = 25, creditsPosition = "top-right") 

En este gráfico se observa que 401 personas se dirigen principalmente para ir a trabajar o estudiar en el distrito de Lima.

######El total de ingreso de su hogar… PE5##########


group_total_ingreso<- df1 %>% 
  
  group_by(total_ingreso) %>%
  
  count() %>%
  
  ungroup()

group_total_ingreso <-group_total_ingreso[!is.na(group_total_ingreso$total_ingreso ),]

amBarplot(x = "total_ingreso", y = "n", group_total_ingreso,
          horiz = TRUE, main="Total de ingreso del Hogar") 

##Gráfico de Pastel##

#####  Gráfico de pastel según sexo

group_Sexo<- df1 %>% 
  
  group_by(Sexo) %>%
  
  count() %>%
  
  ungroup()
group_Sexo<- rename(group_Sexo, label = Sexo, value = n)
amPie(data = group_Sexo, main="Porcentaje según Género")

Este gráfico nos permite visualizar que hay un 51.42% de mujeres y 48.58% de hombres que completaron las encuestas.

###Gráfico de pastel ¿Su vivienda es propia o alquilada?

group_tipo_vivienda<- df1 %>% 
  
  group_by(tipo_vivienda) %>%
  
  count() %>%
  ungroup()

group_tipo_vivienda<-group_tipo_vivienda[!is.na(group_tipo_vivienda$tipo_vivienda),]
group_tipo_vivienda<- rename(group_tipo_vivienda, label = tipo_vivienda, value = n)

amPie(data = group_tipo_vivienda, inner_radius = 50, main="Porcentaje según tipo de vivienda")

Este gráfico nos permite informarnos que el 17.55% tienen su vivienda alquilada y el 81.98% cuentan con vivienda propia.

##Gráfico de piramide##

#####  Gráfico de Pirámide Nivel Socioeconómico

group_NIVEL_SOCIOECONOMICO<- df1 %>% 
  
  group_by(Nivel_socioeconomico) %>%
  
  count() %>%
  ungroup()

group_NIVEL_SOCIOECONOMICO<- rename(group_NIVEL_SOCIOECONOMICO, description = Nivel_socioeconomico, value = n)
amFunnel(data = group_NIVEL_SOCIOECONOMICO, inverse = TRUE, main = "Gráfico de pirámide según nivel económico",
         mainColor = "#68838B", mainSize = 25, creditsPosition = "bottom-left")

##Histograma##

######HISTOGRAMAA########

Edades = df1$Edad_num
amHist(x = Edades, col = "#CECECE",  border = "blue",  xlab = "xlab", ylab = "ylab",labels = TRUE,export = TRUE, exportFormat = "JPG", main="Histograma de las edades de los encuestados")

En este gráfico visualizamos que existe una asimetría positiva.

Box plot

#######boxplot#############

amBoxplot(Edades, main="Gráfico de cajas según Edad")