Taller 2

Carga base de datos

info_mpio <- readRDS("df_info_mpio.Rds")
base_empresas <- read.csv("Df_dirEmpresas.csv", encoding = "UTF-8")
# Instalamos paquetes y librerias necesarias 

#install.packages("magrittr")
library(magrittr)

## Warning: package 'magrittr' was built under R version 4.2.3

#install.packages("tidyr")
library(tidyr)

## Warning: package 'tidyr' was built under R version 4.2.3

## 
## Attaching package: 'tidyr'

## The following object is masked from 'package:magrittr':
## 
##     extract

#install.packages("dplyr")
library(dplyr)

## Warning: package 'dplyr' was built under R version 4.2.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

#install.packages("tidyverse")
library(tidyverse)

## Warning: package 'tidyverse' was built under R version 4.2.3

## Warning: package 'ggplot2' was built under R version 4.2.3

## Warning: package 'tibble' was built under R version 4.2.3

## Warning: package 'readr' was built under R version 4.2.3

## Warning: package 'purrr' was built under R version 4.2.3

## Warning: package 'stringr' was built under R version 4.2.3

## Warning: package 'forcats' was built under R version 4.2.3

## Warning: package 'lubridate' was built under R version 4.2.3

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.4
## ✔ ggplot2   3.4.3     ✔ stringr   1.5.0
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ tidyr::extract()   masks magrittr::extract()
## ✖ dplyr::filter()    masks stats::filter()
## ✖ dplyr::lag()       masks stats::lag()
## ✖ purrr::set_names() masks magrittr::set_names()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

#install.packages("haven")
library(haven)

## Warning: package 'haven' was built under R version 4.2.3

Punto 1. Consulte la base de datos de empresas. ¿Cuál es el tercer Dpto con mayor número de sociedades que “extraen carbón de hulla”?

dptamentos <- base_empresas %>% filter(nombre_grupo == "Extracción de hulla (carbón de piedra)") %>% group_by(nombre_dpto) %>% summarise(total = n()) %>% arrange(desc(total))

dptamentos$nombre_dpto[3]

## [1] "NORTE DE SANTANDER"

El tercer departamento con un mayor número de sociedades que extraen carbón de hulla es el Norte de Santander con 324 sociedades que se dedican a esta actividad.

Punto 2. Consulte la base de datos de empresas ¿Cuántas empresas hay registradas en Bogotá cuya actividad sea “edición de música”?

base_empresas %>% filter(nombre_dpto == "BOGOTA" & nombre_grupo == "Actividades de grabación de sonido y edición de música") %>% count()

##     n
## 1 372

En Bogotá hay registradas 372 empresas cuya actividad es la edición de música

Punto 3. Consulte la base de datos de empresas y cargue la base de datos df_info_mpio.Rds. Calcule la correlación entre el valor agregado per-cápita y el tamaño del municipio.

#corr <- info_mpio %>% mutate(valor_agregado_percapita = valor_agregado_2016/poblacion_2019) %>% summarise(corr = cor(info_mpio$valor_agregado_percapita, info_mpio$poblacion_2019))

corr <- info_mpio %>% mutate(valor_agregado_percapita = valor_agregado_2016/poblacion_2019) %>% summarise(corr = cor(valor_agregado_percapita, poblacion_2019))
corr

##         corr
## 1 0.03587239

La correlación entre el valor agregado per-cápita y el tamaño del municipio es positiva, sin embargo no tan significativa, por lo que no es claro si un mayor valor agregado per cápita significa un mayor tamaño de municipio

Punto 4. Consulte la base de datos de empresas. Calcule la correlación entre el valor agregado 2016 y el tamaño según población, por departamento.

punto2 <- info_mpio %>% select(nom_dpto, poblacion_2019, valor_agregado_2016) %>% group_by(nom_dpto) %>% summarise(poblacion = sum(poblacion_2019), valor_agregado = sum(valor_agregado_2016))

punto2

## # A tibble: 33 × 3
##    nom_dpto                   poblacion valor_agregado
##    <chr>                          <dbl>          <dbl>
##  1 Amazonas                       77753          1070.
##  2 Antioquia                    6550206        119832.
##  3 Arauca                        280109          4429.
##  4 Archipiélago de San Andrés     62482          1555.
##  5 Atlántico                    2638151         35326.
##  6 Bogotá, D.C.                 7592871        205024.
##  7 Bolívar                      2130512         26854.
##  8 Boyacá                       1230910         19811.
##  9 Caldas                       1008344         12793.
## 10 Caquetá                       406142          3701.
## # ℹ 23 more rows

cor(punto2$valor_agregado, punto2$poblacion)

## [1] 0.9508647

Punto 5. Consulte la base de datos de empresas. Calcule la correlación entre la cantidad de empresas de la sección “industrias manufactureras” y el valor agregado 2016, por municipio.

intersect(names(base_empresas), names(info_mpio))

## [1] "cod_mpio"

typeof(base_empresas$cod_mpio)

## [1] "integer"

typeof(info_mpio$cod_mpio)

## [1] "character"

### La base de datos info_mpio toma los códigos de los municipios como un dato "character" por lo que debemos transformar la base de datos para poder juntarla con base_empresas 

info_mpio %<>% mutate(cod_mpio = as.integer(cod_mpio))

empresas_manufactureras <- base_empresas %>% filter(nombre_seccion == "INDUSTRIAS MANUFACTURERAS")%>% select(cod_mpio, nombre_mpio) %>% group_by(cod_mpio, nombre_mpio) %>% summarise(numero_empresas_m = n())

## `summarise()` has grouped output by 'cod_mpio'. You can override using the
## `.groups` argument.

valor_agregado_mpio <- info_mpio %>% group_by(cod_mpio, nom_mpio) %>% summarise(valor_agregado_2016 = sum(valor_agregado_2016)) %>% select(cod_mpio, nom_mpio, valor_agregado_2016)

## `summarise()` has grouped output by 'cod_mpio'. You can override using the
## `.groups` argument.

base_completa <- inner_join(x = empresas_manufactureras, y = valor_agregado_mpio, by = ("cod_mpio"))
corr3 = cor(base_completa$numero_empresas_m, base_completa$valor_agregado_2016)
corr3

## [1] 0.9953632

Como se puede observar la correlación es muy cercana a uno, por lo que se puede decir que la relación entre el número de empresas de industria manufacturera es casi lineal con el valor agregado. Se puede inferir que a un mayor número de empresas en esta sección, hay un mayor valor agregado.