info_mpio <- readRDS("df_info_mpio.Rds")
base_empresas <- read.csv("Df_dirEmpresas.csv", encoding = "UTF-8")
# Instalamos paquetes y librerias necesarias
#install.packages("magrittr")
library(magrittr)
## Warning: package 'magrittr' was built under R version 4.2.3
#install.packages("tidyr")
library(tidyr)
## Warning: package 'tidyr' was built under R version 4.2.3
##
## Attaching package: 'tidyr'
## The following object is masked from 'package:magrittr':
##
## extract
#install.packages("dplyr")
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.2.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
#install.packages("tidyverse")
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.2.3
## Warning: package 'ggplot2' was built under R version 4.2.3
## Warning: package 'tibble' was built under R version 4.2.3
## Warning: package 'readr' was built under R version 4.2.3
## Warning: package 'purrr' was built under R version 4.2.3
## Warning: package 'stringr' was built under R version 4.2.3
## Warning: package 'forcats' was built under R version 4.2.3
## Warning: package 'lubridate' was built under R version 4.2.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ readr 2.1.4
## ✔ ggplot2 3.4.3 ✔ stringr 1.5.0
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ tidyr::extract() masks magrittr::extract()
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ✖ purrr::set_names() masks magrittr::set_names()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
#install.packages("haven")
library(haven)
## Warning: package 'haven' was built under R version 4.2.3
dptamentos <- base_empresas %>% filter(nombre_grupo == "Extracción de hulla (carbón de piedra)") %>% group_by(nombre_dpto) %>% summarise(total = n()) %>% arrange(desc(total))
dptamentos$nombre_dpto[3]
## [1] "NORTE DE SANTANDER"
El tercer departamento con un mayor número de sociedades que extraen carbón de hulla es el Norte de Santander con 324 sociedades que se dedican a esta actividad.
base_empresas %>% filter(nombre_dpto == "BOGOTA" & nombre_grupo == "Actividades de grabación de sonido y edición de música") %>% count()
## n
## 1 372
En Bogotá hay registradas 372 empresas cuya actividad es la edición de música
#corr <- info_mpio %>% mutate(valor_agregado_percapita = valor_agregado_2016/poblacion_2019) %>% summarise(corr = cor(info_mpio$valor_agregado_percapita, info_mpio$poblacion_2019))
corr <- info_mpio %>% mutate(valor_agregado_percapita = valor_agregado_2016/poblacion_2019) %>% summarise(corr = cor(valor_agregado_percapita, poblacion_2019))
corr
## corr
## 1 0.03587239
La correlación entre el valor agregado per-cápita y el tamaño del municipio es positiva, sin embargo no tan significativa, por lo que no es claro si un mayor valor agregado per cápita significa un mayor tamaño de municipio
punto2 <- info_mpio %>% select(nom_dpto, poblacion_2019, valor_agregado_2016) %>% group_by(nom_dpto) %>% summarise(poblacion = sum(poblacion_2019), valor_agregado = sum(valor_agregado_2016))
punto2
## # A tibble: 33 × 3
## nom_dpto poblacion valor_agregado
## <chr> <dbl> <dbl>
## 1 Amazonas 77753 1070.
## 2 Antioquia 6550206 119832.
## 3 Arauca 280109 4429.
## 4 Archipiélago de San Andrés 62482 1555.
## 5 Atlántico 2638151 35326.
## 6 Bogotá, D.C. 7592871 205024.
## 7 Bolívar 2130512 26854.
## 8 Boyacá 1230910 19811.
## 9 Caldas 1008344 12793.
## 10 Caquetá 406142 3701.
## # ℹ 23 more rows
cor(punto2$valor_agregado, punto2$poblacion)
## [1] 0.9508647
intersect(names(base_empresas), names(info_mpio))
## [1] "cod_mpio"
typeof(base_empresas$cod_mpio)
## [1] "integer"
typeof(info_mpio$cod_mpio)
## [1] "character"
### La base de datos info_mpio toma los códigos de los municipios como un dato "character" por lo que debemos transformar la base de datos para poder juntarla con base_empresas
info_mpio %<>% mutate(cod_mpio = as.integer(cod_mpio))
empresas_manufactureras <- base_empresas %>% filter(nombre_seccion == "INDUSTRIAS MANUFACTURERAS")%>% select(cod_mpio, nombre_mpio) %>% group_by(cod_mpio, nombre_mpio) %>% summarise(numero_empresas_m = n())
## `summarise()` has grouped output by 'cod_mpio'. You can override using the
## `.groups` argument.
valor_agregado_mpio <- info_mpio %>% group_by(cod_mpio, nom_mpio) %>% summarise(valor_agregado_2016 = sum(valor_agregado_2016)) %>% select(cod_mpio, nom_mpio, valor_agregado_2016)
## `summarise()` has grouped output by 'cod_mpio'. You can override using the
## `.groups` argument.
base_completa <- inner_join(x = empresas_manufactureras, y = valor_agregado_mpio, by = ("cod_mpio"))
corr3 = cor(base_completa$numero_empresas_m, base_completa$valor_agregado_2016)
corr3
## [1] 0.9953632
Como se puede observar la correlación es muy cercana a uno, por lo que se puede decir que la relación entre el número de empresas de industria manufacturera es casi lineal con el valor agregado. Se puede inferir que a un mayor número de empresas en esta sección, hay un mayor valor agregado.