Data Wrangling

Author

Vintimilla-Carrasco, Paul

La manipulación de datos (Data Wrangling) incluye una serie de procesos para transformar datos crudos en formatos más manejables y útiles. Esto permite a identificar patrones, tendencias y obtener información valiosa de los datos.

1. Recopilación de datos

En esta fase, recopilamos los datos necesarios, para este caso, hemos cargado la base de datos LAIS del BID (IDB).

2. Descubrimiento

El descubrimiento de datos es el proceso mediante el cual nos familiarizamos con los datos, identificando características como patrones, valores faltantes o problemas que deben ser corregidos, lo que será abordado en las siguientes fases.

                                          Descriptions       Value
1                                   Sample size (nrow)       66716
2                              No. of variables (ncol)          38
3                    No. of numeric/interger variables          35
4                              No. of factor variables           0
5                                No. of text variables           3
6                             No. of logical variables           0
7                          No. of identifier variables           0
8                                No. of date variables           0
9             No. of zero variance variables (uniform)           0
10               %. of variables having complete cases  13.16% (5)
11   %. of variables having >0% and <50% missing cases  23.68% (9)
12 %. of variables having >=50% and <90% missing cases 39.47% (15)
13          %. of variables having >=90% missing cases  23.68% (9)

Tabla resumen

df_LAIS

Dimensiones: 66716 x 38
Duplicados: 0
No Variable Estadísticas / Valores Frec. (% sobre válidos) Gráfico Perdidos
1 firm_id [numeric]
Media (d-s) : 683213757 (3607054483)
min ≤ mediana ≤ max:
1 ≤ 367087 ≤ 46745218172
RI (CV) : 832275.2 (5.3)
30425 valores distintos 0 (0.0%)
2 country [character]
1. Argentina
2. Chile
3. Colombia
4. Dominican Republic
5. Ecuador
6. El_Salvador
7. Panama
8. Paraguay
9. Peru
10. Uruguay
7635 ( 11.4% )
5931 ( 8.9% )
42245 ( 63.3% )
150 ( 0.2% )
2810 ( 4.2% )
572 ( 0.9% )
368 ( 0.6% )
878 ( 1.3% )
2576 ( 3.9% )
3551 ( 5.3% )
0 (0.0%)
3 year [integer]
Media (d-s) : 2013.3 (2.7)
min ≤ mediana ≤ max:
2007 ≤ 2013 ≤ 2017
RI (CV) : 4 (0)
2007 : 839 ( 1.3% )
2009 : 9282 ( 13.9% )
2010 : 1074 ( 1.6% )
2011 : 9548 ( 14.3% )
2012 : 1124 ( 1.7% )
2013 : 17061 ( 25.6% )
2014 : 95 ( 0.1% )
2015 : 13265 ( 19.9% )
2016 : 1443 ( 2.2% )
2017 : 12985 ( 19.5% )
0 (0.0%)
4 year1 [integer]
Media (d-s) : 2011 (2.7)
min ≤ mediana ≤ max:
2004 ≤ 2011 ≤ 2015
RI (CV) : 4 (0)
2004 : 839 ( 1.3% )
2006 : 273 ( 0.4% )
2007 : 10083 ( 15.1% )
2009 : 11863 ( 17.8% )
2010 : 5486 ( 8.2% )
2011 : 10479 ( 15.7% )
2012 : 3071 ( 4.6% )
2013 : 11637 ( 17.4% )
2014 : 3944 ( 5.9% )
2015 : 9041 ( 13.6% )
0 (0.0%)
5 year2 [integer]
Media (d-s) : 2012 (2.7)
min ≤ mediana ≤ max:
2005 ≤ 2012 ≤ 2016
RI (CV) : 4 (0)
2005 : 839 ( 1.3% )
2007 : 273 ( 0.4% )
2008 : 10083 ( 15.1% )
2010 : 11863 ( 17.8% )
2011 : 5486 ( 8.2% )
2012 : 10479 ( 15.7% )
2013 : 3071 ( 4.6% )
2014 : 11637 ( 17.4% )
2015 : 3944 ( 5.9% )
2016 : 9041 ( 13.6% )
0 (0.0%)
6 year3 [integer]
Media (d-s) : 2012.8 (2.6)
min ≤ mediana ≤ max:
2006 ≤ 2012 ≤ 2016
RI (CV) : 3 (0)
2006 : 839 ( 4.5% )
2008 : 273 ( 1.5% )
2009 : 1074 ( 5.8% )
2011 : 2315 ( 12.5% )
2012 : 5486 ( 29.6% )
2013 : 95 ( 0.5% )
2014 : 3071 ( 16.6% )
2015 : 1443 ( 7.8% )
2016 : 3944 ( 21.3% )
48176 (72.2%)
7 isic4_1d [character]
1. (Cadena vacía)
2. Manufacturing
39197 ( 58.8% )
27519 ( 41.2% )
0 (0.0%)
8 isic3_1d [character]
1. (Cadena vacía)
2. Manufacturing
18684 ( 28.0% )
48032 ( 72.0% )
0 (0.0%)
9 yr_firm [integer]
Media (d-s) : 1988 (19.2)
min ≤ mediana ≤ max:
1743 ≤ 1993 ≤ 2014
RI (CV) : 21 (0)
140 valores distintos 49917 (74.8%)
10 dexport [integer]
Min : 0
Media : 0.3
Max : 1
0 : 34573 ( 68.8% )
1 : 15667 ( 31.2% )
16476 (24.7%)
11 sales_us_Y1 [numeric]
Media (d-s) : 21429945 (248980730)
min ≤ mediana ≤ max:
0 ≤ 1625117 ≤ 29247549440
RI (CV) : 6641095 (11.6)
27390 valores distintos 36793 (55.1%)
12 sales_us_Y2 [numeric]
Media (d-s) : 19526030 (250059083)
min ≤ mediana ≤ max:
0 ≤ 1383502 ≤ 29020473344
RI (CV) : 5352617 (12.8)
42316 valores distintos 20509 (30.7%)
13 sales_us_Y3 [numeric]
Media (d-s) : 18827517 (181205133)
min ≤ mediana ≤ max:
0 ≤ 2128633 ≤ 15069356032
RI (CV) : 8035880 (9.6)
16578 valores distintos 48539 (72.8%)
14 empl_Y1 [numeric]
Media (d-s) : 104.2 (299.5)
min ≤ mediana ≤ max:
0 ≤ 28 ≤ 15463
RI (CV) : 67 (2.9)
1475 valores distintos 2354 (3.5%)
15 empl_Y2 [numeric]
Media (d-s) : 99.3 (273.6)
min ≤ mediana ≤ max:
0 ≤ 28 ≤ 15915
RI (CV) : 64 (2.8)
1366 valores distintos 6366 (9.5%)
16 empl_Y3 [numeric]
Media (d-s) : 120.7 (349.1)
min ≤ mediana ≤ max:
0 ≤ 34 ≤ 11316
RI (CV) : 82 (2.9)
1024 valores distintos 48392 (72.5%)
17 dnewgd [integer]
Min : 0
Media : 0.2
Max : 1
0 : 5348 ( 78.2% )
1 : 1488 ( 21.8% )
59880 (89.8%)
18 dnewserv [integer]
Min : 0
Media : 0
Max : 1
0 : 6503 ( 95.1% )
1 : 333 ( 4.9% )
59880 (89.8%)
19 dnewpd [integer]
Min : 0
Media : 0.2
Max : 1
0 : 47076 ( 83.1% )
1 : 9601 ( 16.9% )
10039 (15.0%)
20 dinnorgpc [integer]
Min : 0
Media : 0.2
Max : 1
0 : 8316 ( 83.2% )
1 : 1675 ( 16.8% )
56725 (85.0%)
21 dinnorgresp [integer]
Min : 0
Media : 0.2
Max : 1
0 : 7904 ( 79.1% )
1 : 2087 ( 20.9% )
56725 (85.0%)
22 dinnorgext [integer]
Min : 0
Media : 0.1
Max : 1
0 : 10465 ( 92.5% )
1 : 852 ( 7.5% )
55399 (83.0%)
23 dinndist [integer]
Min : 0
Media : 0.1
Max : 1
0 : 10316 ( 90.0% )
1 : 1151 ( 10.0% )
55249 (82.8%)
24 dinnprice [integer]
Min : 0
Media : 0.1
Max : 1
0 : 9138 ( 90.1% )
1 : 1003 ( 9.9% )
56575 (84.8%)
25 newgd [integer]
Media (d-s) : 13.1 (58.7)
min ≤ mediana ≤ max:
1 ≤ 2 ≤ 750
RI (CV) : 4 (4.5)
45 valores distintos 66291 (99.4%)
26 newserv [integer]
Media (d-s) : 3.3 (8.2)
min ≤ mediana ≤ max:
1 ≤ 1 ≤ 60
RI (CV) : 1 (2.5)
11 valores distintos 66601 (99.8%)
27 newpd [integer]
Media (d-s) : 1 (19.1)
min ≤ mediana ≤ max:
0 ≤ 0 ≤ 1799
RI (CV) : 0 (18.3)
123 valores distintos 22543 (33.8%)
28 newpc [integer]
Media (d-s) : 1.2 (3)
min ≤ mediana ≤ max:
0 ≤ 0 ≤ 37
RI (CV) : 1 (2.6)
24 valores distintos 65192 (97.7%)
29 dimpgd [integer]
Min : 0
Media : 0.3
Max : 1
0 : 5063 ( 74.1% )
1 : 1773 ( 25.9% )
59880 (89.8%)
30 dimpserv [integer]
Min : 0
Media : 0.1
Max : 1
0 : 6420 ( 93.9% )
1 : 416 ( 6.1% )
59880 (89.8%)
31 dimppd [integer]
Min : 0
Media : 0.2
Max : 1
0 : 47522 ( 83.8% )
1 : 9155 ( 16.2% )
10039 (15.0%)
32 dinnmethod [integer]
Min : 0
Media : 0.2
Max : 1
0 : 4853 ( 78.2% )
1 : 1354 ( 21.8% )
60509 (90.7%)
33 dinnlogist [integer]
Min : 0
Media : 0.1
Max : 1
0 : 5569 ( 89.7% )
1 : 638 ( 10.3% )
60509 (90.7%)
34 dinnsupport [integer]
Min : 0
Media : 0.2
Max : 1
0 : 5197 ( 83.7% )
1 : 1010 ( 16.3% )
60509 (90.7%)
35 impgd [integer]
Media (d-s) : 11.6 (72.9)
min ≤ mediana ≤ max:
1 ≤ 2 ≤ 1403
RI (CV) : 3 (6.3)
33 valores distintos 66241 (99.3%)
36 impserv [integer]
Media (d-s) : 2.2 (2.2)
min ≤ mediana ≤ max:
1 ≤ 1 ≤ 17
RI (CV) : 1 (1)
1 : 76 ( 54.3% )
2 : 30 ( 21.4% )
3 : 18 ( 12.9% )
4 : 4 ( 2.9% )
5 : 5 ( 3.6% )
6 : 1 ( 0.7% )
8 : 1 ( 0.7% )
10 : 4 ( 2.9% )
17 : 1 ( 0.7% )
66576 (99.8%)
37 imppd [integer]
Media (d-s) : 0.7 (13)
min ≤ mediana ≤ max:
0 ≤ 0 ≤ 1403
RI (CV) : 0 (18.3)
94 valores distintos 22543 (33.8%)
38 imppc [integer]
Media (d-s) : 1 (3)
min ≤ mediana ≤ max:
0 ≤ 0 ≤ 50
RI (CV) : 1 (2.9)
22 valores distintos 65143 (97.6%)

Generado por summarytools 1.0.1 (R versión 4.4.1)
2024-09-16

Distribución de Firmas

La tabla y el gráfico de calor representa la evolución en el número de firmas registradas en diversos países durante el período comprendido entre los años 2007 y 2017. Cada celda en el gráfico refleja la cantidad de empresas por año y país, utilizando una gradación de colores para representar las distintas magnitudes. Los tonos más oscuros indican un mayor número de firmas, mientras que los tonos más claros representan una menor cantidad. La ausencia de color en algunas celdas sugiere que no se encontraron datos para ese año y país específicos.

Cantidad de Firmas por País y Año
Años
Total
País 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 Total
Argentina 3691 3944 7635
Chile 1326 905 1247 1359 1094 5931
Colombia 7683 8643 9137 8835 7947 42245
Dominican Republic 150 150
Ecuador 1191 1619 2810
El_Salvador 572 572
Panama 273 95 368
Paraguay 402 476 878
Peru 1124 1452 2576
Uruguay 839 924 821 967 3551
Totales 839 9282 1074 9548 1124 17061 95 13265 1443 12985 66716

Tamaño de las Firmas

Este gráfico de barras apiladas clasifica las empresas de acuerdo con su tamaño, medido por el número de empleados, y distribuye los datos por país y año. Se utilizan cuatro categorías de tamaño de firmas: [10-20], [20-50], [50-250] y [250+] empleados. Los colores diferenciados en tonos de azul facilitan la interpretación visual de las proporciones de empresas en cada categoría.

Distribución de Firmas Exportadoras

Se representa la proporción de empresas que participan en actividades de exportación frente a aquellas que no lo hacen, desglosadas por país y año. Cada barra apilada muestra el porcentaje de empresas exportadoras (color azul oscuro) y no exportadoras (color azul claro).

Edad de las Firmas

Este gráfico de barras apiladas presenta la distribución de la edad de las empresas, agrupadas en las siguientes categorías: [0-5 años], [6-10 años], [11-25 años] y [>25 años]. Las barras reflejan el porcentaje de empresas dentro de cada rango de edad por país y año. Los tonos de azul facilitan la comparación entre las diferentes cohortes etarias empresariales.

3. Estructuración

La estructuración de datos implica organizar los datos en formatos que faciliten el análisis. En este paso, transformamos los datos crudos, reordenamos variables y preparamos el dataset para su posterior uso.

%0 2:s->3 1:s->2 3 stratify by country 2 119900 items 1 LAIS_public: 119900 Firmas Variables: 686

4. Limpieza

La limpieza de datos consiste en eliminar errores, valores atípicos o información incorrecta que podría distorsionar el análisis. Este proceso incluye:

Eliminación de celdas o filas vacías. Estandarización de las entradas. Corrección de valores fuera de rango.

5. Enriquecimiento

Si los datos actuales no son suficientes para el análisis, podemos proceder a un enriquecimiento de datos, que consiste en incorporar valores adicionales de otras fuentes.

6. Validación

El proceso de validación nos permite asegurarnos de que los datos son consistentes y de calidad suficiente para ser analizados. Este proceso generalmente se automatiza, detectando posibles errores que deben ser corregidos.

7. Publicación

Finalmente, después de validar los datos, estos pueden ser publicados o compartidos en un formato apropiado.