El objetivo del documento es realizar un análisis de perfilamiento Columnar basado en los datos Lucy de las columnas Zone y Level el cual corresponde a la zona de ubicación y el tamaño de las empresas respectivamente.
Primero importamos las librerías necesarias para realizar el análisis y descargamos los datos Lucy
library(TeachingSampling)
## Loading required package: dplyr
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Loading required package: magrittr
library(moments)
data(Lucy)
Para iniciar con el análisis, primero vamos a ver, cómo está distribuidos los datos con base en las variables.
Distribución Variable Zone
summary(Lucy$Zone)
## A B C D E
## 307 727 974 223 165
Distribución Variable Level
summary(Lucy$Level)
## Big Medium Small
## 83 737 1576
Con este resumen deducimos que la mayoría de las empresas están sobre las zonas B y C y en cuanto a tamaño, la mayoría son empresas Small
Con la función table, podemos desplegar la relación que existe entre las variables y contar la cantidad de empresas que existe por Zona y Tamaño:
table(Lucy$Zone, Lucy$Level)
##
## Big Medium Small
## A 30 180 97
## B 13 121 593
## C 1 111 862
## D 16 187 20
## E 23 138 4
A partir de esto, podemos deducir en dónde se concentra la mayor cantidad de empresas basadas en estas dos variables.
Si queremos ver el porcentaje de participación de cada zona sobre el tamaño de las empresas, debemos realizar un perfilamiento por columnas:
prop.table(table(Lucy$Zone, Lucy$Level),
margin = 2)
##
## Big Medium Small
## A 0.361445783 0.244233379 0.061548223
## B 0.156626506 0.164179104 0.376269036
## C 0.012048193 0.150610583 0.546954315
## D 0.192771084 0.253731343 0.012690355
## E 0.277108434 0.187245590 0.002538071
De primera mano, podemos evidenciar que las empresas Grandes están ubicadas en su mayor proporción en la zona A. Las empresas medianas están ubicadas mayoritariamente en las zonas D y A. Las empresas pequeñas están ubicadas más sobre la zona C.
barplot(prop.table(table(Lucy$Zone, Lucy$Level)
, margin = 2)
, beside = TRUE
, col = heat.colors(length(unique(Lucy$Zone)))
, legend.text = unique(Lucy$Zone)
, main = "Perfilamiento Level by Zone"
)