Introducción

El objetivo del documento es realizar un análisis de perfilamiento Columnar basado en los datos Lucy de las columnas Zone y Level el cual corresponde a la zona de ubicación y el tamaño de las empresas respectivamente.

Instalación de Paquetes

Primero importamos las librerías necesarias para realizar el análisis y descargamos los datos Lucy

library(TeachingSampling)
## Loading required package: dplyr
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Loading required package: magrittr
library(moments)
data(Lucy)

Análisis Descriptivo

Resumen de Variables a usar

Para iniciar con el análisis, primero vamos a ver, cómo está distribuidos los datos con base en las variables.

Distribución Variable Zone

summary(Lucy$Zone)
##   A   B   C   D   E 
## 307 727 974 223 165

Distribución Variable Level

summary(Lucy$Level)
##    Big Medium  Small 
##     83    737   1576

Con este resumen deducimos que la mayoría de las empresas están sobre las zonas B y C y en cuanto a tamaño, la mayoría son empresas Small

Visualización a Nivel de Tabla

Con la función table, podemos desplegar la relación que existe entre las variables y contar la cantidad de empresas que existe por Zona y Tamaño:

table(Lucy$Zone, Lucy$Level)
##    
##     Big Medium Small
##   A  30    180    97
##   B  13    121   593
##   C   1    111   862
##   D  16    187    20
##   E  23    138     4

A partir de esto, podemos deducir en dónde se concentra la mayor cantidad de empresas basadas en estas dos variables.

Perfilamiento por Columnas

Si queremos ver el porcentaje de participación de cada zona sobre el tamaño de las empresas, debemos realizar un perfilamiento por columnas:

prop.table(table(Lucy$Zone, Lucy$Level),
           margin = 2)
##    
##             Big      Medium       Small
##   A 0.361445783 0.244233379 0.061548223
##   B 0.156626506 0.164179104 0.376269036
##   C 0.012048193 0.150610583 0.546954315
##   D 0.192771084 0.253731343 0.012690355
##   E 0.277108434 0.187245590 0.002538071

De primera mano, podemos evidenciar que las empresas Grandes están ubicadas en su mayor proporción en la zona A. Las empresas medianas están ubicadas mayoritariamente en las zonas D y A. Las empresas pequeñas están ubicadas más sobre la zona C.

Visualización de Perfilamiento Gráficamente

barplot(prop.table(table(Lucy$Zone, Lucy$Level)
                   , margin = 2)
                    , beside = TRUE
                    , col = heat.colors(length(unique(Lucy$Zone)))
                    , legend.text = unique(Lucy$Zone)
                    , main = "Perfilamiento Level by Zone"
        )