library(readxl)
Capitulo_III <- read_excel("C:/Users/Usuario/OneDrive - Universidad de Santander/Desktop/Prueba/Prueba2/Capitulo_III.xlsx")
View(Capitulo_III)
attach(Capitulo_III)

Tratamiento de microdatos COLOMBIA - Encuesta Ambiental Industrial - EAI - 2019

Se trabajaron los datos del capitulo III el cual contiene 2991 observaciones con 95 columnas. Rows: 2991 Columns: 95

Importar Datos

library(readxl)
Capitulo_III <- read_excel("C:/Users/Usuario/OneDrive - Universidad de Santander/Desktop/Prueba/Prueba2/Capitulo_III.xlsx")
View(Capitulo_III)
attach(Capitulo_III)

Cálculo de estadisticas básicas

library(moments)
summary(CODIGO_REGION)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   3.000   3.335   5.000   6.000
mean(CODIGO_REGION)
## [1] 3.334671
median(CODIGO_REGION)
## [1] 3
sd(CODIGO_REGION)
## [1] 1.342139
min(CODIGO_REGION)
## [1] 1
max(CODIGO_REGION)
## [1] 6
range(CODIGO_REGION)
## [1] 1 6
variance <- function (CODIGO_REGION)   
  sum((CODIGO_REGION-mean(CODIGO_REGION))^2)/(length(CODIGO_REGION)-1)
variance(CODIGO_REGION)
## [1] 1.801336
skewness(CODIGO_REGION)
## [1] -0.1138312
kurtosis(CODIGO_REGION)
## [1] 1.892751
quantile(CODIGO_REGION)
##   0%  25%  50%  75% 100% 
##    1    2    3    5    6
quantile(CODIGO_REGION, c(.35, .60, .98))
## 35% 60% 98% 
##   3   4   5

Distribución de frecuencia

library(fdth)
dist1 <- fdt(Capitulo_III $ C2RSCA2_kg,breaks="Sturges") 
dist1
##             Class limits    f   rf rf(%)   cf  cf(%)
##           [0,306753.315) 2916 0.97 97.49 2916  97.49
##  [306753.315,613506.631)   40 0.01  1.34 2956  98.83
##  [613506.631,920259.946)   19 0.01  0.64 2975  99.47
##  [920259.946,1227013.26)    4 0.00  0.13 2979  99.60
##  [1227013.26,1533766.58)    1 0.00  0.03 2980  99.63
##  [1533766.58,1840519.89)    6 0.00  0.20 2986  99.83
##  [1840519.89,2147273.21)    0 0.00  0.00 2986  99.83
##  [2147273.21,2454026.52)    2 0.00  0.07 2988  99.90
##  [2454026.52,2760779.84)    1 0.00  0.03 2989  99.93
##  [2760779.84,3067533.15)    0 0.00  0.00 2989  99.93
##  [3067533.15,3374286.47)    1 0.00  0.03 2990  99.97
##  [3374286.47,3681039.78)    0 0.00  0.00 2990  99.97
##   [3681039.78,3987793.1)    1 0.00  0.03 2991 100.00
range(C2RSCA2_kg)
## [1]       0 3948310
dist1 <- fdt(Capitulo_III $ C2RSCA10_kg,breaks="Sturges") 
dist1
##                 Class limits    f rf rf(%)   cf  cf(%)
##             [0,4626741.9415) 2982  1 99.70 2982  99.70
##  [4626741.9415,9253483.8831)    1  0  0.03 2983  99.73
##  [9253483.8831,13880225.825)    3  0  0.10 2986  99.83
##  [13880225.825,18506967.766)    1  0  0.03 2987  99.87
##  [18506967.766,23133709.708)    0  0  0.00 2987  99.87
##  [23133709.708,27760451.649)    1  0  0.03 2988  99.90
##  [27760451.649,32387193.591)    2  0  0.07 2990  99.97
##  [32387193.591,37013935.532)    0  0  0.00 2990  99.97
##  [37013935.532,41640677.474)    0  0  0.00 2990  99.97
##  [41640677.474,46267419.415)    0  0  0.00 2990  99.97
##  [46267419.415,50894161.357)    0  0  0.00 2990  99.97
##  [50894161.357,55520903.298)    0  0  0.00 2990  99.97
##   [55520903.298,60147645.24)    1  0  0.03 2991 100.00
range(C2RSCA10_kg)
## [1]        0 59552124
dist1 <- fdt(Capitulo_III $ C2RSCB2_kg,breaks="Sturges") 
dist1
##               Class limits    f rf rf(%)   cf  cf(%)
##            [0,261156.0885) 2982  1 99.70 2982  99.70
##  [261156.0885,522312.1769)    6  0  0.20 2988  99.90
##  [522312.1769,783468.2654)    0  0  0.00 2988  99.90
##  [783468.2654,1044624.354)    1  0  0.03 2989  99.93
##  [1044624.354,1305780.442)    1  0  0.03 2990  99.97
##  [1305780.442,1566936.531)    0  0  0.00 2990  99.97
##  [1566936.531,1828092.619)    0  0  0.00 2990  99.97
##  [1828092.619,2089248.708)    0  0  0.00 2990  99.97
##  [2089248.708,2350404.796)    0  0  0.00 2990  99.97
##  [2350404.796,2611560.885)    0  0  0.00 2990  99.97
##  [2611560.885,2872716.973)    0  0  0.00 2990  99.97
##  [2872716.973,3133873.062)    0  0  0.00 2990  99.97
##   [3133873.062,3395029.15)    1  0  0.03 2991 100.00
range(C2RSCB2_kg)
## [1]       0 3361415
dist1 <- fdt(Capitulo_III $ C2RSCB10_kg,breaks="Sturges") 
dist1
##           Class limits    f rf rf(%)   cf  cf(%)
##          [0,5921.8211) 2990  1 99.97 2990  99.97
##  [5921.8211,11843.642)    0  0  0.00 2990  99.97
##  [11843.642,17765.463)    0  0  0.00 2990  99.97
##  [17765.463,23687.284)    0  0  0.00 2990  99.97
##  [23687.284,29609.106)    0  0  0.00 2990  99.97
##  [29609.106,35530.927)    0  0  0.00 2990  99.97
##  [35530.927,41452.748)    0  0  0.00 2990  99.97
##  [41452.748,47374.569)    0  0  0.00 2990  99.97
##   [47374.569,53296.39)    0  0  0.00 2990  99.97
##   [53296.39,59218.211)    0  0  0.00 2990  99.97
##  [59218.211,65140.032)    0  0  0.00 2990  99.97
##  [65140.032,71061.853)    0  0  0.00 2990  99.97
##  [71061.853,76983.675)    1  0  0.03 2991 100.00
range(C2RSCB10_kg)
## [1]     0.00 76221.46

Gráficos estadísticos descriptivos

plot(dist1, type="cfp",col="darkblue",ylab="Frecuencia",xlab="límite de clase" )

plot(CODIGO_ACTIVIDAD, main="Datos Código actividad",
     col="darkblue",ylab="Código actividad 1 - 9",xlab="Cantidad")

hist(CODIGO_ACTIVIDAD,ylab="Frecuencia", main="Histograma de código de actividad", col="darkblue")

cor(CODIGO_ACTIVIDAD,CODIGO_REGION)
## [1] NA
plot(CODIGO_ACTIVIDAD,CODIGO_REGION,col="darkblue")

plot(CODIGO_REGION, main="Datos Código región",
     col="red",ylab="Código región 1 - 6",xlab="Cantidad")

hist(CODIGO_REGION,ylab="Frecuencia", main="Histograma de código de región", col="red")

cor(CODIGO_REGION,C2RSCA10_kg)
## [1] -0.02468467
plot(CODIGO_REGION,C2RSCA10_kg)

plot(dist1, type="cfp", main="Ojiva para código de región",
     col="red", xlab="Limite clase", ylab="Frecuencia")

hist(Capitulo_III $ CODIGO_REGION,xlab="Región",
     ylab="frecuencia",main="Histograma de Regiones", col="red")

hist(Capitulo_III $ C2RSCA8_kg,xlab="Peso",
     ylab="frecuencia",main="Histograma PRC", col="cyan2")

library(ggplot2)
ggplot(data=Capitulo_III, aes(CODIGO_REGION,fill=C2RSCA10_kg)) +
  geom_density(alpha=0.7,fill="yellow")+theme_minimal()

ggplot(data=Capitulo_III, aes(CODIGO_REGION,fill=C2RSCB10_kg)) +
  geom_density(alpha=0.7,fill="green")+theme_minimal() 

ggplot(data=Capitulo_III, aes(CODIGO_REGION,fill=C2RSCC10_kg)) +
  geom_density(alpha=0.7,fill="purple")+theme_minimal()

ggplot(data=Capitulo_III, aes(CODIGO_REGION,fill=C2RSCA2_kg)) +
  geom_density(alpha=0.7,fill="pink")+theme_minimal()

ggplot(data = Capitulo_III, aes(x = CODIGO_REGION, y = C2RSCA10_kg, colour = C2RSCA2_kg,
                                group = C2RSCA2_kg)) +
  stat_summary(fun = mean, geom = "point") +
  stat_summary(fun = mean, geom = "line") +
  labs(y  =  'Cantidad generada kg/año') +
  theme_bw()

Anexo A

Inconveniente Código actividad En la columna CODIGO ACTIVIDAD deberíamos encontrar las actividades 1 a 9 que corresponden a:

1 Alimentos, bebidas y tabaco. 2 Coquización, fabricación de productos de la refinación del petróleo y combustible nuclear.

3 Fabricación de productos de caucho y plástico.

4 Fabricación de productos y sustancias químicas.

5 Inductría de la madera y el corcho, fabricación de papel y actividades de edicción e impresión.

6 Industría de productos minerales no metálicos

7 Metalurgia y fabricación de productos no metálicos.

8 Textiles, confección, calzado y pieles.

9 Otras divisiones industriales.

En el gráfico Se evidencia que hay datos atípicos, ya que se encuentran valores de 999, cuando el rango de aplicación es 1 a 9.

A continuación se presentan los resultados de la estadística descriptiva para esta variable cuando son cálculados con la totalidad de los datos:

  • Media = 6.670679

  • Media recortada (10%) = 5.019641

  • Mediana = 5

  • Desviación estándar = 40.7141

  • Valor mínimo = 1

  • Valor maxímo = 999

  • Rango = 1 - 999

  • Asimetría = 24.2154

  • Curtosis =590.3205

  • Cuantiles:

    0% 25% 50% 75% 100%
    1 3 5 8 999

Así aparecían los datos, sin embargo al volver a realizar le proceso estadístico no logré que la variable “Código actividad” aunque aparecía númerica no cálculaba las variables solicitadas