Taller 1. Metodos estadisticos

Cargar librerias y base de datos

library(readxl)
library(dplyr)
library(modeest) #libreria para sacar la moda

Exp.agri.sep2022 <- read.csv("C:/Users/user/Desktop/Especializacion estadistica/Taller 1. Metodos estadisticos/Exportaciones_agr_colas_no_tradicionales_y_tradicionales.csv")
Data <- Exp.agri.sep2022 %>% transmute(.,
                            DEPT=as.factor(toupper(Departamento) ), 
                            PROD=as.factor(toupper(Producto.General)),
                            PAR4=as.character(toupper(Descripcion.Partida.4.Digitos)),
                            PART=as.character(toupper(Partida)),
                            PAR10=as.character(toupper(Descripcion.Partida10.Digitos)),
                            EXP.USD=as.numeric(Exportaciones.en.valor..Miles.USD.FOB.),
                            EXP.TON=as.numeric(Exportaciones.en.volumen..toneladas.) )
nombres <- names(Data)
filas <- nrow(Data)
columnas <- ncol(Data)
summary(Data) # Resumen de todas las variables

##               DEPT                                                  PROD     
##  BOGOTÁ         :256   PREPARACIONES ALIMENTICIAS -OTRAS              :  68  
##  ANTIOQUIA      :201   FLORES                                         :  47  
##  VALLE DEL CAUCA:160   CAFÉ                                           :  46  
##  CUNDINAMARCA   :144   PRODUCTOS DE PANADERÍA, PASTELERÍA Y GALLETERÍA:  42  
##  ATLÁNTICO      :125   CACAO                                          :  29  
##  SANTANDER      :109   CHOCOLATES                                     :  27  
##  (Other)        :337   (Other)                                        :1073  
##      PAR4               PART              PAR10              EXP.USD       
##  Length:1332        Length:1332        Length:1332        Min.   :    0.0  
##  Class :character   Class :character   Class :character   1st Qu.:    2.0  
##  Mode  :character   Mode  :character   Mode  :character   Median :   19.0  
##                                                           Mean   :  708.5  
##                                                           3rd Qu.:  130.2  
##                                                           Max.   :76332.0  
##                                                                            
##     EXP.TON        
##  Min.   :     0.0  
##  1st Qu.:     1.0  
##  Median :     4.5  
##  Mean   :   413.1  
##  3rd Qu.:    38.0  
##  Max.   :167059.0  
##

El dataframe corresponde a un listado de productos agricolas tradicionales y no tradicionales, exportados desde Colombia en septiembre de 2022. Los datos se encuentran el repositorio de datos del Gobierno de Colombia bajo el nombre “Exportaciones agrícolas no tradicionales y tradicionales” (https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Exportaciones-agr-colas-no-tradicionales-y-tradici/h7mi-sbxb). A la base de datos se le corrijieron el tipo de columnas segun fuera el caso en factor, caracter o numerico y no se tuvieron en cuenta las columnas de Año y Mes, pues en todo el DF es el mismo valor. La base de datos recortada, presenta un total de 7 columnas, 1332 observaciones (filas) y las variables: DEPT, PROD, PAR4, PART, PAR10, EXP.USD, EXP.TON.

Calculo de medidas de tendencia central, posición y variabilidad

# Calculadas sobre la variable numerica continua "Valor de exportacion en miles de USD"
maximo <- max(Data$EXP.USD)
minimo <- min(Data$EXP.USD)
media <- round(mean(Data$EXP.USD),2)
mediana <- round(median(Data$EXP.USD),2)
CV <- round((sd(Data$EXP.USD)/mean(Data$EXP.USD))*100, 2)
cuantil <- quantile(Data$EXP.USD)
varianza<- round(var(Data$EXP.USD),2)
desv.est <- round(sd(Data$EXP.USD),2)
moda <- mfv(Data$DEPT) # Se tomo el departamento como varible categorica y se calculo la moda, es "Bogota"

Para el caso de la variable de exportaciones en USD se presentan valores muy altos como el correspondiente aL maximo de 7.6332^{4}, asi mismo exportaciones menores a mil dolares por lo cual aparecen multiples valores minimos en 0. La media (708.5) se aleja notablemente de la mediana (19), lo cual indica una distribucion no normal de los datos y alta dispersion. La dispersion puede observarse a partir de unos cuantiles de 0, 2, 19, 130.25, 7.6332^{4}, una varianza de 2.1030332^{7} y una desviación estandar de 4585.88, esta ultima con la que estimamos el coeficiente de variación de 647.27, el cual resulta considerablemente alto y describiendo así la alta dispersion de estos datos.

Tabla de frecuencias

# Calculadas sobre la variable factor asociada a los departamentos
frec.por.dept <- table(Data$DEPT)
barplot(sort(frec.por.dept),
        main="Diagrama de barras de exportaciones por departamento",
        ylab="Frecuencia de exportaciones", xlab=NULL,
        ylim=c(0, 350), col=c(1:22),
        horiz = FALSE, las=2 )

Se observa que el departamento que presentó mayor frecuencia en exportaciones fue BOGOTÁ, seguido de Antioquia, Valle, Cundinamarca, Atlantico y santander, los cuales se diferencian en mas del doble de los demás departamentos.

Box-plot

# Calculadas sobre la variable numerica continua "Cantidad de exportaciones en toneladas"
Data2 <- subset(Data, subset =Data$EXP.USD<1000 )
Data2.n <- ( length(Data2$EXP.USD)/length(Data$EXP.USD) ) * 100
boxplot(Data2$EXP.USD ~ Data2$DEPT,
        las=2, main="Histograma", 
        ylab="Frecuencia absoluta", xlab=NULL)

Para la variable de valor en USD de las exportaciones, fue necesario realizar un subconjunto de datos correspondiente a observaciones menores a 1000miles de USD (1 millon USD). Este filtrado excluye la ayoria de datos atipicos que corresponden a lalores muy altos, pero mantiene el 92.6426426% de los datos iniciales.A partir de ese nuevo DF se observa que departamentos como Cesar y Huila presentan alta variacion en el valor USD de sus exportaciones.

Histogramas

# Calculadas sobre la variable numerica continua "Cantidad de exportaciones en toneladas"
hist(Data2$EXP.USD, main="Histograma", 
     xlab="Marca de clase", ylab="Frecuencia absoluta", 
     xlim = c(0, 1000), breaks = 30, las=2)

Como se ha visto a lo largo de este analisis, se observa que la mayoria de observaciones corresponden a exportaciones menores a 1000 miles de USD, pero aun asi la gran mayoría se centra en aquellas menores a 200mil USD.