library(readxl)
library(dplyr)
library(modeest) #libreria para sacar la moda
Exp.agri.sep2022 <- read.csv("C:/Users/user/Desktop/Especializacion estadistica/Taller 1. Metodos estadisticos/Exportaciones_agr_colas_no_tradicionales_y_tradicionales.csv")
Data <- Exp.agri.sep2022 %>% transmute(.,
DEPT=as.factor(toupper(Departamento) ),
PROD=as.factor(toupper(Producto.General)),
PAR4=as.character(toupper(Descripcion.Partida.4.Digitos)),
PART=as.character(toupper(Partida)),
PAR10=as.character(toupper(Descripcion.Partida10.Digitos)),
EXP.USD=as.numeric(Exportaciones.en.valor..Miles.USD.FOB.),
EXP.TON=as.numeric(Exportaciones.en.volumen..toneladas.) )
nombres <- names(Data)
filas <- nrow(Data)
columnas <- ncol(Data)
summary(Data) # Resumen de todas las variables
## DEPT PROD
## BOGOTÁ :256 PREPARACIONES ALIMENTICIAS -OTRAS : 68
## ANTIOQUIA :201 FLORES : 47
## VALLE DEL CAUCA:160 CAFÉ : 46
## CUNDINAMARCA :144 PRODUCTOS DE PANADERÍA, PASTELERÍA Y GALLETERÍA: 42
## ATLÁNTICO :125 CACAO : 29
## SANTANDER :109 CHOCOLATES : 27
## (Other) :337 (Other) :1073
## PAR4 PART PAR10 EXP.USD
## Length:1332 Length:1332 Length:1332 Min. : 0.0
## Class :character Class :character Class :character 1st Qu.: 2.0
## Mode :character Mode :character Mode :character Median : 19.0
## Mean : 708.5
## 3rd Qu.: 130.2
## Max. :76332.0
##
## EXP.TON
## Min. : 0.0
## 1st Qu.: 1.0
## Median : 4.5
## Mean : 413.1
## 3rd Qu.: 38.0
## Max. :167059.0
##
El dataframe corresponde a un listado de productos agricolas tradicionales y no tradicionales, exportados desde Colombia en septiembre de 2022. Los datos se encuentran el repositorio de datos del Gobierno de Colombia bajo el nombre “Exportaciones agrícolas no tradicionales y tradicionales” (https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Exportaciones-agr-colas-no-tradicionales-y-tradici/h7mi-sbxb). A la base de datos se le corrijieron el tipo de columnas segun fuera el caso en factor, caracter o numerico y no se tuvieron en cuenta las columnas de Año y Mes, pues en todo el DF es el mismo valor. La base de datos recortada, presenta un total de 7 columnas, 1332 observaciones (filas) y las variables: DEPT, PROD, PAR4, PART, PAR10, EXP.USD, EXP.TON.
# Calculadas sobre la variable numerica continua "Valor de exportacion en miles de USD"
maximo <- max(Data$EXP.USD)
minimo <- min(Data$EXP.USD)
media <- round(mean(Data$EXP.USD),2)
mediana <- round(median(Data$EXP.USD),2)
CV <- round((sd(Data$EXP.USD)/mean(Data$EXP.USD))*100, 2)
cuantil <- quantile(Data$EXP.USD)
varianza<- round(var(Data$EXP.USD),2)
desv.est <- round(sd(Data$EXP.USD),2)
moda <- mfv(Data$DEPT) # Se tomo el departamento como varible categorica y se calculo la moda, es "Bogota"
Para el caso de la variable de exportaciones en USD se presentan valores muy altos como el correspondiente aL maximo de 7.6332^{4}, asi mismo exportaciones menores a mil dolares por lo cual aparecen multiples valores minimos en 0. La media (708.5) se aleja notablemente de la mediana (19), lo cual indica una distribucion no normal de los datos y alta dispersion. La dispersion puede observarse a partir de unos cuantiles de 0, 2, 19, 130.25, 7.6332^{4}, una varianza de 2.1030332^{7} y una desviación estandar de 4585.88, esta ultima con la que estimamos el coeficiente de variación de 647.27, el cual resulta considerablemente alto y describiendo así la alta dispersion de estos datos.
# Calculadas sobre la variable factor asociada a los departamentos
frec.por.dept <- table(Data$DEPT)
barplot(sort(frec.por.dept),
main="Diagrama de barras de exportaciones por departamento",
ylab="Frecuencia de exportaciones", xlab=NULL,
ylim=c(0, 350), col=c(1:22),
horiz = FALSE, las=2 )
Se observa que el departamento que presentó mayor frecuencia en
exportaciones fue BOGOTÁ, seguido de Antioquia, Valle, Cundinamarca,
Atlantico y santander, los cuales se diferencian en mas del doble de los
demás departamentos.
# Calculadas sobre la variable numerica continua "Cantidad de exportaciones en toneladas"
Data2 <- subset(Data, subset =Data$EXP.USD<1000 )
Data2.n <- ( length(Data2$EXP.USD)/length(Data$EXP.USD) ) * 100
boxplot(Data2$EXP.USD ~ Data2$DEPT,
las=2, main="Histograma",
ylab="Frecuencia absoluta", xlab=NULL)
Para la variable de valor en USD de las exportaciones, fue necesario
realizar un subconjunto de datos correspondiente a observaciones menores
a 1000miles de USD (1 millon USD). Este filtrado excluye la ayoria de
datos atipicos que corresponden a lalores muy altos, pero mantiene el
92.6426426% de los datos iniciales.A partir de ese nuevo DF se observa
que departamentos como Cesar y Huila presentan alta variacion en el
valor USD de sus exportaciones.
# Calculadas sobre la variable numerica continua "Cantidad de exportaciones en toneladas"
hist(Data2$EXP.USD, main="Histograma",
xlab="Marca de clase", ylab="Frecuencia absoluta",
xlim = c(0, 1000), breaks = 30, las=2)
Como se ha visto a lo largo de este analisis, se observa que la mayoria
de observaciones corresponden a exportaciones menores a 1000 miles de
USD, pero aun asi la gran mayoría se centra en aquellas menores a 200mil
USD.