En este trabajo verememos como implementar la estadistica con programas como “R” y la veracidad que puede tener hacerlo con el programa o manual, con una base de datos ya sea que hayan sido tomados en campo o esten publicados .
library(tidyverse)
datos <- read_csv("oro_plata.csv")
datos
mean(datos$cantidad_produccion)
## [1] 39061.96
median(datos$cantidad_produccion, na.rm = TRUE)
## [1] 3592
moda <- function(x) {
ux = unique(x)
tab = tabulate(match(x, ux))
ux[tab == max(tab)]
}
moda(datos$cantidad_produccion)
## [1] 0
library(dplyr)
glimpse(datos)
## Rows: 15,263
## Columns: 11
## $ codigo_dane <chr> "05001", "05001", "05001", "05001", "05001", "0~
## $ municipio_productor <chr> "Medellin", "Medellin", "Medellin", "Medellin",~
## $ departamento <chr> "Antioquia", "Antioquia", "Antioquia", "Antioqu~
## $ recurso_natural <chr> "Oro", "Oro", "Oro", "Plata", "Plata", "Plata",~
## $ nombre_del_proyecto <chr> "Productores", "Productores", "Productores", "P~
## $ year <dbl> 2012, 2012, 2012, 2012, 2012, 2012, 2013, 2016,~
## $ trimestre <chr> "Trimestre 1", "Trimestre 1", "Trimestre 1", "T~
## $ unidad_medida <chr> "Gramos", "Gramos", "Gramos", "Gramos", "Gramos~
## $ tipo_contraprestacion <chr> "Regalia", "Regalia", "Regalia", "Regalia", "Re~
## $ valor_contraprestacion <dbl> 54337944, 61057047, 78266238, 179431, 216835, 1~
## $ cantidad_produccion <dbl> 16517, 19375, 24477, 2972, 3710, 20, 193, 222, ~
library(dplyr)
datos %>%
group_by(departamento,municipio_productor) %>%
summarise(
promedio = mean(valor_contraprestacion),
desv_estandar = sd(valor_contraprestacion),
promedio_cantidad_produccion = mean(cantidad_produccion),
total = n()
)
library(skimr)
skim(datos)
| Name | datos |
| Number of rows | 15263 |
| Number of columns | 11 |
| _______________________ | |
| Column type frequency: | |
| character | 8 |
| numeric | 3 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| codigo_dane | 0 | 1 | 5 | 5 | 0 | 272 | 0 |
| municipio_productor | 0 | 1 | 4 | 27 | 0 | 272 | 0 |
| departamento | 0 | 1 | 5 | 15 | 0 | 24 | 0 |
| recurso_natural | 0 | 1 | 3 | 5 | 0 | 2 | 0 |
| nombre_del_proyecto | 0 | 1 | 11 | 11 | 0 | 1 | 0 |
| trimestre | 0 | 1 | 11 | 11 | 0 | 4 | 0 |
| unidad_medida | 0 | 1 | 6 | 6 | 0 | 1 | 0 |
| tipo_contraprestacion | 0 | 1 | 7 | 7 | 0 | 1 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| year | 0 | 1 | 2015.39 | 2.43 | 2012 | 2013 | 2015 | 2017 | 2020 | ▇▆▃▆▃ |
| valor_contraprestacion | 0 | 1 | 100566656.01 | 353552266.72 | 5 | 99221 | 2872291 | 56255034 | 12907658383 | ▇▁▁▁▁ |
| cantidad_produccion | 0 | 1 | 39061.96 | 105629.37 | 0 | 560 | 3592 | 25880 | 2198160 | ▇▁▁▁▁ |
Podemos ver segun la grafica que el oro es el mineral mas apetecido en el mercado, notamos que aunque la plata tiene un rango menor también es muy consumido.
library(plotly)
ggplotly(datos %>%
ggplot(mapping = aes(x = recurso_natural)) +
geom_bar(fill = "purple", color = "purple") +
labs(x = "recurso_natural", y = "cantidad", title = " MINERIA EN EL MERCADO." ))
datos %>%
ggplot(mapping = aes(sample = year)) +
geom_qq() +
geom_qq_line()+
geom_qq_line()
sabemos que el recurso natural es el oro y la plata si vemos la grafica podemos observar que hay departamentos que tienen mas contenido de oro que otros lo mismo pasa con la plata, y gracias a los colores sabremos cual departamento es el que produce la cantidad.
datos %>%
group_by(recurso_natural, departamento) %>%
summarise(promedio = mean(cantidad_produccion)) %>%
ggplot(mapping = aes(x = recurso_natural, y = promedio, fill = departamento)) +
geom_col(position = "dodge")
Despues de haber terminado el trabajo y ver que el oro es el mineral mas extraido de los departamentos unos en mayor cantidad que otros, a medida que van pasando los años hay una variacion en la producción de estos minerales.