Introduccion

En este trabajo verememos como implementar la estadistica con programas como “R” y la veracidad que puede tener hacerlo con el programa o manual, con una base de datos ya sea que hayan sido tomados en campo o esten publicados .

Tabla de contenido

library(tidyverse)
datos <- read_csv("oro_plata.csv")
datos

Metricas

Media

  • voy a calcular la media de la produccion.
mean(datos$cantidad_produccion)
## [1] 39061.96

Mediana de la produccion

  • ahora voy a calcular la mediana de la produccion
median(datos$cantidad_produccion, na.rm = TRUE)
## [1] 3592

Moda

moda <- function(x) {
  ux = unique(x)
  tab = tabulate(match(x, ux))
  ux[tab == max(tab)]
}

moda(datos$cantidad_produccion)
## [1] 0

Tipificación del documento

  • con tipificar lo que queria ver era de forma cualitativa o cuantitativa.
library(dplyr)
glimpse(datos)
## Rows: 15,263
## Columns: 11
## $ codigo_dane            <chr> "05001", "05001", "05001", "05001", "05001", "0~
## $ municipio_productor    <chr> "Medellin", "Medellin", "Medellin", "Medellin",~
## $ departamento           <chr> "Antioquia", "Antioquia", "Antioquia", "Antioqu~
## $ recurso_natural        <chr> "Oro", "Oro", "Oro", "Plata", "Plata", "Plata",~
## $ nombre_del_proyecto    <chr> "Productores", "Productores", "Productores", "P~
## $ year                   <dbl> 2012, 2012, 2012, 2012, 2012, 2012, 2013, 2016,~
## $ trimestre              <chr> "Trimestre 1", "Trimestre 1", "Trimestre 1", "T~
## $ unidad_medida          <chr> "Gramos", "Gramos", "Gramos", "Gramos", "Gramos~
## $ tipo_contraprestacion  <chr> "Regalia", "Regalia", "Regalia", "Regalia", "Re~
## $ valor_contraprestacion <dbl> 54337944, 61057047, 78266238, 179431, 216835, 1~
## $ cantidad_produccion    <dbl> 16517, 19375, 24477, 2972, 3710, 20, 193, 222, ~

Agrupacionde datos estadisticos

  • Aqui halle el promedio, la esviacion estandar y el promedio en la cantidad de produccion de manera uniforme sin tener que hacerlo uno por uno y así tener certeza en cada dato que me arroje.
library(dplyr)
datos %>% 
  group_by(departamento,municipio_productor) %>%
  summarise(
    promedio = mean(valor_contraprestacion),
    desv_estandar = sd(valor_contraprestacion),
    promedio_cantidad_produccion = mean(cantidad_produccion),
    total = n()
  )

Resumen general de los datos

library(skimr)
skim(datos)
Data summary
Name datos
Number of rows 15263
Number of columns 11
_______________________
Column type frequency:
character 8
numeric 3
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
codigo_dane 0 1 5 5 0 272 0
municipio_productor 0 1 4 27 0 272 0
departamento 0 1 5 15 0 24 0
recurso_natural 0 1 3 5 0 2 0
nombre_del_proyecto 0 1 11 11 0 1 0
trimestre 0 1 11 11 0 4 0
unidad_medida 0 1 6 6 0 1 0
tipo_contraprestacion 0 1 7 7 0 1 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
year 0 1 2015.39 2.43 2012 2013 2015 2017 2020 ▇▆▃▆▃
valor_contraprestacion 0 1 100566656.01 353552266.72 5 99221 2872291 56255034 12907658383 ▇▁▁▁▁
cantidad_produccion 0 1 39061.96 105629.37 0 560 3592 25880 2198160 ▇▁▁▁▁

Graficas

Consumismo en el sector minero

  • ¿Qué es lo que mas se consume entre oro y plata?

Podemos ver segun la grafica que el oro es el mineral mas apetecido en el mercado, notamos que aunque la plata tiene un rango menor también es muy consumido.

library(plotly)
ggplotly(datos %>% 
  ggplot(mapping = aes(x = recurso_natural)) +
  geom_bar(fill = "purple", color = "purple") +
  labs(x = "recurso_natural", y = "cantidad", title = " MINERIA EN EL MERCADO." ))

Normalidad en años.

  • Con este grafico buscaba ver la distribución normal en los años, comparando las probabilidades muestrales con las teoricas si vemos el grafico podemos darnos cuenta que parece ser que no es una distribucion normal ya que los puntos no estan señidos ni cerca de la linea, mas bien estan dispersos y de forma escalonada.
datos %>% 
  ggplot(mapping = aes(sample = year)) +
  geom_qq() +
  geom_qq_line()+
  geom_qq_line()

Cantidad de produccion

  • ¿cual es la relacion entre el recurso natural y los departamentos?

sabemos que el recurso natural es el oro y la plata si vemos la grafica podemos observar que hay departamentos que tienen mas contenido de oro que otros lo mismo pasa con la plata, y gracias a los colores sabremos cual departamento es el que produce la cantidad.

datos %>% 
  group_by(recurso_natural, departamento) %>% 
  summarise(promedio = mean(cantidad_produccion)) %>% 
  ggplot(mapping = aes(x = recurso_natural, y = promedio, fill = departamento)) +
  geom_col(position = "dodge")

Conclusión

Despues de haber terminado el trabajo y ver que el oro es el mineral mas extraido de los departamentos unos en mayor cantidad que otros, a medida que van pasando los años hay una variacion en la producción de estos minerales.