Introduccion

En este trabajo verememos como implementar la estadistica con programas como “R” y la veracidad que puede tener hacerlo con el programa o manual, con una base de datos ya sea que hayan sido tomados en campo o esten publicados .

Tabla de contenido

library(tidyverse)
datos <- read_csv("oro_plata.csv")
datos

Metricas

Media

voy a calcular la media de la produccion.

mean(datos$cantidad_produccion)

## [1] 39061.96

Mediana de la produccion

ahora voy a calcular la mediana de la produccion

median(datos$cantidad_produccion, na.rm = TRUE)

## [1] 3592

Moda

moda <- function(x) {
  ux = unique(x)
  tab = tabulate(match(x, ux))
  ux[tab == max(tab)]
}

moda(datos$cantidad_produccion)

## [1] 0

Tipificación del documento

con tipificar lo que queria ver era de forma cualitativa o cuantitativa.

library(dplyr)
glimpse(datos)

## Rows: 15,263
## Columns: 11
## $ codigo_dane            <chr> "05001", "05001", "05001", "05001", "05001", "0~
## $ municipio_productor    <chr> "Medellin", "Medellin", "Medellin", "Medellin",~
## $ departamento           <chr> "Antioquia", "Antioquia", "Antioquia", "Antioqu~
## $ recurso_natural        <chr> "Oro", "Oro", "Oro", "Plata", "Plata", "Plata",~
## $ nombre_del_proyecto    <chr> "Productores", "Productores", "Productores", "P~
## $ year                   <dbl> 2012, 2012, 2012, 2012, 2012, 2012, 2013, 2016,~
## $ trimestre              <chr> "Trimestre 1", "Trimestre 1", "Trimestre 1", "T~
## $ unidad_medida          <chr> "Gramos", "Gramos", "Gramos", "Gramos", "Gramos~
## $ tipo_contraprestacion  <chr> "Regalia", "Regalia", "Regalia", "Regalia", "Re~
## $ valor_contraprestacion <dbl> 54337944, 61057047, 78266238, 179431, 216835, 1~
## $ cantidad_produccion    <dbl> 16517, 19375, 24477, 2972, 3710, 20, 193, 222, ~

Agrupacionde datos estadisticos

Aqui halle el promedio, la esviacion estandar y el promedio en la cantidad de produccion de manera uniforme sin tener que hacerlo uno por uno y así tener certeza en cada dato que me arroje.

library(dplyr)
datos %>% 
  group_by(departamento,municipio_productor) %>%
  summarise(
    promedio = mean(valor_contraprestacion),
    desv_estandar = sd(valor_contraprestacion),
    promedio_cantidad_produccion = mean(cantidad_produccion),
    total = n()
  )

Resumen general de los datos

library(skimr)
skim(datos)

Data summary
Name	datos
Number of rows	15263
Number of columns	11
_______________________
Column type frequency:
character	8
numeric	3
________________________
Group variables	None

Variable type: character

skim_variable	complete_rate	min	max	n_unique
codigo_dane	1	5	5	272
municipio_productor	1	4	27	272
departamento	1	5	15	24
recurso_natural	1	3	5	2
nombre_del_proyecto	1	11	11	1
trimestre	1	11	11	4
unidad_medida	1	6	6	1
tipo_contraprestacion	1	7	7	1

Variable type: numeric

skim_variable	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
year	1	2015.39	2.43	2012	2013	2015	2017	2020	▇▆▃▆▃
valor_contraprestacion	1	100566656.01	353552266.72	5	99221	2872291	56255034	12907658383	▇▁▁▁▁
cantidad_produccion	1	39061.96	105629.37	0	560	3592	25880	2198160	▇▁▁▁▁

Graficas

Consumismo en el sector minero

¿Qué es lo que mas se consume entre oro y plata?

Podemos ver segun la grafica que el oro es el mineral mas apetecido en el mercado, notamos que aunque la plata tiene un rango menor también es muy consumido.

library(plotly)
ggplotly(datos %>% 
  ggplot(mapping = aes(x = recurso_natural)) +
  geom_bar(fill = "purple", color = "purple") +
  labs(x = "recurso_natural", y = "cantidad", title = " MINERIA EN EL MERCADO." ))

Normalidad en años.

Con este grafico buscaba ver la distribución normal en los años, comparando las probabilidades muestrales con las teoricas si vemos el grafico podemos darnos cuenta que parece ser que no es una distribucion normal ya que los puntos no estan señidos ni cerca de la linea, mas bien estan dispersos y de forma escalonada.

datos %>% 
  ggplot(mapping = aes(sample = year)) +
  geom_qq() +
  geom_qq_line()+
  geom_qq_line()

Cantidad de produccion

¿cual es la relacion entre el recurso natural y los departamentos?

sabemos que el recurso natural es el oro y la plata si vemos la grafica podemos observar que hay departamentos que tienen mas contenido de oro que otros lo mismo pasa con la plata, y gracias a los colores sabremos cual departamento es el que produce la cantidad.

datos %>% 
  group_by(recurso_natural, departamento) %>% 
  summarise(promedio = mean(cantidad_produccion)) %>% 
  ggplot(mapping = aes(x = recurso_natural, y = promedio, fill = departamento)) +
  geom_col(position = "dodge")

Conclusión

Despues de haber terminado el trabajo y ver que el oro es el mineral mas extraido de los departamentos unos en mayor cantidad que otros, a medida que van pasando los años hay una variacion en la producción de estos minerales.

Trabajo_1_Estadistica

Daniela palomino

27/4/2021