actividad 1

analisis de datos tidy data

Author

sebastian amaris y Rivaldo Mass [sede:Caucasia]

Published

March 22, 2025

Code
library(readr)
library(readxl)
library(tidyr)
library(janitor)

Tabla1<-read.csv("renapa-productores-apiarios-colmenas-provincia-2022-mayo.csv")
Tabla2<-read.csv("trigo-serie-1923-2023-anual.csv")
Tabla3<-read.csv("lacteos-balanza-anual-dolares-1989-2009.csv")
Tabla4<-read.csv("Catastro_de_Arboles_del_Municipio_de_San_Cayetano_20250322.csv")
Tabla5<-read.csv("datos_analisis/Agricultores_Municipio_de_San_Cayetano_20250320.csv")

Analisis de bases de datos bajo el estandar: tidy Data

el estandar tidy tiene 4 caracteristicas identificativas que son los aplicados para esta actividad concreta. estos estandares son que los datos:

  • están ordenados y comparten una estructura consistente

  • fáciles de explorar, comprender, usar y actualizar

  • fáciles de analizar por máquinas

  • fáciles de limpiar y no es necesario métodos nuevos para ello

estas son las caracteristicas que se deben cumplir de manera correcta para ser datos de estandar tidy Data.

estructura de datos tidy

la estructura de datos de tidy data se caracteriza por las siguientes reglas de estructura

  • Cada variable es una columna
  • Cada columna es una variable
  • Cada observación es una fila
  • Cada fila es una observación
  • Cada valor es una celda
  • Cada celda es un valor único

con esto se procede con el ejemplo de datos con el estandar tidy data y el uso correcto de la estructura de datos tidy

conjuntos de datos a analizar.

Code
head(Tabla1,23)

iniciando el analisis con la primera tabla probeniente de datos libres de argentina. podemos ver que tiene una estructura sensilla, sin campos vacios ni tampoco uso inapropiado de caracteres junto a los valores numericos por lo que esta tabla pasa los estandares tidy

Code
head(Tabla2,101)

en esta tabla tambien se hace un uso adecuado del formato tidy con las variables en las columnas y las unidades de estas tambien archivadas en la varaible ademas de el uso homogeneo de las misma unidades de medida para toda la tabla

esta tabla proviene de datos abiertos argentina

Code
head(Tabla4,604)

en el caso de esta tabla esta mal el uso de las columnas 6 y 7 donde se mesclan caracteres con numeros y para extra mesclar tambien unidades de medida en vatias filas como en las filas 32 y 38 por dar ejemplo

este tipo de tablas requiere un remplazo de las columnas usando

left_join(Tabla4,Tabla4a) donde Tabla4a es la tabla con las correciones y de cual solo conservaremos y añadiremos la tabla4 las correciones necesarias de las columnas 6 y 7

esta tabla proviene de datos abiertos colombia

Code
head(Tabla3,21)

nuevamente de datos libres argentina un ejemplo de buen uso del estandar tidy

Code
head(Tabla5,113)

con un buen uso al colocar en las varaibles las unidades de medida comete el error de mesclar en las columnas 4 y 6 caracteres y numeros ademas de usar 2 tipos de unidades de medidas completamente diferentes.

para solucionar esto primero hay que aplicar: separate(Tabla5,-col = Area.establecida,Area.total) para eliminar las columnas con valores incorrectos y luego de hacer una tabla con los valores corregidos.

posteriormente aplicar:

full_join(tabla5,tabla5a) para juntar las columnas con todos sus valores correjidos.