Analisis de bases de datos bajo el estandar: tidy Data
el estandar tidy tiene 4 caracteristicas identificativas que son los aplicados para esta actividad concreta. estos estandares son que los datos:
están ordenados y comparten una estructura consistente
fáciles de explorar, comprender, usar y actualizar
fáciles de analizar por máquinas
fáciles de limpiar y no es necesario métodos nuevos para ello
estas son las caracteristicas que se deben cumplir de manera correcta para ser datos de estandar tidy Data.
estructura de datos tidy
la estructura de datos de tidy data se caracteriza por las siguientes reglas de estructura
Cada variable es una columna
Cada columna es una variable
Cada observación es una fila
Cada fila es una observación
Cada valor es una celda
Cada celda es un valor único
con esto se procede con el ejemplo de datos con el estandar tidy data y el uso correcto de la estructura de datos tidy
conjuntos de datos a analizar.
Code
head(Tabla1,23)
iniciando el analisis con la primera tabla probeniente de datos libres de argentina. podemos ver que tiene una estructura sensilla, sin campos vacios ni tampoco uso inapropiado de caracteres junto a los valores numericos por lo que esta tabla pasa los estandares tidy
Code
head(Tabla2,101)
en esta tabla tambien se hace un uso adecuado del formato tidy con las variables en las columnas y las unidades de estas tambien archivadas en la varaible ademas de el uso homogeneo de las misma unidades de medida para toda la tabla
esta tabla proviene de datos abiertos argentina
Code
head(Tabla4,604)
en el caso de esta tabla esta mal el uso de las columnas 6 y 7 donde se mesclan caracteres con numeros y para extra mesclar tambien unidades de medida en vatias filas como en las filas 32 y 38 por dar ejemplo
este tipo de tablas requiere un remplazo de las columnas usando
left_join(Tabla4,Tabla4a) donde Tabla4a es la tabla con las correciones y de cual solo conservaremos y añadiremos la tabla4 las correciones necesarias de las columnas 6 y 7
esta tabla proviene de datos abiertos colombia
Code
head(Tabla3,21)
nuevamente de datos libres argentina un ejemplo de buen uso del estandar tidy
Code
head(Tabla5,113)
con un buen uso al colocar en las varaibles las unidades de medida comete el error de mesclar en las columnas 4 y 6 caracteres y numeros ademas de usar 2 tipos de unidades de medidas completamente diferentes.
para solucionar esto primero hay que aplicar: separate(Tabla5,-col = Area.establecida,Area.total) para eliminar las columnas con valores incorrectos y luego de hacer una tabla con los valores corregidos.
posteriormente aplicar:
full_join(tabla5,tabla5a) para juntar las columnas con todos sus valores correjidos.