Introducción a Apache Parquet

Author

Aldo Jaenes

Butler Scientifics Logo

¿Qué es Apache Parquet?

Apache Parquet es un formato de almacenamiento de datos en columna diseñado para ser altamente eficiente en términos de almacenamiento y procesamiento. Fue desarrollado inicialmente por Cloudera y Twitter y ahora es parte del ecosistema Apache. Es ampliamente utilizado en el manejo de grandes volúmenes de datos, especialmente en entornos de Big Data y sistemas analíticos.

Principales características

Basado en columnas: Diseñado para consultas analíticas rápidas.
Compresión eficiente: Compatible con algoritmos como Snappy, GZIP, y Zstandard.
Interoperabilidad: Compatible con múltiples lenguajes de programación y herramientas, como Python, Spark, Hadoop, etc.
Esquema auto-descriptivo: Almacena el esquema junto con los datos, lo que facilita su comprensión y uso.

¿Para qué sirve Parquet?

Parquet es ideal para:

Análisis de datos: Optimizado para realizar consultas rápidas sobre grandes conjuntos de datos.
Almacenamiento en la nube: Utilizado en plataformas como AWS S3, Google Cloud Storage y Azure.
Integración con Big Data: Es un formato nativo en herramientas como Apache Spark, Hive y Presto.
Procesamiento de datos ETL: Adecuado para flujos de trabajo en los que se necesita transformar y cargar grandes volúmenes de datos.

Ventajas de Parquet

1. Eficiencia en el almacenamiento

El diseño basado en columnas permite comprimir los datos de manera eficiente, reduciendo significativamente el tamaño del almacenamiento.

2. Rendimiento de lectura

Gracias a su diseño columnar, las consultas pueden leer solo las columnas necesarias, reduciendo los tiempos de I/O.

3. Compatibilidad con esquemas complejos

Parquet soporta tipos de datos complejos como estructuras anidadas y arreglos, facilitando su uso en datos jerárquicos.

4. Integración con ecosistemas modernos

Parquet es compatible con lenguajes como Python (PyArrow, Pandas), R, y Java, así como con sistemas de Big Data como Spark y Hive.

Desventajas de Parquet

Escritura más lenta: Comparado con formatos como CSV o JSON, la escritura en Parquet puede ser más lenta debido al procesamiento adicional.
No es ideal para datos transaccionales: Está optimizado para lecturas analíticas, no para operaciones frecuentes de escritura o actualización.
Complejidad inicial: Puede ser más difícil de comprender y usar que formatos más simples como CSV.

Comparación con Tecnologías Similares

Característica	Parquet	CSV	JSON	Avro
Diseño	Columnar	Fila	Fila	Fila
Tamaño	Pequeño	Grande	Mediano	Pequeño
Velocidad de lectura	Alta	Baja	Baja	Alta
Compatibilidad con tipos complejos	Sí	No	Sí	Sí
Compresión	Alta	Baja	Baja	Alta
Soporte de esquema	Sí	No	No	Sí

Cómo usar Parquet en Python

A continuación, se muestra un ejemplo práctico de uso de Parquet con Python utilizando la biblioteca Pandas:

import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    "Nombre": ["Ana", "Luis", "María"],
    "Edad": [23, 30, 25],
    "Ciudad": ["Madrid", "Barcelona", "Valencia"]
}
df = pd.DataFrame(data)

# Guardar como archivo Parquet
df.to_parquet("datos.parquet", engine="pyarrow", compression="snappy")

# Leer el archivo Parquet
df_parquet = pd.read_parquet("datos.parquet")

print(df_parquet)

Casos de uso destacados

Almacenamiento y análisis en la nube: Conectividad nativa en AWS S3, Azure Blob Storage y Google Cloud Storage.
Integración con Spark: Procesamiento distribuido y almacenamiento eficiente.
Análisis de logs: Almacenamiento eficiente de grandes volúmenes de datos de logs y consultas rápidas.

Conclusión

Apache Parquet es una tecnología fundamental en el ecosistema de Big Data debido a su eficiencia en almacenamiento y procesamiento. Si bien puede no ser la mejor opción para todos los casos, es ideal para aplicaciones analíticas y de grandes volúmenes de datos. Su compatibilidad con herramientas modernas lo convierte en una solución versátil y poderosa.

Actualizado 19-11-24

Migrar una Base de Datos MySQL a Apache Parquet

Cuando trabajas con grandes volúmenes de datos almacenados en MySQL, puede ser beneficioso convertirlos al formato Parquet para aprovechar sus ventajas en almacenamiento y análisis. A continuación, se describe el proceso paso a paso.

Pasos para la Migración

1. Exportar Datos desde MySQL

El primer paso consiste en exportar los datos desde MySQL. Esto se puede hacer utilizando una consulta SQL para extraer los datos necesarios:

SELECT * INTO OUTFILE '/ruta/a/archivo.csv'
FIELDS TERMINATED BY ',' 
ENCLOSED BY '"'
LINES TERMINATED BY '\n'
FROM nombre_tabla;

Este comando generará un archivo CSV con los datos de la tabla seleccionada.

2. Leer el CSV en Python

Con los datos exportados en un archivo CSV, utilizaremos Python y bibliotecas como pandas para convertirlos al formato Parquet.

import pandas as pd

# Leer el archivo CSV exportado
df = pd.read_csv('/ruta/a/archivo.csv')

# Convertir a formato Parquet
df.to_parquet('/ruta/a/archivo.parquet', engine='pyarrow', compression='snappy')

3. Conexión Directa con MySQL (Opción Alternativa)

Si no deseas exportar a CSV, puedes conectar directamente a la base de datos MySQL desde Python utilizando SQLAlchemy o mysql-connector-python. A continuación, se muestra un ejemplo utilizando SQLAlchemy:

from sqlalchemy import create_engine
import pandas as pd

# Crear una conexión a MySQL
engine = create_engine('mysql+pymysql://usuario:contraseña@host:puerto/nombre_bd')

# Consultar los datos desde MySQL
query = "SELECT * FROM nombre_tabla"
df = pd.read_sql(query, con=engine)

# Guardar los datos como archivo Parquet
df.to_parquet('/ruta/a/archivo.parquet', engine='pyarrow', compression='snappy')

4. Verificar el Archivo Parquet

Después de la conversión, verifica que el archivo Parquet contiene los datos correctamente:

# Leer el archivo Parquet para verificar
df_parquet = pd.read_parquet('/ruta/a/archivo.parquet')
print(df_parquet.head())

Beneficios de esta Migración

Eficiencia de Almacenamiento: La compresión de Parquet reduce significativamente el tamaño del archivo comparado con CSV.
Optimización para Consultas: El formato columnar de Parquet mejora el rendimiento de las consultas analíticas.
Compatibilidad con Herramientas de Big Data: Puedes integrar los datos fácilmente con sistemas como Spark, Hive y Presto.

Consideraciones

Compresión: Utiliza compresión como Snappy o GZIP para obtener un mejor balance entre tamaño y rendimiento.
Calidad de los Datos: Asegúrate de limpiar y normalizar los datos durante la extracción para evitar problemas en la conversión.
Esquema: Si tus datos contienen tipos complejos, verifica que sean compatibles con Parquet.