Article
· Jan 7, 2024 3m de lecture

Fichiers Parquet and InterSystems IRIS

Dans le monde du Big Data, la sélection du bon format de fichier est cruciale pour un stockage, un traitement et une analyse efficaces des données. Avec la quantité massive de données générées chaque jour, le choix du format approprié peut avoir un impact considérable sur la vitesse, le coût et la précision des tâches de traitement des données. Il existe plusieurs formats de fichiers disponibles, chacun avec son propre ensemble d'avantages et d'inconvénients, ce qui rend complexe le choix de celui à utiliser. Certains des formats de fichiers Big Data populaires incluent CSV, JSON, Avro, ORC et Parquet. Le dernier, Parquet, est un format de stockage en colonnes hautement compressé et séparé, ce qui le rend idéal pour les problèmes de Big Data. Il est optimisé pour le paradigme Write Once Read Many (WORM) et convient aux charges de travail lourdes lors de la lecture de portions de données. Le format fournit un refoulement de prédicat et un refoulement de projection, réduisant ainsi les E/S disque et le temps de performance global. Parquet est auto-descriptif, dispose d'une prise en charge intégrée dans Spark et peut être lu et écrit à l'aide de l'API Avro et du schéma Avro. (source : https://www.linkedin.com/pulse/big-data-file-formats-which-one-right-fit...). Avez-vous déjà utilisé pd.read_csv() dans des pandas ? Eh bien, cette commande aurait pu s'exécuter environ 50 fois plus rapidement si vous aviez utilisé du parquet au lieu de CSV. (source : https://towardsdatascience.com/demystifying-the-parquet-file-format-13ad...). Les raisons et avantages de l'utilisation du Parquet sont (source : https://www.linkedin.com/pulse/big-data-file-formats-which-one-right-fit...) :

  • Optimisé pour le Big Data, mais la lisibilité et la vitesse d'écriture sont assez médiocres.
  • Parquet est le meilleur choix en termes de performances lors du choix d'un format de stockage de données dans Hadoop, en tenant compte de facteurs tels que l'intégration avec des applications tierces, l'évolution du schéma et la prise en charge de types de données spécifiques.
  • Les algorithmes de compression jouent un rôle important dans la réduction de la quantité de données et l'amélioration des performances.
  • CSV est généralement le plus rapide à écrire, JSON le plus facile à comprendre pour les humains et Parquet le plus rapide à lire un sous-ensemble de colonnes.
  • Les formats en colonnes comme Parquet conviennent à une ingestion rapide de données, à une récupération rapide de données aléatoires et à une analyse de données évolutive.
  • Parquet est utilisé pour des analyses plus approfondies après le prétraitement, où tous les champs ne sont pas obligatoires.

Actuellement, IRIS ne prend pas en charge le format Parquet, même s'il s'agit d'un standard très important pour les projets Data Fabric, Big Data, Data Ingestion et Data Interoperability. Mais désormais, il est possible, grâce à l'application iris-parquet (https://openexchange.intersystems.com/package/iris-parquet) d'écrire ou de lire des données dans IRIS dans des fichiers Parquet. Suivez simplement les étapes ci-dessous :

1. Install parquet-iris using Docker or ZPM.

  • Pour Docker:
docker-compose build
docker-compose up -d
  • Avec ZPM:
USER> zpm install iris-parquet
  • Installez les fichiers hadoop et définissez la variable ENV sur HADOOP_HOME (pour l'installation ZPM uniquement) :
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz && \
    tar -xzf hadoop-3.3.6.tar.gz && \
    echo "export HADOOP_HOME=//hadoop-3.3.6"

2. Ouvrez http://localhost:<port>/swagger-ui/index.html et explorez le endpoint : parquet-api _spec :

3. Exécutez la méthode /generate-persons une ou plusieurs fois pour générer de fausses données sur une personne :

4. Exécutez la méthode /sql2parquet avec cette requête en body : sélectionnez * depuis dc_irisparquet.SamplePerson :

5. Téléchargez le dossier parquet sur le lien Télécharger le fichier :

6. Open the Parquet file on VSCode (install the parquet-viewer extension to see the parquet content from VSCode - https://marketplace.visualstudio.com/items?itemName=dvirtz.parquet-viewer):

Discussion (0)1
Connectez-vous ou inscrivez-vous pour continuer