InterSystems Data Fabric Studio à votre service !

Article

Iryna Mykhailova · Août 7 9m de lecture

Au cours des 10 à 15 dernières années, vous avez sûrement entendu parler des termes Data Lake, Data Warehouse, et Data Fabric à tout bout de champ. Tout peut être réglé et résolu grâce à l'un de ces trois concepts ou à une leur combinaison ( ici et ici vous trouverez deux articles de notre site officiel si vous avez des doutes sur la signification de chacun de ces termes). Si nous devions résumer visuellement l'objectif de tous ces termes, nous pourrions dire qu'ils visent tous à résoudre des situations comme celle-ci:

Why is my room always messy? Tips & Tricks — Junk Brothers

Nos organisations sont comme cette pièce, remplie de tiroirs contenant des données en tout genre, dans lesquels nous sommes incapables de trouver quoi que ce soit dont nous avons besoin, au point de ne plus savoir du tout ce que nous avons.

Chez InterSystems, nous ne pouvions pas être en reste. Nous avons donc tiré parti des capacités d'InterSystems IRIS pour créer une solution Data Fabric appelée InterSystems Data Fabric Studio (n'est-ce pas une idée originale?).

Data Fabric

Avant toute chose, examinons plus en détail les fonctionnalités qui caractérisent un Data Fabric. Et quoi de mieux pour cela que de poser directement la question à notre cher ChatGPT:

A Un Data Fabric est une architecture moderne qui vise à simplifier et optimiser l'accès, la gestion et l'utilisation des données dans plusieurs environnements, en offrant une vision unifiée et cohérente de celles-ci. Ses fonctionnalités les plus caractéristiques sont les suivantes:

Accès unifié et transparent
- Intégration transparente des données structurées, semi-structurées et non structurées.
- Accès transparent indépendamment de l'emplacement physique ou technologique.
Gestion centralisée des métadonnées
- Catalogues de données avancés fournissant des informations sur l'origine, la qualité et l'utilisation.
- Capacité de recherche et de découverte automatique des données.
Virtualisation et abstraction des données
- Élimination du besoin de déplacer ou de répliquer constamment les données.
- Création dynamique de vues virtuelles permettant des requêtes distribuées en temps réel.
Gouvernance et sécurité intégrées
- Application cohérente des politiques de sécurité, de confidentialité et de conformité dans tous les environnements.
- Protection intégrée des données sensibles par cryptage, masquage et contrôles granulaires.
Automatisation basée sur l'IA
- Automatisation de la découverte, de la préparation, de l'intégration et de l'optimisation des données grâce à l'intelligence artificielle.
- Application automatique de techniques avancées pour améliorer la qualité et les performances.
Capacités analytiques avancées
- Prise en charge intégrée de l'analyse prédictive, de l'apprentissage automatique et du traitement des données en temps réel.

InterSystems Data Fabric Studio

InterSystems Data Fabric Studio, ou IDFS, est une solution SaaS basée sur le cloud (pour l'instant) dont l'objectif est de remplir les fonctionnalités exigées d'une Data Fabric.

Si vous avez une expérience approfondie du développement avec InterSystems IRIS, vous avez certainement remarqué que pas mal de fonctionnalités de Data Fabric sont faciles à mettre en œuvre sur IRIS. C'est exactement ce qu'on a pensé chez InterSystems. Pourquoi ne pas tirer parti de notre technologie pour offrir une solution à nos clients?

Interface moderne et conviviale.

Il s'agit d'une véritable nouveauté chez InterSystems: une interface web simple, moderne et fonctionnelle basée sur les dernières versions de technologies telles qu'Angular.

Un accès transparent à vos données sources.

La première étape pour exploiter efficacement vos données consiste à vous y connecter. Différentes sources de données nécessitent différents types de connexion, tels que JDBC, API REST ou fichiers CSV.

IDFS dispose de connecteurs pour une grande variété de sources de données, notamment des connexions à différentes bases de données via JDBC à l'aide des bibliothèques de connexion préinstallées.

Analysez vos sources de données et définissez votre propre catalogue.

Chaque Data Fabric doit permettre aux utilisateurs d'analyser les informations disponibles dans leurs sources de données en affichant toutes les métadonnées associées à celles-ci afin de déterminer si elles sont pertinentes ou non pour une exploitation ultérieure.

Grâce à IDFS, une fois les connexions à vos différentes bases de données définies, vous pouvez commencer les tâches de découverte et de catalogage de celles-ci en utilisant des fonctionnalités telles que l'importation de schémas définis dans la base de données.

L'image suivante illustre cette phase de découverte dans laquelle, à partir d'une connexion établie avec une base de données Oracle, nous pouvons accéder à tous les schémas présents dans celle-ci ainsi qu'à toutes les tables définies dans chaque schéma.

Cette fonctionnalité ne se limite pas aux structures rigides définies par les bases de données externes. Grâce à des requêtes SQL entre plusieurs tables de la source de données, IDFS permet de générer des catalogues contenant uniquement les informations les plus pertinentes pour l'utilisateur.

Vous trouverez ci-dessous un exemple de requête sur plusieurs tables de la même base de données et une visualisation des données récupérées.

Une fois notre catalogue défini, IDFS se chargera de stocker les métadonnées de la configuration, sans qu'il soit nécessaire à aucun moment d'importer les données réelles, ce qui permet ainsi leur virtualisation.

Consultez et gérez votre catalogue de données.

Dans toute organisation, les ensembles de données peuvent être très volumineux. Il est donc nécessaire de gérer de manière simple et agile les catalogues que nous avons créés à partir de ces données.

IDFS nous permet de consulter à tout moment l'intégralité de notre catalogue de données et de voir d'un seul coup d'œil à quelles données nous avons accès.

Comme vous pouvez le constater, les fonctionnalités déjà expliquées couvrent parfaitement les deux premiers points que ChatGPT indiquait comme nécessaires pour un outil Data Fabric. Voyons maintenant comment IDFS couvre les autres points.

L'un des avantages d'IDFS réside dans le fait qu'il est construit sur InterSystems IRIS et qu'il utilise donc ses capacités de recherche vectorielle, celles-ci permettant d'effectuer des recherches sémantiques dans le catalogue de données et d'obtenir tous les catalogues liés à une recherche donnée.

Préparez vos données pour une utilisation ultérieure.

Il ne sert à rien d'identifier et de cataloguer nos données si nous ne pouvons pas les mettre à la disposition de tiers de la manière dont ils en ont besoin. Cette étape est essentielle, car fournir des données dans les formats requis facilitera leur utilisation en simplifiant les processus d'analyse et de développement de nouvelles solutions.

IDFS facilite ce processus en créant des "Recettes" ou "Recipes," a un nom qui lui convient parfaitement puisque c'est exactement ce que nous allons faire : "cuisiner" nos données.

Comme dans toute bonne recette, nos ingrédients (les données) passeront par plusieurs étapes qui nous permettront finalement de préparer le plat à notre goût.

Préparez vos données (Staging)

La première étape de toute recette consiste à réunir tous les ingrédients nécessaires. Pour cela, nous avons l'étape de préparation ou Staging. Cette étape vous permettra de choisir dans tout votre catalogue celui qui contient les données requises.

Transformez vos données (Transformation)

Chaque Data Fabric digne de ce nom doit permettre de transformer les sources de donnéesde manière rapide et efficace.

IDFS permet de conditionner les données à l'aide des transformations nécessaires pour que le client puisse les comprendre.

Ces transformations peuvent être de plusieurs types: remplacement de chaînes de caractères, arrondissement de valeurs, expressions SQL qui transforment les données, etc. Toutes ces transformations sur les données seront conservées directement dans la base de données IRIS sans affecter à aucun moment la source des données.

Une fois cette étape franchie, nos données sont adaptées aux exigences du système client qui les utilisera.

Validation des données

Dans une structure Data Fabric, il ne suffit pas de transformer les données, il faut également s'assurer que les données qui seront fournies à des tiers sont correctes.

IDFS dispose d'une étape de validation des données qui nous permet de filtrer les données fournies à nos clients. Les données qui ne satisfont pas à la validation génèrent des avertissements ou des alertes qui doivent être gérés par la personne responsable.

Un point important de cette phase de validation dans IDFS est qu'elle peut également s'appliquer aux champs que nous avons transformés lors de l'étape précédente.

Réconciliation des données (Reconciliation)

Nous devons très souvent valider nos données auprès d'une source externe afin de garantir que les données présentes dans notre Data Fabric soient cohérentes avec les informations disponibles dans d'autres tables de notre source de données.

IDFS dispose d'un processus de réconciliation qui permet de comparer nos données validées avec cette source de données externe, afin de garantir leur validité.

Chaque Data Fabric doit être capable de transmettre toutes les informations que le système a traitées à des systèmes tiers. Pour cela, il doit disposer de processus permettant d'exporter ces données transformées et validées.

IDFS permet la promotion des données qui ont passé toutes les étapes précédentes vers une source de données que nous avons préalablement définie. Cette promotion s'effectue à travers un processus simple dans lequel nous définissons les éléments suivants:

La source de données vers laquelle nous enverrons les informations.
Le schéma de destination (lié à une table de la source de données).
Le mappage entre nos données transformées et validées et la table de destination.

Une fois la configuration précédente terminée, notre recette est prête à être mise en œuvre quand nous le souhaitons. Pour cela, il ne nous reste plus qu'une dernière étape: programmer l'exécution de notre recette.

Ordonnanceur métier

Avant de continuer, faisons un bref récapitulatif de ce que nous avons fait:

Nous avons défini nos sources de données.
Nous avons importé les catalogues pertinents.
Nous avons créé une recette pour cuisiner nos données.
Nous avons configuré l'importation, la transformation, la validation et la promotion de nos données vers une base de données externe.

Comme vous pouvez le constater, il ne nous reste plus qu'à définir quand nous voulons que notre recette soit exécutée. Au travail

Nous pouvons indiquer très facilement lorsque nous souhaitons que les étapes définies dans notre recette soient exécutées, que ce soit de manière programmée, à la fin d'une exécution précédente, manuellement, etc.

Ces capacités de programmationd'exécutions nous permettent d'enchaîner facilement les exécutions de recettes et donc de rationaliser leur exécution en ayant un contrôle plus détaillé sur ce qui se passe avec nos données.

Chaque exécution de nos recettes laissera une trace que nous pourrons consulter ultérieurement pour connaître l'état de cette exécution:

Chaque exécution génère à son tour une série de rapports consultables et facilement téléchargeables. Chaque rapport nous montre le résultat de chacune des étapes définies dans notre recette:

Conclusions

Nous sommes arrivés à la fin de cet article. J'espère qu'il vous a aidé à mieux comprendre le concept de Data Fabric et que vous avez trouvé notre nouvelle solution InterSystems Data Fabric Studio intéressante.

Merci de m'avoir consacré votre temps!

Aller à la publication initiale écrit par @Luis Angel Pérez Ramos