Recherche

Effacer le filtre
Article
Lorenzo Scalese · Oct 5, 2022

Utilisation de SUSHI pour la création de profils FHIR, partie 2

Bonjour, chers développeurs ! Cet article est le deuxième d'une série sur la façon d'utiliser SUSHI, un outil de création de profils FHIR, en tant que technologie associée à FHIR. Six mois se sont écoulés avant cette deuxième partie. Dans la précédente [partie 1](https://fr.community.intersystems.com/post/cr%C3%A9ons-un-profil-fhir-%C3%A0-laide-de-sushi-partie-1), nous avons abordé les questions suivantes : qu'est-ce que FHIR, qu'est-ce que le profil FHIR, qu'est-ce que FHIR Shorthand ? Et quel genre d'outil est SUSHI ? Que peut-il produire ? Avec des captures d'écran pour des exemples de résultats. Cet article présente un exemple d'utilisation réelle d'un profil créé avec SUSHI, dans lequel une **Extension** est ajoutée à une ressource Patient à l'aide de SUSHI, et un nouveau **SearchParameter** est défini pour l'élément de cette Extension, jusqu'à ce que le nouveau SearchParameter puisse être utilisé dans l'IRIS for Health's FHIR Repositoy jusqu'à ce que le nouveau SearchParameter puisse être utilisé. ## Mise à jour de SUSHI Je suis désolé de m'écarter du sujet principal, mais si vous êtes comme moi et que vous n'avez pas touché à SUSHI depuis un moment, vous devriez mettre à jour SUSHI. Au cours des six derniers mois, SUSHI a fait l'objet d'une importante mise à jour, et la version 2.0.0 est sortie en août. La dernière version au moment de la rédaction de cet article était [SUSHI 2.1.1](https://github.com/FHIR/sushi/releases). Comme décrit dans ce lien, la mise à jour est la commande suivante de même que l'installation. ```Bash $ npm install -g fsh-sushi ``` Vous pouvez vérifier la version en exécutant sushi -version. De même, l'outil IG Publisher, qui crée un ensemble de fichiers HTML pour le Guide de mise en œuvre sur la base des Profils générés par SUSHI, peut être mis à jour en exécutant la commande **_updatePublisher**. ## Création de fichiers FISH Tout d'abord, créez un projet en utilisant la commande ``sushi --init`` comme précédemment. Dans cet article, nous allons modifier le fichier **patient.fsh** généré par le modèle. Cette fois, nous ajouterons une extension de type **lieu de naissance**, qui est une chaîne de caractères String représentant le lieu de naissance du patient, et nous définirons également un SearchParameter pour ce lieu de naissance, afin de pouvoir effectuer une recherche par lieu de naissance du patient ! # Ajout d'Extension Tout d'abord, ajoutez la définition suivante pour ajouter Extension. Comme dans US Core et JP Core, le type Adresse est habituellement utilisé, mais ici il s'agit simplement du type String ``` Extension: BirthPlace Id: birthPlace Title: "出身地" Description: "生まれた場所をstring型で表現する" * ^url = "http://isc-demo/fhir/StructureDefinition/patient-birthPlace" * value[x] only string ``` Chaque élément correspond à la StructureDefinition d'Extension comme suit. Certains éléments sont placés à plusieurs endroits. Certaines informations, comme la version du fhir de base et la version de cette Extension elle-même, proviennent du fichier `sushi-config.yml`. | Entrée SUSHI | Entrée StructureDefinition correspondante | |:----------|:------------| | Extensions | nom | | Id | id | | Titre | title/differencial.element[id=Extension].short | | Desctiption | description/differencial.element[id=Extension].definition | | ^url | url//differencial.element[id=Extension.url].fixedUri | | valeur[x] | differencial.element[id=Extension.value[x]].type.code | La StructureDefinition réelle d'Extension générée. Il est difficile de créer cela à partir de rien et à la main, mais avec SUSHI, c'est relativement facile. ```json { "resourceType": "StructureDefinition", "id": "birthPlace", "url": "http://isc-demo/fhir/StructureDefinition/patient-birthPlace", "version": "0.1.0", "name": "BirthPlace", "title": "出身地", "status": "active", "description": "生まれた場所をstring型で表現する", "fhirVersion": "4.0.1", "mapping": [ { "identity": "rim", "uri": "http://hl7.org/v3", "name": "RIM Mapping" } ], "kind": "complex-type", "abstract": false, "context": [ { "type": "element", "expression": "Element" } ], "type": "Extension", "baseDefinition": "http://hl7.org/fhir/StructureDefinition/Extension", "derivation": "constraint", "differential": { "element": [ { "id": "Extension", "path": "Extension", "short": "出身地", "definition": "生まれた場所をstring型で表現する" }, { "id": "Extension.extension", "path": "Extension.extension", "max": "0" }, { "id": "Extension.url", "path": "Extension.url", "fixedUri": "http://isc-demo/fhir/StructureDefinition/patient-birthPlace" }, { "id": "Extension.value[x]", "path": "Extension.value[x]", "type": [ { "code": "string" } ] } ] } } ``` Les données d'Extension aux ressources Patient ajoutées avec cette Extension ressembleront à ceci. ```json "extension": [ { "url": "http://isc-demo/fhir/StructureDefinition/patient-birthPlace", "valueString": "鹿児島" } ], ``` # Ajout de SearchParamter Ensuite, ajoutez un **SearchParamter** afin de pouvoir rechercher des ressources en utilisant l'entrée Extension que vous venez d'ajouter comme clé, **mais seules les entrées (≒elements) définies dans le SearchParamter peuvent être recherchées**. Ceci est un peu différent des tables SQL. Le nom de SearchParamter est défini séparément du nom de l'élément, et certains éléments correspondent au nom de l'élément = nom de SearchParameter, comme le sexe dans la ressource Patient, alors que d'autres ne correspondent pas, comme le nom de l'élément = adresse. country -> nom de SearchParamter = Certains ne correspondent pas aux éléments structurés, comme address-country. Naturellement, les éléments ajoutés à l'extension ne sont pas des SearchParameters par défaut (car vous ne savez pas ce qui sera inclus), mais les extensions qui osent définir l'extension et définir une politique pour les stocker sont souvent des éléments importants. Ajoutez ce qui suit au fichier patient.fsh pour créer la définition de SearchParameter ``` Instance: BirthPlaceSearchParameter InstanceOf: SearchParameter Usage: #definition * url = "http://isc-demo/fhir/SearchParameter/patient-birthPlace" * version = "0.0.1" * name = "birthPlace" * status = #active * description = "出身地検索のパラメータ" * code = #birthPlace * base = #Patient * type = #string * expression = "Patient.extension.where(url='http://isc-demo/fhir/StructureDefinition/patient-birthPlace').value" * comparator = #eq ``` Voici la StructureDefinition générée par SearchParameter. Comme il s'agit d'une définition relativement simple, le mappage avec l'information SUSHI ci-dessus devrait être facile à comprendre. ```json { "resourceType": "SearchParameter", "id": "BirthPlaceSearchParameter", "url": "http://isc-demo/fhir/SearchParameter/patient-birthPlace", "version": "0.0.1", "name": "birthPlace", "status": "active", "description": "出身地検索のパラメータ", "code": "birthPlace", "base": [ "Patient" ], "type": "string", "expression": "Patient.extension.where(url='http://isc-demo/fhir/StructureDefinition/patient-birthPlace').value", "comparator": [ "eq" ] } ``` Les principales composantes de la définition de SearchParameter sont l' **expression** et le **comparateur**. L'élément **expression** décrit l'expression **FHIRPath** pour le SearchParameter cible. Si vous êtes intéressé par FHIRPath, veuillez vous référer à [cette page officielle](. html). Définition utilisée cette fois-ci `Patient.extension.where(url='http://isc-demo/fhir/StructureDefinition/patient-birthPlace').value"` Cette expression spécifie Patient.extension dans un ordre hiérarchique selon la structure Json de la ressource Patient, et réduit l'extension avec url=(omitted) par rapport aux multiples extensions qui peuvent exister, et spécifie la valeur de l'extension. comparator spécifie le type d'expressions de comparaison qui peuvent être utilisées. Pour plus d'informations, voir [ici](https://www.hl7.org/fhir/valueset-search-comparator.html). # Ajout de la définition d'Extension créée dans Patient Il y a un autre changement important : l'ajout de l'Extension BirthPlace créée dans la ressource Patient. Modifiez la définition de profil MyProfile dans la ressource Patient générée automatiquement à l'origine comme suit : les modifications apportées au paramètre Cardinality de l'élément Name ont été commentées. ```comparator spécifie le type d'expressions de comparaison qui peuvent être utilisées. Pour plus d'informations, voir [ici](https://www.hl7.org/fhir/valueset-search-comparator.html). Profile: MyPatient Parent: Patient Description: "An example profile of the Patient resource." //* name 1..* MS * extension contains BirthPlace named birthPlace 0..1 ``` L'Extension nommée "BirthPlace" qui a été ajoutée précédemment est ajoutée dans la ressource Patient avec le nom birthPlace dans le paramètre Cardinality 0..1. # Création de ressources pour des tests en plus de ce qui précède SUSHI vous permet également de créer des Instances de ressources qui peuvent être utilisées à des fins d'illustration ou autres. Vous pouvez également les utiliser à des fins de test. Vous pouvez également y inclure l'extension que vous venez de définir. ``` Instance: KamiExample InstanceOf: MyPatient Description: "Exemples de ressources Patient " * nom.family = "Yamada" * extension[BirthPlace].valueString = "Kagoshima" ``` Vous verrez quel type de données a été produit dans le test final. ## Essayons SUSHI ! Le fichier FSH est prêt ! Maintenant, utilisons la commande SUSHI pour générer chaque fichier de définition à partir du fichier fsh ! Exécutez la commande **sushi** et elle est réussie si deux Profils (Patient et Extension étendus) et deux Instances (SearchParameter et ressource de modèle) sont générés comme suit. ```PowerShell C:\Users\kaminaka\Documents\Work\FHIR\SUSHI\TestProject\MyProfileProject>sushi . info Running SUSHI v2.1.1 (implements FHIR Shorthand specification v1.2.0) info Arguments: info C:\Users\kaminaka\Documents\Work\FHIR\SUSHI\TestProject\MyProfileProject info No output path specified. Output to . info Using configuration file: C:\Users\kaminaka\Documents\Work\FHIR\SUSHI\TestProject\MyProfileProject\sushi-config.yaml info Importing FSH text... info Preprocessed 1 documents with 0 aliases. info Imported 2 definitions and 2 instances. info Checking local cache for hl7.fhir.r4.core#4.0.1... info Found hl7.fhir.r4.core#4.0.1 in local cache. info Loaded package hl7.fhir.r4.core#4.0.1 (node:27132) Warning: Accessing non-existent property 'INVALID_ALT_NUMBER' of module exports inside circular dependency (Use `node --trace-warnings ...` to show where the warning was created) (node:27132) Warning: Accessing non-existent property 'INVALID_ALT_NUMBER' of module exports inside circular dependency info Converting FSH to FHIR resources... info Converted 2 FHIR StructureDefinitions. info Converted 2 FHIR instances. info Exporting FHIR resources as JSON... info Exported 4 FHIR resources as JSON. info Assembling Implementation Guide sources... info Generated ImplementationGuide-myprofileproject.json info Assembled Implementation Guide sources; ready for IG Publisher. ╔════════════════════════ SUSHI RESULTS ══════════════════════════╗ ║ ╭───────────────┬──────────────┬──────────────┬───────────────╮ ║ ║ │ Profiles │ Extensions │ Logicals │ Resources │ ║ ║ ├───────────────┼──────────────┼──────────────┼───────────────┤ ║ ║ │ 1 │ 1 │ 0 │ 0 │ ║ ║ ╰───────────────┴──────────────┴──────────────┴───────────────╯ ║ ║ ╭────────────────────┬───────────────────┬────────────────────╮ ║ ║ │ ValueSets │ CodeSystems │ Instances │ ║ ║ ├────────────────────┼───────────────────┼────────────────────┤ ║ ║ │ 0 │ 0 │ 2 │ ║ ║ ╰────────────────────┴───────────────────┴────────────────────╯ ║ ║ ║ ╠═════════════════════════════════════════════════════════════════╣ ║ FSHing for compliments? Super job! 0 Errors 0 Warnings ║ ╚═════════════════════════════════════════════════════════════════╝ C:\Users\kaminaka\Documents\Work\FHIR\SUSHI\TestProject\MyProfileProject> ``` Les artefacts suivants ont été créés dans le dossier `fsh-generated\resource`. |nom de fichier | contenu | |:----------|:------------| | ImplementationGuide-myprofileproject.json | ImplemamtionGuide, qui résume l'ensemble des contenus présentés ici. | | StructureDefinition-MyPatient.json | StructureDefinition avec Extension ajoutée au Patient | | StructureDefinition-birthPlace.json | StructureDefinition contenant la définition d'Extension birthPlace | | SearchParameter-BirthPlaceSearchParameter.json | Fichier de définition de SearchParameter pour le lieu de naissance (birthPlace) | | Patient-KamiExample.json | Exemples d'instances de Patient | ## Importation et test du profil FHIR dans IRIS for Health # Application d'IRIS for Health au référentiel FHIR Dans l'article précédent, nous avons exécuté _updatePublisher pour générer un groupe de fichiers IG. Dans cet article, nous allons voir comment le fichier StructureDefinitino/SearchParameter peut être importé dans le référentiel FHIR d'IRIS for Health et faire l'objet d'une recherche avec le nouveau SearchParameter. Pour plus d'informations sur l'importation des profils FHIR, etc., veuillez vous référer à [l'article de la communauté des développeurs sur les profils FHIR](https://jp.community.intersystems.com/node/495321). Vous pouvez également vous référer à [cet article](https://jp.community.intersystems.com/node/480231) pour plus d'informations sur la façon de construire un référentiel FHIR. L'importation est ciblée sur les cinq fichiers qui viennent d'être générés. - StructureDefinition-MyPatient.json - StructureDefinition-birthPlace.json - SearchParameter-BirthPlaceSearchParameter.json Il y a trois fichiers. Copiez-les dans un autre dossier, et préparez également un fichier `package.json` pour gérer l'ensemble des informations du paquet. **package.json** ```json { "name": "SUSHI Demo", "title": "SUSHI Demo", "version": "0.0.1", "author": { "name": "ISC" }, "fhirVersions": [ "4.0.1" ], "bundleDependencies": false, "date": "20201208205547", "dependencies": { "hl7.fhir.r4.core": "4.0.1" }, "deprecated": false } ``` Vous pouvez modifier le nom, le titre, l'auteur, la date et d'autres éléments comme vous le souhaitez. (Remarque : lorsque chaque profil est modifié et réimporté dans IRIS, la version doit être modifiée (augmentée) en conséquence. (La version actuelle 2021.1 du référentiel FHIR n'a pas de fonction de suppression des profils, il faut donc veiller à ce que le nombre de profils n'augmente pas trop dans l'environnement de production, etc., en vérifiant le bon fonctionnement dans l'environnement de test et en ne les appliquant ensuite qu'un nombre minimum de fois dans l'environnement de production.) À partir du portail de gestion IRIS, allez Health -> FHIR Configuration -> Package Configuration et sélectionnez le dossier contenant les quatre fichiers ci-dessus dans Import Package, et vous verrez l'écran suivant. ![image](/sites/default/files/inline/images/sushi_part2_ss1.jpg) Cliquez sur Import pour terminer l'importation dans IRIS. Ensuite, créez un nouveau référentiel FHIR sur l'écran de configuration du serveur Server Configuration. (Vous pouvez également ajouter à un référentiel FHIR existant). ![image](/sites/default/files/inline/images/sushi_part2_ss2.jpg) ## Test de POSTMAN POSTEZ la ressource de test qui vient d'être générée par SUSHI. À des fins de vérification, il peut être préférable de générer des données qui incluent d'autres valeurs de birthPlace, ou une ressource Patient qui n'inclut pas de birthPlace en premier lieu. ![image](/sites/default/files/inline/images/sushi_part2_ss3.jpg) Si birthPlace a été correctement ajouté au SearchParameter dans le référentiel FHIR, la requête GET suivante devrait permettre de récupérer ces informations sur le patient ! ```http GET http://localhost:52785/csp/healthshare/sushi/fhir/r4/Patient?birthPlace=Kagoshima ``` Obtenez-vous maintenant les bons résultats ? Si le nouveau SearchParameter, birthPlace, n'a pas été ajouté correctement, la première réponse à la requête GET contiendra la ressource OperationOutcome suivante qui contient les informations d'erreur suivantes : "Le paramètre birthPlace n'a pas été reconnu. Vérifiez le message de réponse pour ce message. ```json { "resource": { "resourceType": "OperationOutcome", "issue": [ { "severity": "error", "code": "invalid", "diagnostics": "ParameterNotSupported", "details": { "text": "Unrecognized parameter 'birthPlace'. 鹿児島" } } ] }, "search": { "mode": "outcome" } }, ``` # Résumé Vous avez vu le processus de création d'un profil (StructureDefinition/SearchParameter) pour FHIR à l'aide de SUSHI et son importation dans le référentiel FHIR d'IRIS for Health pour étendre ses fonctionnalités. Dans ce cas, les éléments ajoutés à Extension ont été ajoutés à SearchParameter, mais il est également possible d'ajouter SearchParameter à des éléments qui existent dans la spécification standard FHIR mais qui ne sont pas encore des SearchParameters. Bien que le développement très flexible de FHIR permette d'étendre les fonctionnalités de cette manière, il est également important de partager des informations sur le type d'extensions réalisées pour assurer l'interopérabilité, c'est-à-dire de créer des guides de mise en œuvre, etc. Comme nous l'avons vu dans les parties 1 et 2 de cette série, SUSHI est un outil open source très unique et puissant qui couvre les deux côtés de la question. On espère que ces outils seront combinés avec IRIS for Health pour créer une nouvelle solution FHIR. Le fichier fsh SUSHI utilisé dans cet article et les fichiers modèles StructureDefinition/SearchParameter générés sont disponibles [ici](https://github.com/Intersystems-jp/FHIR_SUSHI).
Article
Irène Mykhailova · Juin 16, 2023

Tutoriel : Déploiement de votre application dockerisée sur AWS

Aujourd'hui, la plupart des applications sont déployées sur des services de cloud public. Cela présente de nombreux avantages, notamment des économies de ressources humaines et matérielles, la possibilité de se développer rapidement et à moindre coût, une plus grande disponibilité, une plus grande fiabilité, une évolutivité élastique et des options permettant d'améliorer la protection des actifs numériques. L'une des options les plus populaires est AWS. Nous pouvons y déployer nos applications à l'aide de machines virtuelles (service EC2), de conteneurs Docker (service ECS) ou de Kubernetes (service EKS). La première solution, au lieu d'utiliser Docker, emploie une machine virtuelle avec Windows ou Linux où vous pouvez installer votre serveur et déployer votre application. Cependant, la dernière correspond mieux aux applications à grande échelle avec de nombreuses instances Docker en cours d'exécution grâce à l'option auto-scale. La deuxième solution (ECS), en revanche, est le meilleur choix pour les applications de petite et moyenne échelle.Cet article vous montrera comment utiliser, configurer et exécuter des applications Docker sur AWS à l'aide du service ECS. ## Obtention d'un exemple d'application Docker à déployer Pour notre exemple, nous allons utiliser une application Docker prête du catalogue InterSystems Open Exchange. Pour commencer, suivez les étapes suivantes : 1. Assurez-vous que Git est installé. 2. Allez sur https://openexchange.intersystems.com/package/iris-rest-api-template. 3. Clonez/git pull le référentiel dans n'importe quel répertoire local:   git <span class="hljs-built_in">clone</span> git@github.com:intersystems-community/iris-rest-api-template.git Le modèle iris-rest-api-template est une application backend avec une base de données IRIS et une API REST d'IRIS écrite en ObjectScript. Nous allons déployer cette application sur le service AWS ECS. ## Obtention de vos références AWS Pour commencer, vous aurez besoin d'un compte AWS et d'un utilisateur disposant d'une clé d'accès. Pour ce faire, procédez comme suit : 1. Allez sur https://aws.amazon.com/console et cliquez sur le bouton de connexion en haut à droite Sign in : ![](/sites/default/files/inline/images/images/image-20230510101315-1.png)   2. Si vous disposez d'un compte AWS, il vous suffit de vous connecter avec celui-ci. Si vous n'en possédez pas, cliquez sur le bouton Create a new AWS account (créer un nouveau compte AWS). Après avoir complété votre profil, connectez-vous avec vos nouvelles données. 3. Dans le champ de recherche supérieur, écrivez IAM ("outil de gestion des identités et des accès AWS"), puis cliquez sur IAM : ![](/sites/default/files/inline/images/images/image-20230510101329-2.png)   4. Dans le menu de gauche, cliquez sur Users (utilisateurs) : ![](/sites/default/files/inline/images/images/image-20230510101354-3.png)   5. Cliquez sur le bouton Add users (ajouter des utilisateurs) : ![](/sites/default/files/inline/images/images/image-20230510101405-4.png)   6. Remplissez le champ qui est apparu avec les valeurs mentionnées ci-dessous : * Nom d'utilisateur : iris * Cochez la case Provide user access to the AWS Management Console (fournir un accès à l'utilisateur à la console de gestion AWS). * Choisissez I want to create an IAM user (Je veux créer un utilisateur IAM) * Sélectionnez Custom password (mot de passe personnalisé) et saisissez Iris@2023 * Décochez la case Users must create a new password at next sign-in (Les utilisateurs doivent créer un nouveau mot de passe lors de la prochaine connexion) * Cliquez sur le bouton Next (suivant)     ![](/sites/default/files/inline/images/images/image-20230510101424-5.png)   ![](/sites/default/files/inline/images/images/image-20230510101443-6.png)   7. Dans les options de permissions, choisissez Attach policies directly (attacher les politiques directement), sélectionnez AdministratorAccess (accès administrateur) et cliquez sur le bouton Next (suivant) : ![](/sites/default/files/inline/images/images/image-20230510101504-7.png)   8. Dans Review and Create, cliquez sur le bouton Create user (créer un utilisateur) dans le pied de page : ![](/sites/default/files/inline/images/images/image-20230510101513-8.png)   9. Cliquez sur le bouton Download .csv file (télécharger le fichier .csv) pour enregistrer les nouvelles références de l'utilisateur. 10. Dans la barre Search de recherche supérieure, recherchez IAM et cliquez sur IAM : ![](/sites/default/files/inline/images/images/image-20230510101533-9.png)   11. Dans le menu de gauche, sélectionnez Users (Utilisateurs) : ![](/sites/default/files/inline/images/images/image-20230510101551-10.png)   12. Cliquez sur le lien de l'utilisateur Iris : ![](/sites/default/files/inline/images/images/image-20230510101604-11.png)   13. Cliquez sur l'onglet Security Credentials (références de sécurité) : ![](/sites/default/files/inline/images/images/image-20230510101618-12.png)   14. Allez dans la sous-section Access keys (clés d'accès) (faites défiler l'écran pour la trouver) et cliquez sur le bouton Create access key (créer une clé d'accès) : ![](/sites/default/files/inline/images/images/image-20230510101633-13.png)   15. Sélectionnez Command Line Interface (interface de ligne de commande), cochez la case "I understand the above recommendation and want to proceed to create an access key" (Je comprends la recommandation ci-dessus et je souhaite procéder à la création d'une clé d'accès), puis cliquez sur le bouton Next (suivant) : ![](/sites/default/files/inline/images/images/image-20230510101651-14.png)   ![](/sites/default/files/inline/images/images/image-20230510101704-15.png)   16. Cliquez maintenant sur le bouton Create access key (créer une clé d'accès) : ![](/sites/default/files/inline/images/images/image-20230510101730-16.png)   17. Copiez votre clé d'accès et votre clé d'accès secrète dans un fichier sur votre ordinateur. Utilisez le bouton Télécharger le fichier .csv et enfin cliquez sur le bouton Done (terminé) : ![](/sites/default/files/inline/images/images/image-20230510101749-17.png)   ## Installation de l'outil AWS CLI et y attribuer l'utilisateur créé L'outil AWS CLI est utilisé pour tirer l'image Docker vers AWS ECR (c'est une sorte de Docker Hub pour les images Docker AWS). Pour l'installer, procédez comme suit : 1. Allez sur https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install... et choisissez les instructions d'installation correspondant au système d'exploitation de votre ordinateur. 2. Après l'installation, si vous ne l'avez pas encore fait, suivez les étapes suivantes : a. Sur votre terminal, mettez :   aws configure b. Définissez la clé d'accès créée ci-dessus : ![](/sites/default/files/inline/images/images/image-20230510102005-18.png)   c. Définissez la clé secrète assemblée précédemment : ![](/sites/default/files/inline/images/images/image-20230510102013-19.png)   d. Ne modifiez pas les valeurs restantes. Acceptez simplement les valeurs par défaut : ##![](/sites/default/files/inline/images/images/image-20230510102020-20.png)   ## Téléchargement de votre application Docker sur l'ECR AWS 1. Dans le champ de recherche de la console AWS, recherchez ECR et sélectionnez Elastic Container Registry : ![](/sites/default/files/inline/images/images/image-20230510102053-21.png)   2. Cliquez sur le bouton Get Started (commencer) dans la section Create Repository (créer le référentiel) : ![](/sites/default/files/inline/images/images/image-20230510102103-22.png)   3. Dans Create Repository, mettez les valeurs suivantes : * Paramètres de visibilité : Public * Nom du référentiel : iris-repo iris-repo * Cliquez sur le bouton Create repository (créer le référentiel) ![](/sites/default/files/inline/images/images/image-20230510102122-23.png)   ![](/sites/default/files/inline/images/images/image-20230510102145-24.png)   4. Le référentiel est maintenant créé. Sélectionnez iris-repo et cliquez sur le bouton View push commands (afficher les commandes push) : ![](/sites/default/files/inline/images/images/image-20230510102337-25.png)   5. Copiez la valeur de l'URI du référentiel (deuxième colonne - URI) et stockez-la dans un fichier. Vous en aurez besoin plus tard au cours de cet article. 6. Exécutez les 4 commandes de la boîte de dialogue dans votre terminal dans le dossier où vous avez cloné le projet Git : ![](/sites/default/files/inline/images/images/image-20230510102356-26.png)   a. Première commande : connectez-vous avec l'utilisateur IRIS : ![](/sites/default/files/inline/images/images/image-20230510102416-27.png)   b. Deuxième commande : docker build -t iris-repo . ![](/sites/default/files/inline/images/images/image-20230510102434-28.png)        c. Troisième commande : docker tag iris-repo:latest public.ecr.aws/e7i6j8j1/iris-repo:latest ![](/sites/default/files/inline/images/images/image-20230510102451-29.png)   d. Dernière commande : docker push public.ecr.aws/e7i6j8j1/iris-repo:latest ![](/sites/default/files/inline/images/images/image-20230510102507-30.png)   Félicitations ! Votre projet Docker est maintenant une image Docker public sur AWS ECR.. ## Création de l'instance Docker sur AWS ECS pour votre nouvelle image AWS ECR Voici venue l'heure des dernières étapes. Nous allons créer une instance Docker fonctionnant sur AWS à ce stade. Pour ce faire, procédez comme suit 1. Accédez à la console AWS et recherchez ECS dans la barre de recherche supérieure. Cliquez ensuite sur le lien Elastic Container Service : ![](/sites/default/files/inline/images/images/image-20230510102539-31.png)   2. Dans le menu de gauche, sélectionnez Clusters : ![](/sites/default/files/inline/images/images/image-20230510102551-32.png)   3. Cliquez sur le bouton Create a cluster (créer un cluster) : ![](/sites/default/files/inline/images/images/image-20230510102604-33.png)   4. Sur Create Cluster, ajoutez la valeur iriscluster au champ Cluster name (nom du cluster). Acceptez les valeurs restantes pour les autres champs et cliquez sur le bouton Create (créer) : ![](/sites/default/files/inline/images/images/image-20230510102624-34.png)   ![](/sites/default/files/inline/images/images/image-20230510102637-35.png)   ![](/sites/default/files/inline/images/images/image-20230510102658-36.png)   5. Attendez quelques secondes, et vous aurez un nouveau cluster listé :     ![](/sites/default/files/inline/images/images/image-20230510102736-37.png)   6. Dans le menu de gauche, sélectionnez Task definitions (définitions de tâches) et allez à Create new task definition (créer une nouvelle définition de tâche) : ![](/sites/default/files/inline/images/images/image-20230510102754-38.png)   7. Dans Configure task definition and containers (configuration de la définition de la tâche et des conteneurs), définissez les valeurs indiquées ci-dessous et cliquez sur le bouton Next (suivant) : * Famille de définition des tâches : iristask * Détails du conteneur - Nom : irisrepo * Détails du conteneur - URI de l'image : URI que vous avez stocké dans un fichier lorsque vous avez créé l'image avec ECR. Dans mon cas, il s'agit de public.ecr.aws/e7i6j8j1/iris-repo * Port de Mappage – Port à conteneurs : 52773, Protocole : TCP. ![](/sites/default/files/inline/images/images/image-20230510102820-39.png)   ![](/sites/default/files/inline/images/images/image-20230510102827-40.png)   ![](/sites/default/files/inline/images/images/image-20230510102852-41.png)   8. Dans Configure environment, storage, monitoring, and tags (configuration de l'environnement, le stockage, la surveillance et les balises), modifiez la mémoire pour qu'elle soit de 4 Go. Le rôle de la tâche doit être modifié en ecsTaskExecutionRole, et Stockage - Quantité en 30. Pour les autres paramètres, acceptez les valeurs par défaut et cliquez sur le bouton Next (suivant) : ![](/sites/default/files/inline/images/images/image-20230510102922-42.png)   ![](/sites/default/files/inline/images/images/image-20230510102929-43.png)   ![](/sites/default/files/inline/images/images/image-20230510103004-44.png)   ![](/sites/default/files/inline/images/images/image-20230510103034-45.png)   ![](/sites/default/files/inline/images/images/image-20230510103039-46.png)   9. Dans Review (révision) and Create (créer), cliquez sur le bouton Create : ![](/sites/default/files/inline/images/images/image-20230510103146-47.png)   ![](/sites/default/files/inline/images/images/image-20230510103212-48.png)   ![](/sites/default/files/inline/images/images/image-20230510103235-49.png)   ![](/sites/default/files/inline/images/images/image-20230510103257-50.png)   ![](/sites/default/files/inline/images/images/image-20230510103341-51.png)     10. Cliquez sur le bouton Deploy > Run Task (déployer > exécuter une tâche) en haut de la page : ![](/sites/default/files/inline/images/images/image-20230510103412-52.png)   11. Dans Create (créer), définissez les valeurs mentionnées ci-dessous et cliquez sur le bouton Create : * Cluster existant : iriscluster * Options de calcul : Type de lancement Launch * Type d'application : Task (Tâche) 12. Développez la section Networking (mise en réseau) et choisissez : * Groupe de sécurité : sélectionnez Create a new security group (créer un nouveau groupe de sécurité) * Nom du groupe de sécurité : irissec * Description du groupe de sécurité : irissec * Règles d'entrée - Type : TCP personnalisé, plage de ports : 52773 ![](/sites/default/files/inline/images/images/image-20230510103454-53.png)   ![](/sites/default/files/inline/images/images/image-20230510103513-54.png)   ![](/sites/default/files/inline/images/images/image-20230510103536-55.png)   ![](/sites/default/files/inline/images/images/image-20230510103614-56.png)   ![](/sites/default/files/inline/images/images/image-20230510103650-57.png)   13. Attendez un certain temps pour voir l'état de la création (cliquez sur le bouton pour vérifier l'état actuel) : ![](/sites/default/files/inline/images/images/image-20230510103758-58.png)   14. . Lorsque l'état devient "Running" (en cours d'exécution), cliquez sur le lien Task (tâche) : ![](/sites/default/files/inline/images/images/image-20230510103832-59.png)   15. Copiez l'IP public : ![](/sites/default/files/inline/images/images/image-20230510103856-60.png)   16. Ouvrez votre navigateur et tapez (dans mon cas, il s'agit de 54.226.128.138) : http://<public ip>:52773/csp/sys/%25CSP.Portal.Home.zen 17. Le portail de gestion IRIS (avec l'utilisateur _SYSTEM et le mot de passe SYS) est maintenant actif, et les services REST pour l'application fonctionnent également (authentification de base avec _SYSTEM et SYS) : ![](/sites/default/files/inline/images/images/image-20230510103925-61.png)   ![](/sites/default/files/inline/images/images/image-20230510103959-62.png)   ![](/sites/default/files/inline/images/images/image-20230510104024-63.png)   Vous avez réussi ! Vous avez maintenant votre IRIS sur AWS. N'OUBLIEZ PAS D'ARRÊTER LA TÂCHE, POUR NE PAS ÊTRE FACTURÉ. Pour ce faire, cliquez sur le bouton Stop : ![](/sites/default/files/inline/images/images/image-20230510104054-64.png)   Profitez-en !
Article
Guillaume Rongier · Avr 4, 2022

Les globales sont des épées magiques pour stocker des données. Arbres (partie 2)

![](/sites/default/files/inline/images/old-sword-small.jpg) ## 3. Variantes des structures lors de l'utilisation de globales Une structure, telle qu'un arbre ordonné, présente plusieurs cas particuliers. Examinons ceux qui ont une valeur pratique pour le travail avec les globales. ### 3.1 Cas particulier 1. Un nœud sans branches Les globales peuvent être utilisées non seulement comme une liste de données, mais aussi comme des variables ordinaires. Par exemple, pour créer un compteur :   Set ^counter = 0 ; setting counter Set id=$Increment(^counter) ; atomic incrementation En même temps, une globale peut avoir des branches outre sa valeur. L'un n'exclut pas l'autre. ### 3.2 Cas particulier 2. Un nœud et plusieurs branches En fait, il s'agit d'une base classique clé-valeur. Et si nous enregistrons des tuples de valeurs au lieu de valeurs, nous obtiendrons une table ordinaire avec une clé primaire. ![](/sites/default/files/inline/images/key_value_table.png) Afin d'implémenter une table basé sur des globales, nous devrons former des chaînes de caractères à partir des valeurs des colonnes, puis les enregistrer dans une globale par la clé primaire. Afin de pouvoir diviser la chaîne en colonnes lors de la lecture, nous pouvons utiliser ce qui suit : 1. Caractère de délimitation. Set ^t(id1) = "col11/col21/col31" Set ^t(id2) = "col12/col22/col32" 2. Un schéma fixe, dans lequel chaque champ occupe un nombre particulier d'octets. C'est ainsi qu'on procède généralement dans les bases de données relationnelles. 3. Une fonction spéciale [$LB](http://docs.intersystems.com/latest/csp/docbook/DocBook.UI.Page.cls?KEY=RCOS_flistbuild) (introduite dans Caché) qui compose une chaîne de caractères à partir de valeurs. Set ^t(id1) = $LB("col11", "col21", "col31") Set ^t(id2) = $LB("col12", "col22", "col32") Ce qui est intéressant, c'est qu'il n'est pas difficile de faire quelque chose de similaire aux clés étrangères dans les bases de données relationnelles en utilisant des globales. Appelons ces structures des index globaux. Un index global est un arbre supplémentaire permettant d'effectuer des recherches rapides sur des champs qui ne font pas partie intégrante de la clé primaire de la globale principale. Vous devez écrire un code supplémentaire pour le remplir et l'utiliser. Nous créons un index global basé sur la première colonne. Set ^i("col11", id1) = 1 Set ^i("col12", id2) = 1 Pour effectuer une recherche rapide par la première colonne, vous devrez regarder dans la ^i globale et trouver les clés primaires (id) correspondant à la valeur nécessaire dans la première colonne. Lors de l'insertion d'une valeur, nous pouvons créer à la fois des valeurs et des index globaux pour les champs nécessaires. Pour plus de fiabilité, nous allons l'intégrer dans une transaction. TSTART Set ^t(id1) = $LB("col11", "col21", "col31") Set ^i("col11", id1) = 1 TCOMMIT Plus d'informations sont disponibles ici [making tables in M using globals and emulation of secondary keys.](http://gradvs1.mgateway.com/download/extreme1.pdf) Ces tables fonctionneront aussi rapidement que dans les bases de données traditionnelles (ou même plus rapidement) si les fonctions d'insertion/mise à jour/suppression sont écrites en COS/M et compilées. J'ai vérifié cette affirmation en appliquant un grand nombre d'opérations INSERT et SELECT à une seule table à deux colonnes, en utilisant également les commandes TSTART et TCOMMIT (transactions). Je n'ai pas testé de scénarios plus complexes avec des accès concurrents et des transactions parallèles. Sans utiliser de transactions, la vitesse d'insertion pour un million de valeurs était de 778 361 insertions/seconde. Pour 300 millions de valeurs, la vitesse était de 422 141 insertions/seconde. Lorsque des transactions ont été utilisées, la vitesse a atteint 572 082 insertions/seconde pour 50 millions de valeurs. Toutes les opérations ont été exécutées à partir du code M compilé. J'ai utilisé des disques durs ordinaires, pas des SSD. RAID5 avec Write-back. Le tout fonctionnant sur un processeur Phenom II 1100T. Pour effectuer le même test pour une base de données SQL, il faudrait écrire une procédure stockée qui effectuerait les insertions en boucle. En testant MySQL 5.5 (stockage InnoDB) avec la même méthode, je n'ai jamais obtenu plus de 11K insertions par seconde. En effet, l'implémentation de tables avec des globales est plus complexe que de faire la même chose dans des bases de données relationnelles. C'est pourquoi les bases de données industrielles basées sur les globales ont un accès SQL pour simplifier le travail avec les données tabulaires. En général, si le schéma de données ne change pas souvent, que la vitesse d'insertion n'est pas critique et que l'ensemble de la base de données peut être facilement représenté par des tables normalisées, il est plus facile de travailler avec SQL, car il offre un niveau d'abstraction plus élevé. Dans ce cas, je voulais montrer que les globales peuvent être utilisées comme un constructeur pour créer d'autres bases de données. Comme le langage assembleur qui peut être utilisé pour créer d'autres langages. Et voici quelques exemples d'utilisation des globales pour créer des contreparties de [key-values, lists, sets, tabular, document-oriented DB's.](http://gradvs1.mgateway.com/docs/nosql_in_globals.pdf) Si vous devez créer une base de données non standard avec un minimum d'efforts, vous devriez envisager d'utiliser les globales. ### 3.3 Cas particulier 3. Un arbre à deux niveaux dont chaque nœud de deuxième niveau a un nombre fixe de branches Vous l'avez probablement deviné : il s'agit d'une implémentation alternative des tables utilisant des globales. Comparons-la avec la précédente. Tables dans un arborescence deux niveaux vs. Tables dans un arborescence mono niveau. Cons Pros Insertions plus lentes, car le nombre de nœuds doit être égal au nombre de colonnes. Une plus grande consommation d'espace sur le disque dur, car les index globaux (comme les index de table) avec les noms de colonne occupent de l'espace sur le disque dur et sont dupliqués pour chaque ligne.   Un accès plus rapide aux valeurs de certaines colonnes, puisque vous n'avez pas besoin d'analyser la chaîne de caractères. D'après mes tests, c'est 11,5 % plus rapide pour 2 colonnes et encore plus rapide pour plus de colonnes. Il est plus facile de modifier le schéma de données et de lire le code. **Conclusion:** Rien d'extraordinaire. Les performances étant l'un des principaux avantages des globales, il n'y a pratiquement aucun intérêt à utiliser cette approche, car il est peu probable qu'elle soit plus rapide que les tables ordinaires des bases de données relationnelles. ### 3.4 Cas général. Arbres et clés ordonnées Toute structure de données qui peut être représentée comme un arbre s'adapte parfaitement aux globales. #### 3.4.1 Objets avec des sous-objets ![](/sites/default/files/inline/images/json_opt.png) C'est dans ce domaine que les globales sont traditionnellement utilisées. Il existe de nombreuses maladies, médicaments, symptômes et méthodes de traitement dans le domaine médical. Il est irrationnel de créer une table avec un million de champs pour chaque patient, d'autant plus que 99% d'entre eux seront vides. Imaginez une base de données SQL composée des tables suivants : " Patient " ~ 100 000 champs, " Médicament " 100 000 champs, " Thérapie " 100 000 champs, " Complications " 100 000 champs et ainsi de suite. Comme alternative, vous pouvez créer une BD avec des milliers de tableaux, chacun pour un type de patient particulier (et ils peuvent aussi se superposer !), un traitement, un médicament, ainsi que des milliers de tables pour les relations entre ces tables. Les globales s'adaptent parfaitement aux soins de santé, puisqu'elles permettent à chaque patient de disposer d'un dossier complet, de la liste des thérapies, des médicaments administrés et de leurs effets, le tout sous la forme d'un arbre, sans gaspiller trop d'espace disque en colonnes vides, comme ce serait le cas avec les bases de données relationnelles. **Les globales fonctionnent bien pour les bases de données contenant des données personnelles**, lorsque la tâche consiste à accumuler et à systématiser le maximum de données personnelles diverses sur un client. C'est particulièrement important dans les domaines de la santé, de la banque, du marketing, de l'archivage et autres. Il est évident que SQL permet également d'émuler un arbre en utilisant seulement quelques tables ([EAV](https://en.wikipedia.org/wiki/Entity%E2%80%93attribute%E2%80%93value_model), [1](https://en.wikipedia.org/wiki/Hierarchical_database_model),[2](http://mikehillyer.com/articles/managing-hierarchical-data-in-mysql/),[3](https://stackoverflow.com/questions/4048151/what-are-the-options-for-storing-hierarchical-data-in-a-relational-database),[4](https://www.simple-talk.com/sql/performance/the-performance-of-traversing-a-sql-hierarchy/),[5](http://moinne.com/blog/ronald/mysql/manage-hierarchical-data-with-mysql-stored-procedures),[6](https://coderwall.com/p/ohomlg/nested-set-model-the-best-approach-to-deal-with-hierarchical-data), [7](http://tdan.com/modeling-hierarchies/5400),[8](https://www.sitepoint.com/hierarchical-data-database/)), mais c'est beaucoup plus complexe et plus lent. En fait, nous devrions écrire une globale basé sur des tables et cacher toutes les routines liées aux tables sous une couche d'abstraction. Il n'est pas correct d'émuler une technologie de niveau inférieur (les globales) à l'aide d'une technologie de niveau supérieur (SQL). C'est tout simplement injustifié. Ce n'est pas un secret que la modification d'un schéma de données dans des tableaux gigantesques (ALTER TABLE) peut prendre un temps considérable. MySQL, par exemple, effectue l'opération ALTER TABLE ADD|DROP COLUMN en copiant toutes les données de l'ancienne tableau vers la nouvelle (je l'ai testé sur MyISAM et InnoDB). Cela peut bloquer une base de données de production contenant des milliards d'enregistrements pendant des jours, voire des semaines. **Si nous utilisons des globales, la modification de la structure des données ne nous coûte rien** Nous pouvons ajouter de nouvelles propriétés à n'importe quel objet, à n'importe quel niveau de la hiérarchie et à n'importe quel moment. Les changements qui nécessitent de renommer les branches peuvent être appliqués en arrière-plan avec la base de données en fonctionnement. Par conséquent, lorsqu'il s'agit de stocker des objets comportant un grand nombre de propriétés facultatives, les globales fonctionnent parfaitement. Je vous rappelle que l'accès à l'une des propriétés est instantané, puisque dans une globale, tous les chemins sont un B-Arbre. Dans le cas général, les bases de données basées sur des globales sont un type de bases de données orientées documents qui supportent le stockage d'informations hiérarchiques. Par conséquent, les bases de données orientées documents peuvent concurrencer efficacement les globales dans le domaine du stockage des cartes médicales. Mais ce n'est pas encore le cas. Prenons MongoDB, par exemple. Dans ce champ, il perd face aux globales pour les raisons suivantes : Taille du document. L'unité de stockage est un texte au format JSON (BSON, pour être exact) dont la taille maximale est d'environ 16 Mo. Cette limitation a été introduite dans le but de s'assurer que la base de données JSON ne devienne pas trop lente lors de l'analyse syntaxique, lorsqu'un énorme document JSON y est enregistré et que des valeurs de champ particulières sont traitées. Ce document est censé contenir des informations complètes sur un patient. Nous savons tous à quel point les cartes de patient peuvent être épaisses. Si la taille maximale de la carte est plafonnée à 16 Mo, cela permet de filtrer immédiatement les patients dont les cartes contiennent des IRM, des radiographies et d'autres documents. Une seule branche d'une entreprise mondiale peut contenir des gigaoctets, des pétaoctets ou des téraoctets de données. Tout est dit, mais laissez-moi vous en dire plus. Le temps nécessaire à la création/modification/suppression de nouvelles propriétés de la carte du patient. Une telle base de données devrait copier la carte entière dans la mémoire (beaucoup de données !), analyser les données BSON, ajouter/modifier/supprimer le nouveau nœud, mettre à jour les index, remballer le tout en BSON et sauvegarder sur le disque. Une globale n'aurait besoin que d'adresser la propriété nécessaire et d'effectuer l'opération nécessaire. La vitesse d'accès à des propriétés particulières. Si le document possède de nombreuses propriétés et une structure à plusieurs niveaux, l'accès à des propriétés particulières sera plus rapide car chaque chemin dans la globale est le B-Arbre. En BSON, vous devrez analyser linéairement le document pour trouver la propriété nécessaire. #### 3.3.2 Tables associatives Les tables associatives (même avec les tables imbriquées) fonctionnent parfaitement avec les globales. Par exemple, cette table PHP ressemblera à la première illustration en 3.3.1. $a = array( "name" => "Vince Medvedev", "city" => "Moscow", "threatments" => array( "surgeries" => array("apedicectomy", "biopsy"), "radiation" => array("gamma", "x-rays"), "physiotherapy" => array("knee", "shoulder") ) ); #### 3.3.3 Documents hiérarchiques : XML, JSON Ils peuvent également être facilement stockés dans des globales et décomposés de manières différentes. **XML** La méthode la plus simple pour décomposer le XML en globales consiste à stocker les attributs des balises dans les nœuds. Et si vous avez besoin d'un accès rapide aux attributs des attributs, nous pouvons les placer dans des branches séparées. <note id=5> <to>Alex</to> <from>Sveta</from> <heading>Reminder</heading> <body>Call me tomorrow!</body> </note> Dans COS, le code ressemblera à ceci : Set ^xml("note")="id=5" Set ^xml("note","to")="Alex" Set ^xml("note","from")="Sveta" Set ^xml("note","heading")="Reminder" Set ^xml("note","body")="Call me tomorrow!" **Note:** Pour XML, JSON et les tables associatives, vous pouvez imaginer un certain nombre de méthodes pour les afficher dans les globales. Dans ce cas particulier, nous n'avons pas reflété l'ordre des balises imbriquées dans la balise "note". Dans la globale **^xml**, les balises imbriquées seront affichés dans l'ordre alphabétique. Pour un affichage précis de l'ordre, vous pouvez utiliser le modèle suivant, par exemple : ![](/sites/default/files/inline/images/xml_sort.png) **JSON.** Le contenu de ce document JSON est présenté dans la première illustration de la section 3.3.1 : var document = { "name": "Vince Medvedev", "city": "Moscow", "threatments": { "surgeries": ["apedicectomy", "biopsy"], "radiation": ["gamma", "x-rays"], "physiotherapy": ["knee", "shoulder"] }, }; #### 3.3.4 Structures identiques liées par des relations hiérarchiques Exemples : structure des bureaux de vente, positions des personnes dans une structure MLM, base des débuts aux échecs. **Base de données des débuts.** Vous pouvez utiliser une évaluation de la force du mouvement comme valeur de l'indice de nœud d'une globale. Dans ce cas, vous devrez sélectionner une branche ayant le poids le plus élevé pour déterminer le meilleur déplacement. Dans la globale, toutes les branches de chaque niveau seront triées en fonction de la force du mouvement. ![](/sites/default/files/inline/images/debut.png) **La structure des bureaux de vente, des personnes dans une société MLM.** Les noeuds peuvent stocker certaines valeurs de cache reflétant les caractéristiques de la sous-arborescence entière. Par exemple, les ventes de cette sous-arborescence particulière. Nous pouvons obtenir des informations exactes sur les réalisations de n'importe quelle branche à tout moment. ![](/sites/default/files/inline/images/sales.png) ## 4. Situations où l'utilisation des globales est avantageuse La première colonne contient une liste de cas où l'utilisation des globales vous donnera un avantage considérable en termes de performance, et la seconde - une liste de situations où elles simplifieront le développement ou le modèle de données. Vitesse Commodité du traitement/de la présentation des données 1. Insertion [avec tri automatique à chaque niveau], [indexation par la clé primaire] 2. Suppression de sous-arbres 3. Objets comportant de nombreuses propriétés imbriquées auxquelles vous devez accéder individuellement 4. Structure hiérarchique avec possibilité de parcourir les branches enfant à partir de n'importe quelle branche, même inexistante 5. Parcours en profondeur de l'arbre 1. Objets/instances avec un grand nombre de propriétés/instances non requises [et/ou imbriquées] 2. Données sans schéma - de nouvelles propriétés peuvent souvent être ajoutées et d'anciennes supprimées 3. Vous devez créer une BD non standard.Bases de données de chemins et arbres de solutions 4. Lorsque les chemins peuvent être représentés de manière pratique sous forme d'arbre 5. On doit supprimer les structures hiérarchiques sans utiliser la récursion   Clause de non-responsabilité: cet article et les commentaires le concernant reflètent uniquement mon opinion et n'ont rien à voir avec la position officielle de la société InterSystems.
Article
Irène Mykhailova · Mai 9, 2022

Connaissez vos indexes

Cet article est le premier d'une série d'articles sur les indexes SQL. Partie 1 - Découvrez vos indexes Qu'est-ce qu'un index, en fait ? Imaginez la dernière fois où vous êtes allé à la bibliothèque. En général, les livres y sont classés par sujet (puis par auteur et par titre), et chaque étagère comporte une étiquette avec un code décrivant le sujet de ses livres. Si vous voulez collectionner des livres d'un certain sujet, au lieu de traverser chaque allée et de lire la couverture intérieure de chaque livre, vous pouvez vous diriger directement vers l'étagère étiquetée avec le sujet désiré et choisir vos livres. Un index SQL a la même fonction générale : améliorer les performances en donnant une référence rapide à la valeur des champs pour chaque ligne de la table. La mise en place d'index est l'une des principales étapes de la préparation de vos classes pour une performance SQL optimale. Dans cet article, nous allons examiner les questions suivantes : 1. Qu'est-ce qu'un index et pourquoi/quand dois-je l'utiliser ?2. Quels types d'indexes existent et pour quels scénarios sont-ils parfaitement adaptés ?3. Qu'est-ce qu'un index ?4. Comment le créer ? Et si j'ai des index, qu'est-ce que j'en fais ? Je vais me référer aux classes de notre schéma Sample. Celles-ci sont disponibles dans le stockage Github suivant, et elles sont également fournies dans l'espace de noms Samples dans les installations de Caché et Ensemble : https://github.com/intersystems/Samples-Data Les principes de base Vous pouvez indexer chaque propriété persistante et chaque propriété qui peut être calculée de manière fiable à partir de données persistantes. Disons que nous voulons indexer la propriété TaxID dans Sample.Company. Dans Studio ou Atelier, nous ajouterions ce qui suit à la définition de la classe : Index TaxIDIdx On TaxID; L'instruction SQL DDL équivalente ressemblerait à ceci : CREATE INDEX TaxIDIdx ON Sample.Company (TaxID); La structure globale de l'index par défaut est la suivante : ^Sample.CompanyI("TaxIDIdx ",<TaxIDValueAtRowID>,<RowID>) = "" Notez qu'il y a moins d'index inférieurs à lire que de champs dans une globale de données typique. Considérons la requête SELECT Name,TaxID FROM Sample.Company WHERE TaxID = 'J7349' C'est logiquement simple et le plan de requête pour l'exécution de cette requête le reflète : Ce plan indique essentiellement que nous vérifions l'index global pour les lignes avec la valeur TaxID donnée, puis nous nous référons à la globale de données ("carte principale") pour récupérer la ligne correspondante. Considérons maintenant la même requête sans index sur TaxIDX. Le plan de requête résultant est, comme prévu, moins efficace : Sans index, l'exécution de la requête sous-jacente d'IRIS repose sur la lecture en mémoire et l'application de la condition de la clause WHERE à chaque ligne de la table. Et comme nous ne nous attendons logiquement pas à ce qu'une société partage TaxID, nous faisons tout ce travail pour une seule ligne ! Bien sûr, avoir des indexes signifie avoir des données d'index et de ligne sur le disque. En fonction de ce sur quoi nous avons une condition et de la quantité de données que notre table contient, cela peut s'avérer avoir ses propres défis lorsque nous créons et alimentons un index. Alors, quand ajoutons-nous un index à une propriété ? Dans le cas général, nous avons fréquemment à remettre une propriété en état. Des exemples sont des informations d'identification telles que le SSN d'une personne ou un numéro de compte bancaire. Vous pouvez également considérer les dates de naissance ou les fonds d'un compte. Pour en revenir à Sample.Company, la classe bénéficierait peut-être de l'indexation de la propriété Revenue si nous voulions collecter des données sur les organisations à hauts revenus. À l'inverse, les propriétés sur lesquelles il est peu probable que nous remettions des conditions sont moins appropriées pour être indexées : disons un slogan ou une description d'entreprise. Facile - sauf qu'il faut aussi considérer quel type d'index est le meilleur ! Types d'indexes Il existe six principaux types d'index que je vais aborder ici : standard, bitmap, compound, collection, bitslice et data. Je vais également aborder brièvement les index iFind, qui sont basés sur les flux. Il y a des chevauchements possibles ici et nous avons déjà abordé les indexes standards avec l'exemple ci-dessus. Je vais présenter des exemples sur la façon de créer des indexes dans votre définition de classe, mais l'ajout de nouveaux index à une classe est plus complexe que le simple ajout d'une ligne dans votre définition de classe. Nous aborderons des considérations supplémentaires dans la partie suivante. Prenons l'exemple de Sample.Person. Notez que Person a une sous-classe Employee, ce qui sera utile pour comprendre certains exemples. Employee partage son stockage global de données avec Person, et tous les indexes de Person sont hérités par Employee - ce qui signifie qu'Employee utilise l'index global de Person pour ces indexes hérités. Si vous n'êtes pas familier avec ces classes, voici un aperçu général de celles-ci : Person a les propriétés SSN, DOB, Name, Home (un objet d'adresse intégré contenant l'état et la ville), Office (également une adresse), et la collection de listes FavoriteColors. Employee a une propriété supplémentaire Salary (que j'ai moi-même définie). Standard Index DateIDX On DOB; J'utilise ici le terme "standard" pour désigner les indexes qui stockent la valeur brute d'une propriété (par opposition à une représentation binaire). Si la valeur est une chaîne de caractères, elle sera stockée sous une certaine collation - celle de SQLUPPER par défaut. Par rapport aux index bitmap ou bitslice, les indexes standard sont plus compréhensibles pour les humains et relativement faciles à maintenir. Nous avons un nœud global pour chaque ligne de la table. Voici comment DateIDX est stocké au niveau global. ^Sample.PersonI("DateIDX",51274,100115)="~Sample.Employee~" ; Date is 05/20/81 Notez que le premier index inférieur après le nom de l'index est la valeur de la date, le dernier index inférieur est l'ID de la personne ayant cette date de naissance, et la valeur stockée sur ce noeud global indique que cette personne est également membre de la sous-classe Sample.Employee. Si cette personne n'était membre d'aucune sous-classe, la valeur du noeud serait une chaîne vide. Cette structure de base sera cohérente avec la plupart des indexes non binaires, où les indexes sur plus d'une propriété créent plus d'indexes inférieurs dans la globale, et où le fait d'avoir plus d'une valeur stockée au nœud produit un objet $listbuild, par exemple : ^Package.ClassI(IndexName,IndexValue1,IndexValue2,IndexValue3,RowID) = $lb(SubClass,DataValue1,DataValue2) Bitmap - Une représentation binaire de l'ensemble des ID-codes correspondant à une valeur de propriété. Index HomeStateIDX On Home.State [ Type = bitmap]; Les indexes bitmap sont stockés par valeur unique, contrairement aux indexes standard, qui sont stockés par ligne. Pour aller plus loin dans l'exemple ci-dessus, disons que la personne avec l'ID 1 vit dans le Massachusetts, avec l'ID 2 à New York, avec l'ID 3 dans le Massachusetts et avec l'ID 4 à Rhode Island. HomeStateIDX est essentiellement stocké comme suit : ID 1 2 3 4 (…) (…) 0 0 0 0 - MA 1 0 1 0 - NY 0 1 0 0 - RI 0 0 0 1 - (…) 0 0 0 0 - Si nous voulions qu'une requête renvoie les données des personnes vivant en Nouvelle-Angleterre, le système effectue un bitwise OR sur les lignes pertinentes de l'index bitmap. On voit rapidement que nous devons charger en mémoire des objets Personne avec les ID 1, 3 et 4 au minimum. Les bitmaps peuvent être efficaces pour les opérateurs AND, RANGE et OR dans vos clauses WHERE. Bien qu'il n'y ait pas de limite officielle au nombre de valeurs uniques que vous pouvez avoir pour une propriété avant qu'un index bitmap soit moins efficace qu'un index standard, la règle générale est d'environ 10 000 valeurs distinctes. Ainsi, si un index bitmap peut être efficace pour un état des États-Unis, un index bitmap pour une ville ou un comté des États-Unis ne serait pas aussi utile. Un autre concept à prendre en compte est l'efficacité du stockage. Si vous prévoyez d'ajouter et de supprimer fréquemment des lignes de votre table, le stockage de votre index bitmap peut devenir moins efficace. Prenons l'exemple ci-dessus : supposons que nous ayons supprimé de nombreuses lignes pour une raison quelconque et que notre table ne contienne plus de personnes vivant dans des états moins peuplés tels que le Wyoming ou le Dakota du Nord. Le bitmap comporte donc plusieurs lignes contenant uniquement des zéros. D'un autre côté, la création de nouvelles lignes dans les grandes tables peut finir par devenir plus lente, car le stockage bitmap doit accueillir un plus grand nombre de valeurs uniques. Dans ces exemples, j'ai environ 150 000 lignes dans Sample.Person. Chaque nœud global stocke jusqu'à 64 000 ID, de sorte que l'index bitmap global à la valeur MA est divisé en trois parties : ^Sample.PersonI("HomeStateIDX"," MA",1)=$zwc(135,7992)_$c(0,(...)) ^Sample.PersonI("HomeStateIDX"," MA",2)=$zwc(404,7990,(…)) ^Sample.PersonI("HomeStateIDX"," MA",3)=$zwc(132,2744)_$c(0,(…)) Cas particulier : Bitmap étendu Un bitmap étendue, souvent appelé $<ClassName>, est un index bitmap sur les ID d'une classe - cela donne à IRIS un moyen rapide de savoir si une ligne existe et peut être utile pour les requêtes COUNT ou les requêtes sur les sous-classes. Ces indexes sont générés automatiquement lorsqu'un index bitmap est ajouté à la classe ; vous pouvez également créer manuellement un index bitmap d'étendue dans une définition de classe comme suit : Index Company [ Extent, SqlName = "$Company", Type = bitmap ]; Ou via le mot-clé DDL appelé BITMAPEXTENT : CREATE BITMAPEXTENT INDEX "$Company" ON TABLE Sample.Company Composés - Les indexes basés sur deux ou plusieurs propriétés Index OfficeAddrIDX On (Office.City, Office.State); Le cas général d'utilisation des index composés est le conditionnement de requêtes fréquentes sur deux propriétés ou plus. L'ordre des propriétés dans un index composé est important en raison de la manière dont l'index est stocké au niveau global. Le fait d'avoir la propriété la plus sélective en premier est plus efficace en termes de performances car cela permet d'économiser les lectures initiales du disque de l'index global ; dans cet exemple, Office.City est en premier car il y a plus de villes uniques que d'états aux États-Unis. Le fait d'avoir une propriété moins sélective en premier est plus efficace en termes d'espace. En termes de structure globale, l'arbre d'indexation serait plus équilibré si State était placé en premier. Pensez-y : chaque état contient de nombreuses villes, mais certains noms de ville n'appartiennent qu'à un seul état. Vous pouvez également vous demander si vous vous attendez à exécuter des requêtes fréquentes ne conditionnant qu'une seule de ces propriétés - cela peut vous éviter de définir un autre index. Voici un exemple de la structure globale des indexes composés : ^Sample.PersonI("OfficeAddrIDX"," BOSTON"," MA",100115)="~Sample.Employee~" Commentaires : Index composé ou index bitmap ? Pour les requêtes comportant des conditions sur plusieurs propriétés, vous pouvez également vous demander si des indexes bitmap séparés seraient plus efficaces qu'un seul index composé. Les opérations par bit sur deux indexes différents peuvent être plus efficaces à condition que les indexes bitmap conviennent à chaque propriété. Il est également possible d'avoir des indexes bitmap composés, c'est-à-dire des indexes bitmap dont la valeur unique est l'intersection de plusieurs propriétés sur lesquelles vous effectuez l'indexation. Considérez la table donnée dans la section précédente, mais au lieu des états, nous avons toutes les paires possibles d'un état et d'une ville (par exemple, Boston, MA, Cambridge, MA, même Los Angeles, MA, etc.), et les cellules obtiennent des 1 pour les lignes qui adhèrent aux deux valeurs. Collection - Les index basés sur les propriétés de la collection Nous avons ici la propriété FavoriteColors définie comme suit : Property FavoriteColors As list Of %String; Avec chacun des indexes suivants définis à titre de démonstration : Index fcIDX1 On FavoriteColors(ELEMENTS);Index fcIDX2 On FavoriteColors(KEYS); J'utilise ici le terme "collection" pour désigner plus largement les propriétés à cellule unique contenant plus d'une valeur. Les propriétés List Of et Array Of sont pertinentes ici, et si vous le souhaitez, même les chaînes de caractères délimitées. Les propriétés de la collection sont automatiquement analysées pour construire leurs indexes. Pour les propriétés délimitées, comme un numéro de téléphone, vous devez définir cette méthode, <PropertyName>BuildValueArray(value, .valueArray), explicitement. Compte tenu de l'exemple ci-dessus pour FavoriteColors, fcIDX1 ressemblerait à ceci pour une personne dont les couleurs préférées sont le bleu et le blanc : ^Sample.PersonI("fcIDX1"," BLUE",100115)="~Sample.Employee~" (…) ^Sample.PersonI("fcIDX1"," WHITE",100115)="~Sample.Employee~" fcIDX2 ressemblerait à : ^Sample.PersonI("fcIDX2",1,100115)="~Sample.Employee~" ^Sample.PersonI("fcIDX2",2,100115)="~Sample.Employee~" Dans ce cas, puisque FavoriteColors est une collection de listes, un index basé sur ses clés est moins utile qu'un index basé sur ses éléments. Veuillez vous référer à notre documentation pour des considérations plus approfondies sur la création et la gestion des indexes sur les propriétés des collections. Bitslice - Représentation en bitmap de la représentation en chaîne de bits des données numériques Index SalaryIDX On Salary [ Type = bitslice ]; //In Sample.Employee Contrairement aux indexes bitmap, qui contiennent des balises indiquant quelles lignes contiennent une valeur spécifique, les indexes bitslice convertissent d'abord les valeurs numériques de la décimale à la binaire, puis créent un bitmap sur chaque chiffre de la valeur binaire. Reprenons l'exemple ci-dessus et, par souci de réalisme, simplifions le salaire en unités de 1 000 dollars. Ainsi, si le salaire d'un employé est enregistré sous la forme 65, il est compris comme représentant 65 000 dollars. Disons que nous avons un employé avec l'ID 1 qui a un salaire de 15, l'ID 2 un salaire de 40, l'ID 3 un salaire de 64 et l'ID 4 un salaire de 130. Les valeurs binaires correspondantes sont : 15 0 0 0 0 1 1 1 1 40 0 0 1 0 1 0 0 0 64 0 1 0 0 0 0 0 0 130 1 0 0 0 0 0 1 0 Notre chaîne de bits s'étend sur 8 chiffres. La représentation bitmap correspondante - les valeurs d'indexes bitslice - est essentiellement stockée comme suit : ^Sample.PersonI("SalaryIDX",1,1) = "1000" ; La ligne 1 a une valeur à la place 1 ^Sample.PersonI("SalaryIDX",2,1) = "1001" ; Les lignes 1 et 4 ont des valeurs à la place 2 ^Sample.PersonI("SalaryIDX",3,1) = "1000" ; La ligne 1 a une valeur à la place 4 ^Sample.PersonI("SalaryIDX",4,1) = "1100" ; Les lignes 1 et 2 ont des valeurs à la place 8 ^Sample.PersonI("SalaryIDX",5,1) = "0000" ; etc… ^Sample.PersonI("SalaryIDX",6,1) = "0100" ^Sample.PersonI("SalaryIDX",7,1) = "0010" ^Sample.PersonI("SalaryIDX",8,1) = "0001" Notez que les opérations modifiant Sample.Employee ou les salaires dans ses lignes, c'est-à-dire les INSERTs, UPDATESs et DELETEs, nécessitent maintenant la mise à jour de chacun de ces nœuds globaux, ou bitslices. L'ajout d'un index bitslice à plusieurs propriétés d'une table ou à une propriété fréquemment modifiée peut présenter des risques pour les performances. En général, la maintenance d'un index bitslice est plus coûteuse que celle des indexes standard ou bitmap. Les indexes Bitslice sont hautement spécialisés et ont donc des cas d'utilisation spécifiques : les requêtes qui doivent effectuer des calculs agrégés, par exemple SUM, COUNT ou AVG. En outre, ils ne peuvent être utilisés efficacement que sur des valeurs numériques - les chaînes de caractères sont converties en un 0 binaire. Notez que si la table de données, et non les index, doit être lu pour vérifier la condition d'une requête, les indexes bitslice ne seront pas choisis pour exécuter la requête. Supposons que Sample.Person ne possède pas d'index sur Name. Si nous calculions le salaire moyen des employés portant le nom de famille Smith : SELECT AVG(Salary) FROM Sample.Employee WHERE Name %STARTSWITH 'Smith,' nous aurions besoin de lire des lignes de données pour appliquer la condition WHERE, et donc l'index bitslice ne serait pas utilisé en pratique. Des problèmes de stockage similaires se posent pour les indexes bitslice et bitmap sur les tables où des lignes sont fréquemment créées ou supprimées. Data - Index dont les données sont stockées dans leurs nœuds globaux. Index QuickSearchIDX On Name [ Data = (SSN, DOB, Name) ]; Dans plusieurs des exemples précédents, vous avez peut-être observé la chaîne “~Sample.Employee~” stockée comme valeur au niveau du noeud lui-même. Rappelez-vous que Sample.Employee hérite des indexes de Sample.Person. Lorsque nous effectuons une requête sur les employés en particulier, nous lisons la valeur aux nœuds d'index correspondant à notre condition de propriété pour vérifier que ladite personne est également un employé. On peut aussi définir explicitement les valeurs à stocker. Le fait d'avoir des données définies au niveau des nœuds globaux de l'index permet d'éviter la lecture de l'ensemble des données globales ; cela peut être utile pour les requêtes sélectives ou les requêtes ordonnées fréquentes. Considérons l'index ci-dessus comme un exemple. Si nous voulions extraire des informations d'identification sur une personne à partir de tout ou une partie de son nom (par exemple, pour rechercher des informations sur les clients dans une application de réception), nous pourrions avoir une requête telle que SELECT SSN, Name, DOB FROM Sample.Person WHERE Name %STARTSWITH 'Smith,J' ORDER BY Name Puisque les conditions de notre requête sur le nom et les valeurs que nous récupérons sont toutes contenues dans les nœuds globaux QuickSearchIDX, il nous suffit de lire notre I globale pour exécuter cette requête. Notez que les valeurs de données ne peuvent pas être stockées avec des indexes de bitmap ou de bitslice. ^Sample.PersonI("QuickSearchIDX"," LARSON,KIRSTEN A.",100115)=$lb("~Sample.Employee~","555-55-5555",51274,"Larson,Kirsten A.") iFind Indexes Vous en avez déjà entendu parler ? Moi non plus. Les indexes iFind sont utilisés sur les propriétés des flux, mais pour les utiliser vous devez spécifier leurs noms avec des mots-clés dans la requête. Je pourrais vous en dire plus, mais Kyle Baxter a déjà rédigé un article utile à ce sujet.
Article
Sylvain Guilbaud · Mars 31, 2023

Prédictions de Covid-19 ICU via ML vs. IntegratedML (Partie II)

Mots-clés:  IRIS, IntegratedML, apprentissage automatique, Covid-19, Kaggle  Continuation de la [précédente Partie I](https://community.intersystems.com/post/run-some-covid-19-icu-predictions-ml-vs-integratedml-part-i) ... Dans la partie I, nous avons parcouru les approches ML traditionnelles sur ce jeu de données Covid-19 sur Kaggle. Dans cette partie II, nous allons exécuter les mêmes données et la même tâche, dans sa forme la plus simple possible, à travers IRIS integratedML qui est une interface SQL agréable et élégante pour les options AutoML du backend. Cette interface utilise le même environnement.    ## Approche IntegratedML ? ### **Comment charger des données dans IRIS** [integredML-demo-template](https://openexchange.intersystems.com/package/integratedml-demo-template) a défini plusieurs façons de charger des données dans IRIS. Par exemple, je peux définir une classe IRIS personnalisée spécifique à ce fichier xls au format CSV, puis le charger dans un tableau IRIS. Cela permet un meilleur contrôle pour les volumes de données importants.  Cependant, dans cet article, j'opte pour une méthode simplifiée et légère, en me contentant de [charger le jeux des données dans un tableau IRIS via une fonction Python personnalisée que j'ai créée](https://community.intersystems.com/post/save-pandas-dataframe-iris-quick-note).  Cela nous permet de sauvegarder à tout moment les différentes étapes des dataframes brutes ou traitées dans IRIS, pour des comparaisons similaires avec l'approche ML précédente. def to_sql_iris(cursor, dataFrame, tableName, schemaName='SQLUser', drop_table=False ): """" Insertion dynamique d'un dataframe dans un tableau IRIS via SQL par "excutemany" Inputs: cursor: Curseur Python JDBC ou PyODBC à partir d'une connexion DB valide et établie dataFrame: Pandas dataframe tablename: Tableau SQL IRIS à créer, à insérer ou à modifier schemaName: IRIS schemaName, par défaut pour "SQLUser" drop_table: Si le tableau existe déjà, le supprimer et le recréer si True ; sinon, le sauvegarder et l'appliquer Output: True en cas de succès ; False en cas d'exception. """ if drop_table: try: curs.execute("DROP TABLE %s.%s" %(schemaName, tableName)) except Exception: pass try: dataFrame.columns = dataFrame.columns.str.replace("[() -]", "_") curs.execute(pd.io.sql.get_schema(dataFrame, tableName)) except Exception: pass curs.fast_executemany = True cols = ", ".join([str(i) for i in dataFrame.columns.tolist()]) wildc =''.join('?, ' * len(dataFrame.columns)) wildc = '(' + wildc[:-2] + ')' sql = "INSERT INTO " + tableName + " ( " + cols.replace('-', '_') + " ) VALUES" + wildc #print(sql) curs.executemany(sql, list(dataFrame.itertuples(index=False, name=None)) ) return True ### **Configuration de la connexion Python JDBC** import numpy as np import pandas as pd from sklearn.impute import SimpleImputer import matplotlib.pyplot as plt from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, roc_auc_score, roc_curve import seaborn as sns sns.set(style="whitegrid") import jaydebeapi url = "jdbc:IRIS://irisimlsvr:51773/USER" driver = 'com.intersystems.jdbc.IRISDriver' user = "SUPERUSER" password = "SYS" jarfile = "./intersystems-jdbc-3.1.0.jar" conn = jaydebeapi.connect(driver, url, [user, password], jarfile) curs = conn.cursor()   ### **Définition du point de départ des données** Pour les comparaisons à l'identique, j'ai commencé par le dataframe après les sélections de caractéristiques dans le post précédent (dans la section "Sélection de caractéristiques - Sélection finale"), où "DataS" est le dataframe exact que nous commençons ici. data = dataS data = pd.get_dummies(data) data.ÂGE_AU-DESSUS65 = data.ÂGE_AU-DESSUS65.astype(int) data.ICU = data.ICU.astype(int) data_new = data data_new   ÂGE_AU-DESSUS65 GENRE HTN AUTRES CALCIUM_MÉDIAN CALCIUM_MIN CALCIUM_MAX CRÉATININE_MÉDIANE CRÉATININE_MOYENNE CRÉATININE_MIN ... DIFFÉRENCE_DU_RYTHME_CARDIAQUE_REL DIFFÉRENCE_DE_TAUX_RESPIRATOIRE_REL DIFFÉRENCE_DE_TEMPÉRATURE_REL DIFFÉRENCE_DE_SATURATION_D'OXYGÈNE_REL USI FENÊTRE_0-2 FENÊTRE_2-4 FENÊTRE_4-6 FENÊTRE_6-12 FENÊTRE_AU-DESSUS_12 1 0.0 0.0 1.0 0.330359 0.330359 0.330359 -0.891078 -0.891078 -0.891078 ... -1.000000 -1.000000 -1.000000 -1.000000 1 1 1 0.0 0.0 1.0 0.330359 0.330359 0.330359 -0.891078 -0.891078 -0.891078 ... -1.000000 -1.000000 -1.000000 -1.000000 1 2 1 0.0 0.0 1.0 0.183673 0.183673 0.183673 -0.868365 -0.868365 -0.868365 ... -0.817800 -0.719147 -0.771327 -0.886982 1 3 1 0.0 0.0 1.0 0.330359 0.330359 0.330359 -0.891078 -0.891078 -0.891078 ... -0.817800 -0.719147 -1.000000 -1.000000 1 4 1 0.0 0.0 1.0 0.326531 0.326531 0.326531 -0.926398 -0.926398 -0.926398 ... -0.230462 0.096774 -0.242282 -0.814433 1 1 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1920 1.0 0.0 1.0 0.330359 0.330359 0.330359 -0.891078 -0.891078 -0.891078 ... -1.000000 -1.000000 -1.000000 -1.000000 1 1921 1.0 0.0 1.0 0.244898 0.244898 0.244898 -0.934890 -0.934890 -0.934890 ... -1.000000 -1.000000 -1.000000 -1.000000 1 1922 1.0 0.0 1.0 0.330359 0.330359 0.330359 -0.891078 -0.891078 -0.891078 ... -1.000000 -1.000000 -1.000000 -1.000000 1 1923 1.0 0.0 1.0 0.330359 0.330359 0.330359 -0.891078 -0.891078 -0.891078 ... -1.000000 -1.000000 -1.000000 -1.000000 1 1924 1.0 0.0 1.0 0.306122 0.306122 0.306122 -0.944798 -0.944798 -0.944798 ... -0.763868 -0.612903 -0.551337 -0.835052 1 1925 lignes × 62 colonnes Ce qui précède indique que nous disposons de 58 caractéristiques sélectionnées plus 4 autres caractéristiques converties à partir de la colonne non numérique précédente ("FENÊTRE").     ### **Sauvegarder les données dans le tableau IRIS** Nous utilisons la fonction **to\_sql\_iris** ci-dessus pour sauvegarder les données dans le tableau IRIS "CovidPPP62" : iris_schema = 'SQLUser' iris_table = 'CovidPPP62' to_sql_iris(curs, data_new, iris_table, iris_schema, drop_table=True) df2 = pd.read_sql("SELECT COUNT(*) from %s.%s" %(iris_schema, iris_table),conn) display(df2)  Sauvegarder les données dans le tableau IRIS Aggregate_1 1925 Définissez ensuite le nom de la vue de formation, le nom du modèle et la colonne cible de la formation, qui est ici " USI ".   dataTable = iris_table dataTableViewTrain = dataTable + 'Train1' dataTablePredict = dataTable + 'Predict1' dataColumn = 'ICU' dataColumnPredict = 'ICUPredicted' modelName = "ICUP621" #choisir un nom - doit être unique du côté serveur Nous pouvons ensuite diviser les données en une Vue de formation (1700 lignes) et une Vue de test (225 lignes). Nous ne sommes pas obligés de faire cela dans Integrated ML ; c'est juste à des fins de comparaison avec l'article précédent. curs.execute("CREATE VIEW %s AS SELECT * FROM %s WHERE ID<=1700" % (dataTableViewTrain, dataTable)) df62 = pd.read_sql("SELECT * from %s" % dataTableViewTrain, conn) display(df62) print(dataTableViewTrain, modelName, dataColumn) CovidPPP62Train1 ICUP621 ICU   ### **Formation du modèle à l'aide de l'AutoML par défaut d'IntegratedML** curs.execute("CREATE MODEL %s PREDICTING (%s) FROM %s" % (modelName, dataColumn, dataTableViewTrain)) curs.execute("TRAIN MODEL %s FROM %s" % (modelName, dataTableViewTrain)) df3 = pd.read_sql("SELECT * FROM INFORMATION_SCHEMA.ML_TRAINED_MODELS", conn) display(df3)   NOM_DU_MODÈLE NOM_DU_MODÈLE_FORMÉ FOURNISSEUR HORODATAGE_FORMÉ TYPE_DU_MODÈLE MODÈLE_INFO 9 USIP621 USIP6212 AutoML 2020-07-22 19:28:16.174000 classification ModelType:Random Forest, Paquet:sklearn, Prob... Ainsi, nous pouvons voir que le résultat montre qu'IntegratedML a automatiquement choisi "ModelType" comme étant "Random Forest" (forêt aléatoire), et traite le problème comme une tâche de "Classification".  C'est exactement ce que nous avons obtenu après les longues comparaisons de modèles et les sélections par boîte à moustaches, ainsi que le long réglage des paramètres du modèle par quadrillage, etc. dans l'article précédent, n'est-ce pas ? **Remarque**: le SQL ci-dessus est le strict minimum selon la syntaxe d'IntegratedML. Je n'ai pas spécifié d'approche de formation ou de sélection de modèle, et je n'ai pas défini de plateforme de ML. Tout a été laissé à la décision de l'IML, qui a réussi à mettre en œuvre sa stratégie de formation interne, avant de se contenter d'un modèle raisonnable avec des résultats finaux corrects. Je dirais que cela a dépassé mes attentes.    Effectuons un rapide test de comparaison du modèle actuellement entraîné sur notre ensemble de test réservé.   ### **Prédiction des résultats sur la base de données de test** Nous avons utilisé 1700 lignes pour la formation. Ci-dessous, nous créons une vue des données de test avec les 225 lignes restantes, et nous exécutons SELECT PREDICT sur ces enregistrements. Nous sauvegarderons le résultat prédit dans '`dataTablePredict`', et le chargerons dans 'df62' en tant que data frame. dataTableViewTest = "SQLUSER.DTT621" curs.execute("CREATE VIEW %s AS SELECT * FROM %s WHERE ID > 1700" % (dataTableViewTest, dataTable)) curs.execute("DROP TABLE %s" % dataTablePredict ) curs.execute("Create Table %s (%s VARCHAR(100), %s VARCHAR(100))" % (dataTablePredict, dataColumnPredict, dataColumn)) curs.execute("INSERT INTO %s SELECT PREDICT(%s) AS %s, %s FROM %s" % (dataTablePredict, modelName, dataColumnPredict, dataColumn, dataTableViewTest)) df62 = pd.read_sql("SELECT * from %s ORDER BY ID" % dataTablePredict, conn) display(df62) Nous n'avons pas besoin de calculer manuellement sa matrice de confusion. Il s'agit simplement d'une comparaison : TP = df62[(df62['ICUPredicted'] == '1') & (df62['ICU']=='1')].count()['ICU'] TN = df62[(df62['ICUPredicted'] == '0') & (df62['ICU']=='0')].count()["ICU"] FN = df62[(df62['ICU'] == '1') & (df62['ICUPredicted']=='0')].count()["ICU"] FP = df62[(df62['ICUPredicted'] == '1') & (df62['ICU']=='0')].count()["ICU"] print(TP, FN, '\n', FP, TN) precision = (TP)/(TP+FP) recall = (TP)/(TP+FN) f1 = ((precision*recall)/(precision+recall))*2 accuracy = (TP+TN) / (TP+TN+FP+FN) print("Precision: ", precision, " Recall: ", recall, " F1: ", f1, " Accuracy: ", accuracy) 34 20 8 163 Précision: 0.8095238095238095 rappel: 0.6296296296296297 F1: 0.7083333333333334 Exactitude: 0.8755555555555555 Nous pouvons également utiliser la syntaxe IntegratedML pour obtenir sa matrice de confusion intégrée : # valider les données de test curs.execute("VALIDATE MODEL %s FROM %s" % (modelName, dataTableViewTest) ) df5 = pd.read_sql("SELECT * FROM INFORMATION_SCHEMA.ML_VALIDATION_METRICS", conn) df6 = df5.pivot(index='VALIDATION_RUN_NAME', columns='METRIC_NAME', values='METRIC_VALUE') display(df6) NOM_MÉTRIQUE Exactitude Mesure F Précision Rappel NOM_DE_L'EXÉCUTION_DE_LA_VALIDATION         USIP62121 0.88 0.71 0.81 0.63 ... ... ... ... ... Si l'on compare avec le "Résultat original" de la section " Exécuter une formation de base en LR " dans la partie I, le résultat ci-dessus présente un rappel de 63 % contre 57 %, et une exactitude de 88 % contre 85 %. Il s'agit donc d'un meilleur résultat avec IntegratedML.   ### **Former à nouveau IntegratedML sur des données de formation rééquilibrées via SMOTE** Le test ci-dessus a été effectué sur des données déséquilibrées, dans lesquelles le rapport entre les patients admis en USI et les patients non admis est de 1:3. Donc, comme dans l'article précédent, nous allons simplement effectuer un SMOTE pour que les données soient équilibrées, puis nous allons réexécuter le pipeline IML ci-dessus. 'X\_train\_res' and 'y\_train\_res' sont des dataframes après SMOTE de la Partie I précédente dans sa section " Exécuter une formation de base en LR ".  df_x_train = pd.DataFrame(X_train_res) df_y_train = pd.DataFrame(y_train_res) df_y_train.columns=['ICU'] df_smote = pd.concat([df_x_train, df_y_train], 1) display(df_smote) iris_schema = 'SQLUser' iris_table = 'CovidSmote' to_sql_iris(curs, df_smote, iris_table, iris_schema, drop_table=True) # sauvegarder ceci dans un nouveau tableau IRIS portant le nom spécifié df2 = pd.read_sql("SELECT COUNT(*) from %s.%s" %(iris_schema, iris_table),conn) display(df2)   Aggregate_1 2490 Le jeu de données comporte désormais 2490 lignes au lieu de 1700, car SMOTE a enrichi davantage d'enregistrements avec USI = 1. dataTable = iris_table dataTableViewTrain = dataTable + 'TrainSmote' dataTablePredict = dataTable + 'PredictSmote' dataColumn = 'ICU' dataColumnPredict = 'ICUPredictedSmote' modelName = "ICUSmote1" #choisir un nom - doit être unique du côté serveur curs.execute("CREATE VIEW %s AS SELECT * FROM %s" % (dataTableViewTrain, dataTable)) df_smote = pd.read_sql("SELECT * from %s" % dataTableViewTrain, conn) display(df_smote) print(dataTableViewTrain, modelName, dataColumn) CovidSmoteTrainSmote ICUSmote1 ICU curs.execute("CREATE MODEL %s PREDICTING (%s)  FROM %s" % (modelName, dataColumn, dataTableViewTrain)) curs.execute("TRAIN MODEL %s FROM %s" % (modelName, dataTableViewTrain)) df3 = pd.read_sql("SELECT * FROM INFORMATION_SCHEMA.ML_TRAINED_MODELS", conn) display(df3)   NOM_DU_MODÈLE NOM_DU_MODÈLE_FORMÉ FOURNISSEUR HORODATAGE_FORMÉ TYPE_DU_MODÈLE MODEL_INFO 9 USIP621 USIP6212 AutoML 2020-07-22 19:28:16.174000 classification ModelType:Random Forest, Paquet:sklearn, Prob... 12 USISmote1 USISmote12 AutoML 2020-07-22 20:49:13.980000 classification ModelType:Random Forest, Paquet:sklearn, Prob... Ensuite, nous préparons à nouveau un ensemble réservé de 225 lignes de données de test et nous exécutons le modèle reformé de SMOTE sur ces lignes : df_x_test = pd.DataFrame(X3_test) df_y_test = pd.DataFrame(y3_test) df_y_test.columns=['ICU'] df_test_smote = pd.concat([df_x_test, df_y_test], 1) display(df_test_smote) iris_schema = 'SQLUser' iris_table = 'CovidTestSmote' to_sql_iris(curs, df_test_smote, iris_table, iris_schema, drop_table=True) dataTableViewTest = "SQLUSER.DTestSmote225" curs.execute("CREATE VIEW %s AS SELECT * FROM %s" % (dataTableViewTest, iris_table)) curs.execute("Create Table %s (%s VARCHAR(100), %s VARCHAR(100))" % (dataTablePredict, dataColumnPredict, dataColumn)) curs.execute("INSERT INTO %s SELECT PREDICT(%s) AS %s, %s FROM %s" % (dataTablePredict, modelName, dataColumnPredict, dataColumn, dataTableViewTest)) df62 = pd.read_sql("SELECT * from %s ORDER BY ID" % dataTablePredict, conn) display(df62) TP = df62[(df62['ICUPredictedSmote'] == '1') & (df62['ICU']=='1')].count()['ICU'] TN = df62[(df62['ICUPredictedSmote'] == '0') & (df62['ICU']=='0')].count()["ICU"] FN = df62[(df62['ICU'] == '1') & (df62['ICUPredictedSmote']=='0')].count()["ICU"] FP = df62[(df62['ICUPredictedSmote'] == '1') & (df62['ICU']=='0')].count()["ICU"] print(TP, FN, '\n', FP, TN) precision = (TP)/(TP+FP) recall = (TP)/(TP+FN) f1 = ((precision*recall)/(precision+recall))*2 accuracy = (TP+TN) / (TP+TN+FP+FN) print("Precision: ", precision, " Recall: ", recall, " F1: ", f1, " Accuracy: ", accuracy) 45 15 9 156 Précision: 0.8333333333333334 Rappel: 0.75 F1: 0.7894736842105262 Exactitude: 0.8933333333333333 # valider les données d'essai à l'aide du modèle reformé de SMOTE curs.execute("VALIDATE MODEL %s FROM %s" % (modelName, dataTableViewTest) ) #Covid19aTest500, Covid19aTrain1000 df5 = pd.read_sql("SELECT * FROM INFORMATION_SCHEMA.ML_VALIDATION_METRICS", conn) df6 = df5.pivot(index='VALIDATION_RUN_NAME', columns='METRIC_NAME', values='METRIC_VALUE') display(df6) NOM_MÉTRIQUE Exactitude Mesure F Précision Rappel NOM_DE_L'EXÉCUTION_DE_LA_VALIDATION         USIP62121 0.88 0.71 0.81 0.63 USISmote122 0.89 0.79 0.83 0.75 Le résultat indique une amélioration significative du rappel de 75 % par rapport aux 63 % précédents, ainsi qu'une légère amélioration de l'exactitude et du score F1.   Plus notablement, ce résultat est conforme à notre "approche ML traditionnelle" dans l'article précédent, après une "sélection de modèle" intensive et un "réglage des paramètres par quadrillage", comme indiqué dans la section "Exécuter le modèle sélectionné en poursuivant "Ajustement des paramètres via la recherche par quadrillage" supplémentaire". Le résultat de l'IML n'est donc pas mauvais du tout.   ### **Changement de fournisseur H2O d'IntegratedML ** Nous pouvons modifier le fournisseur AutoML de l'IML d'une seule ligne, puis former à nouveau le modèle comme nous l'avons fait à l'étape précédente :    curs.execute("SET ML CONFIGURATION %H2O; ") modelName = 'ICUSmoteH2O' print(dataTableViewTrain) curs.execute("CREATE MODEL %s PREDICTING (%s) FROM %s" % (modelName, dataColumn, dataTableViewTrain)) curs.execute("TRAIN MODEL %s FROM %s" % (modelName, dataTableViewTrain)) df3 = pd.read_sql("SELECT * FROM INFORMATION_SCHEMA.ML_TRAINED_MODELS", conn) display(df3)   NOM_DU_MODÈLE NOM_DU_MODÈLE_FORMÉ FOURNISSEUR HORODATAGE_FORMÉ TYPE_DU_MODÈLE MODÈLE_INFO 12 USISmote1 USISmote12 AutoML 2020-07-22 20:49:13.980000 classification ModelType:Random Forest, Paquet:sklearn, Prob... 13 USIPPP62 USIPPP622 AutoML 2020-07-22 17:48:10.964000 classification ModelType:Random Forest, Paquet:sklearn, Prob... 14 USISmoteH2O USISmoteH2O2 H2O 2020-07-22 21:17:06.990000 classification Aucun # valider les données de test curs.execute("VALIDATE MODEL %s FROM %s" % (modelName, dataTableViewTest) ) #Covid19aTest500, Covid19aTrain1000 df5 = pd.read_sql("SELECT * FROM INFORMATION_SCHEMA.ML_VALIDATION_METRICS", conn) df6 = df5.pivot(index='VALIDATION_RUN_NAME', columns='METRIC_NAME', values='METRIC_VALUE') display(df6) NOM_MÉTRIQUE Exactitude Mesure F Précision Rappel NOM_DE_L'EXÉCUTION_DE_LA_VALIDATION         USIP62121 0.88 0.71 0.81 0.63 USISmote122 0.89 0.79 0.83 0.75 USISmoteH2O21 0.90 0.79 0.86 0.73 Les résultats semblent montrer que H2O AutoML a une précision légèrement supérieure, le même F1, mais un rappel légèrement inférieur. Cependant, notre objectif principal dans cette tâche de Covid19 USI est de minimiser les faux négatifs si nous le pouvons. Il semble donc que le changement de fournisseur pour H2O n'ait pas encore permis d'augmenter notre performance cible. J'aimerais certainement tester également le fournisseur DataRobot d'IntegratedML, mais je n'ai malheureusement pas encore de clé API de DataRobot, alors je vais la mettre de côté ici.   ## Récapitulatif: 1. **Performance** : Pour cette tâche spécifique de l'unité de soins intensifs de Covid-19, nos comparaisons de tests indiquent que les performances de l'IntegratedML d'IRIS sont au moins équivalentes ou similaires aux résultats de l'approche ML traditionnelle. Dans ce cas précis, IntegratedML a été capable de choisir automatiquement et correctement la stratégie d'entraînement interne, et a semblé établir le bon modèle, fournissant le résultat escompté. 2. **Simplicité** : IntegratedML a un processus beaucoup plus simplifié que les pipelines ML traditionnels. Comme indiqué ci-dessus, je n'ai plus besoin de me préoccuper de la sélection des modèles et l'ajustement des paramètres, etc. Je n'ai pas non plus besoin de la sélection des caractéristiques, si ce n'est à des fins de comparaison. De plus, je n'ai utilisé que la syntaxe minimale d'IntegratedML, comme indiqué dans le cahier de démonstration d'Integrated-demo-template. Bien sûr, le désavantage est que nous sacrifions les capacités de personnalisation et d'ajustement des outils courants de science des données via leurs pipelines traditionnels, mais c'est aussi plus ou moins vrai pour d'autres plateformes AutoML. 3. **Le prétraitement des données reste important** : Il n'y a malheureusement pas de solution miracle ; ou plutôt, cette solution miracle prendrait du temps. Spécifiquement pour cette tâche de Covid19 USI, les tests ci-dessus montrent que les données ont encore beaucoup d'importance pour l'approche actuelle d'IntegratedML : données brutes, caractéristiques sélectionnées avec données manquantes imputées, et données rééquilibrées avec suréchantillonnage SMOTE de base, elles ont toutes abouti à des performances significativement différentes. C'est vrai pour l'AutoML par défaut d'IML et son fournisseur H2O. J'imagine que DataRobot pourrait revendiquer une performance légèrement supérieure, mais cela doit être testé plus avant avec l'enveloppe SQL d'IntegratedML. **En bref, la normalisation des données est toujours importante dans IntegratedML.** 4. **Déployabilité** : Je n'ai pas encore comparé la déployabilité, la gestion de l'API, la surveillance et la facilité d'utilisation non fonctionnelle, etc.   ## Suivant 1. **Déploiements de modèles** : Jusqu'à présent, nous avons fait des démonstrations d'IA sur les radiographies pour le Covid-19 et des prédictions pour l'unité de soins intensifs pour le Covid-19 sur les signes vitaux et les observations. Pouvons-nous les déployer dans les piles de services Flask/FastAPI et IRIS, et exposer leurs capacités ML/DL de démonstration via des API REST/JSON ? Bien sûr, nous pouvons essayer de le faire dans le prochain article. Ensuite, nous pourrons ajouter d'autres capacités d'IA de démonstration au fil du temps, y compris des API NLP, etc. 2. **Interopérabilité de l'API enveloppée dans FHIR** : Nous disposons également d'un modèle FHIR, ainsi que d'une API native IRIS, etc. dans cette communauté de développeurs. Pourrions-nous transformer notre service d'IA de démonstration en SMART on FHIR apps, ou en services d'IA enveloppés dans FHIR selon les normes correspondantes - pourrions-nous essayer cela ? Et n'oubliez pas que dans la gamme de produits IRIS, nous avons également API Gateway, ICM avec support Kubernetes, et SAM etc. que nous pourrions également exploiter avec nos piles de démonstrations d'IA. 3. **Démonstration d'intégration avec HealthShare Clinical Viewer et/ou Trak etc** ? J'ai brièvement montré [une démonstration d'intégration du PACS Viewer d'un fournisseur d'IA tiers (pour les CT Covid-19) avec HealthShare Clinical Viewer](https://community.intersystems.com/post/run-some-covid-19-lung-x-ray-classification-and-ct-detection-demos), et nous pourrions peut-être terminer cette randonnée avec nos propres services de démonstration d'IA, dans divers domaines de spécialité au fil du temps.
Article
Guillaume Rongier · Sept 28, 2022

HL7v2 vers FHIR, c'est facile !

# Service Iris Healthtoolkit [![Vidéo](https://raw.githubusercontent.com/grongierisc/iris-healthtoolkit-service/main/misc/images/Cover.png)](https://youtu.be/lr2B7zSFkds "Video") Utilisation facile de HL7v2 vers FHIR, CDA vers FHIR, FHIR vers HL7v2 en tant que service. L'objectif de ce projet est de fournir une API REST capable de convertir facilement divers formats de santé. Publiez le format souhaité dans le corps REST, obtenez la réponse dans le nouveau format. * Version officielle : https://aws.amazon.com/marketplace/pp/prodview-q7ryewpz75cq2 :fire: * Vidéo : https://youtu.be/lr2B7zSFkds :tv: ## Installation Clonez ce référentiel ``` git clone https://github.com/grongierisc/iris-healthtoolkit-service.git ``` Docker ``` docker-compose up --build -d ``` ## Utilisation * Atteignez : http://localhost:32783/swagger-ui/index.html ## Détails de l'Api ### HL7 vers FHIR ``` POST http://localhost:32783/api/hl7/fhir ``` #### Exemple Saisie ```text MSH|^~\&||^^NPI|||20211105165829+0000||ADT^A01|66053,61109.396628|P|2.5.1|||AL|AL|||||PH_SS-Ack^SS Sender^2.16.840.1.114222.4.10.3^ISO EVN||202111051658|||||^^NPI PID|1||060a6bd5-5146-4b08-a916-009858997bd3^^^https://github.com/synthetichealth/synthea^~060a6bd5-5146-4b08-a916-009858997bd3^^^http://hospital.smarthealthit.org^MR~999-97-4582^^^&^SS~S99986284^^^&^DL~X84330364X^^^&^PPN||Masson^Livia^^^Mrs.^^||19920820|F|Simon^Livia^^||615 Avenue Lemaire^^Lyon^Auvergne-Rhone-Alpes^63000||^PRN^PH^^^555^286||||||||||||||||||||| PV1|1|O||424441002|||||||||||||||1^^^&&^VN|||||||||||||||||||||||||200812312325|20090101044004 PV2|||72892002^Grossesse normale^SCT OBX|1||8302-2^Taille du corps^LN||20101014002504^^|cm^^UCUM|||||F|||20101014 OBX|2||72514-3^Gravite de la douleur - 0-10 evaluation numerique verbale [Score] - Signaleee^LN||20101014002504^^|{score}^^UCUM|||||F|||20101014 OBX|3||29463-7^Poids corporel^LN||20101014002504^^|kg^^UCUM|||||F|||20101014 OBX|4||39156-5^Indice de masse corporelle^LN||20101014002504^^|kg/m2^^UCUM|||||F|||20101014 OBX|5||72166-2^Statut du tabagisme^LN||20171026002504^Ancien fumeur^SCT^^^^^^Ancien fumeur||||||F|||20171026 ``` Sortie ```json { "typeDeRessource": "Paquet", "type": "transaction", "saisie": [ { "demande": { "méthode": "POST", "url": "Organisation" }, "UrlComplète": "urn:uuid:347a0c88-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Organisation", "identifiant": [ { "valeur": "https://github.com/synthetichealth/synthea" } ] } }, { "demande": { "méthode": "POST", "url": "Organisation" }, "UrlComplète": "urn:uuid:34d03d1a-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Organisation", "identifiant": [ { "valeur": "http://hospital.smarthealthit.org" } ] } }, { "demande": { "méthode": "POST", "url": "Patient" }, "UrlComplète": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Patient", "adresse": [ { "ville": "Lyon", "ligne": [ "615 Avenue Lemaire" ], "codePostal": "63000", "région": "Auvergne-Rhone-Alpes" } ], "dateDeNaissance": "1992-08-20", "sex": "femme", "identifiant": [ { "assigner": { "référence": "urn:uuid:347a0c88-e7fa-11ec-9601-0242ac1a0002" }, "système": "https://github.com/synthetichealth/synthea", "valeur": "060a6bd5-5146-4b08-a916-009858997bd3" }, { "assigner": { "référence": "urn:uuid:34d03d1a-e7fa-11ec-9601-0242ac1a0002" }, "système": "http://hospital.smarthealthit.org", "type": { "codage": [ { "code": "MR", "système": "http://terminology.hl7.org/CodeSystem/v2-0203" } ], "texte": "MRN" }, "valeur": "060a6bd5-5146-4b08-a916-009858997bd3" }, { "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/patient-number-i-s-o-assigning-authority", "valeurDeLigne": "&" } ], "type": { "codage": [ { "code": "SS" } ], "texte": "SS" }, "valeur": "999-97-4582" }, { "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/patient-number-i-s-o-assigning-authority", "valeurDeLigne": "&" } ], "type": { "codage": [ { "code": "DL", "système": "http://terminology.hl7.org/CodeSystem/v2-0203" } ], "texte": "DL" }, "valeur": "S99986284" }, { "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/patient-number-i-s-o-assigning-authority", "valeurDeLigne": "&" } ], "type": { "codage": [ { "code": "PPN", "système": "http://terminology.hl7.org/CodeSystem/v2-0203" } ], "texte": "PPN" }, "valeur": "X84330364X" } ], "nom": [ { "famille": "Simon", "prénom": [ "Livia" ], "texte": "Livia Simon" }, { "famille": "Masson", "prénom": [ "Livia" ], "préfixe": [ "Mrs." ], "texte": "Mrs. Livia Masson", "utilisation": "officiel" } ], "telecom": [ { "système": "téléphone", "utilisation": "domicile", "valeur": "(555) 286" } ] } }, { "demande": { "méthode": "POST", "url": "Visite" }, "UrlComplète": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Visite", "class": { "code": "AMB", "système": "http://terminology.hl7.org/CodeSystem/v3-ActCode" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/encounter-encounter-type", "valeurDeLigne": "O" }, { "url": "http://intersystems.com/fhir/extn/sda3/lib/encounter-entered-on", "valeurDateHeur": "2008-12-31T23:25:00+00:00" }, { "url": "http://intersystems.com/fhir/extn/sda3/lib/encounter-to-time", "valeurDateHeur": "2009-01-01T04:40:04+00:00" } ], "identifiant": [ { "type": { "texte": "NuméroDeVisite" }, "utilisation": "officiel", "valeur": "1" } ], "période": { "lancement": "2008-12-31T23:25:00+00:00" }, "reasonCode": [ { "codage": [ { "code": "72892002", "affichage": "Grossesse normale", "système": "http://snomed.info/sct" } ] } ], "état": "inconnu", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "type": [ { "codage": [ { "code": "424441002" } ] } ] } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3a13745e-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "code": { "codage": [ { "code": "72166-2", "affichage": "Statut du tabagisme", "système": "http://loinc.org" } ] }, "effectiveDateHeure": "2017-10-26T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" }, { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-observation-coded-value", "valeurConceptCodifiable": { "codage": [ { "code": "20171026002504", "affichage": "Ancien fumeur", "système": "http://snomed.info/sct" } ], "texte": "Ancien fumeur" } } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurDeLigne": "Ancien fumeur" } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3b6212fc-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "category": [ { "codage": [ { "code": "Signes-vitaux", "affichage": "Signes vitaux", "système": "http://terminology.hl7.org/CodeSystem/observation-category" } ], "texte": "Signes vitaux" } ], "code": { "codage": [ { "code": "8302-2", "affichage": "Taille du corps", "système": "http://loinc.org" } ], "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/code-table-detail-observation-observation-value-units", "valeurConceptCodifiable": { "codage": [ { "code": "cm", "système": "http://unitsofmeasure.org" } ] } } ] }, "effectiveDateHeure": "2010-10-14T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurConceptCodifiable": { "codage": [ { "code": "20101014002504" } ] } } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3c8aba30-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "code": { "codage": [ { "code": "72514-3", "affichage": "Gravite de la douleur - 0-10 evaluation numerique verbale [Score] - Signaleee", "système": "http://loinc.org" } ], "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/code-table-detail-observation-observation-value-units", "valeurConceptCodifiable": { "codage": [ { "code": "{score}", "système": "http://unitsofmeasure.org" } ] } } ] }, "effectiveDateHeure": "2010-10-14T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurConceptCodifiable": { "codage": [ { "code": "20101014002504" } ] } } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3de455d0-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "category": [ { "codage": [ { "code": "signes -vitaux", "affichage": "Signes vitaux", "système": "http://terminology.hl7.org/CodeSystem/observation-category" } ], "texte": "Signes vitaux" } ], "code": { "codage": [ { "code": "29463-7", "affichage": "Poids corporel", "système": "http://loinc.org" } ], "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/code-table-detail-observation-observation-value-units", "valeurConceptCodifiable": { "codage": [ { "code": "kg", "système": "http://unitsofmeasure.org" } ] } } ] }, "effectiveDateHeure": "2010-10-14T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurConceptCodifiable": { "codage": [ { "code": "20101014002504" } ] } } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3f501418-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "code": { "codage": [ { "code": "39156-5", "affichage": "Indice de masse corporelle", "système": "http://loinc.org" } ], "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/code-table-detail-observation-observation-value-units", "valeurConceptCodifiable": { "codage": [ { "code": "kg/m2", "système": "http://unitsofmeasure.org" } ] } } ] }, "effectiveDateHeure": "2010-10-14T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurConceptCodifiable": { "codage": [ { "code": "20101014002504" } ] } } } ] } ``` ### FHIR vers HL7 ADT ``` POST http://localhost:32783/api/fhir/hl7/adt ``` #### Exemple ```json { "typeDeRessource": "Paquet", "type": "transaction", "saisie": [ { "demande": { "méthode": "POST", "url": "Organisation" }, "UrlComplète": "urn:uuid:347a0c88-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Organisation", "identifiant": [ { "valeur": "https://github.com/synthetichealth/synthea" } ] } }, { "demande": { "méthode": "POST", "url": "Organisation" }, "UrlComplète": "urn:uuid:34d03d1a-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Organisation", "identifiant": [ { "valeur": "http://hospital.smarthealthit.org" } ] } }, { "demande": { "méthode": "POST", "url": "Patient" }, "UrlComplète": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Patient", "adresse": [ { "ville": "Lyon", "ligne": [ "615 Avenue Lemaire" ], "codePostal": "63000", "région": "Auvergne-Rhone-Alpes" } ], "dateDeNaissance": "1992-08-20", "sex": "femme", "identifiant": [ { "assigner": { "référence": "urn:uuid:347a0c88-e7fa-11ec-9601-0242ac1a0002" }, "système": "https://github.com/synthetichealth/synthea", "valeur": "060a6bd5-5146-4b08-a916-009858997bd3" }, { "assigner": { "référence": "urn:uuid:34d03d1a-e7fa-11ec-9601-0242ac1a0002" }, "système": "http://hospital.smarthealthit.org", "type": { "codage": [ { "code": "MR", "système": "http://terminology.hl7.org/CodeSystem/v2-0203" } ], "texte": "MRN" }, "valeur": "060a6bd5-5146-4b08-a916-009858997bd3" }, { "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/patient-number-i-s-o-assigning-authority", "valeurDeLigne": "&" } ], "type": { "codage": [ { "code": "SS" } ], "texte": "SS" }, "valeur": "999-97-4582" }, { "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/patient-number-i-s-o-assigning-authority", "valeurDeLigne": "&" } ], "type": { "codage": [ { "code": "DL", "système": "http://terminology.hl7.org/CodeSystem/v2-0203" } ], "texte": "DL" }, "valeur": "S99986284" }, { "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/patient-number-i-s-o-assigning-authority", "valeurDeLigne": "&" } ], "type": { "codage": [ { "code": "PPN", "système": "http://terminology.hl7.org/CodeSystem/v2-0203" } ], "texte": "PPN" }, "valeur": "X84330364X" } ], "nom": [ { "famille": "Simon", "prénom": [ "Livia" ], "texte": "Livia Simon" }, { "famille": "Masson", "prénom": [ "Livia" ], "préfixe": [ "Mrs." ], "texte": "Mrs. Livia Masson", "utilisation": "officiel" } ], "telecom": [ { "système": "téléphone", "utilisation": "domicile", "valeur": "(555) 286" } ] } }, { "demande": { "méthode": "POST", "url": "visite" }, "UrlComplète": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "visite", "class": { "code": "AMB", "système": "http://terminology.hl7.org/CodeSystem/v3-ActCode" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/encounter-encounter-type", "valeurDeLigne": "O" }, { "url": "http://intersystems.com/fhir/extn/sda3/lib/encounter-entered-on", "valeurDateHeur": "2008-12-31T23:25:00+00:00" }, { "url": "http://intersystems.com/fhir/extn/sda3/lib/encounter-to-time", "valeurDateHeur": "2009-01-01T04:40:04+00:00" } ], "identifiant": [ { "type": { "texte": "EncounterNumber" }, "utilisation": "officiel", "valeur": "1" } ], "période": { "lancement": "2008-12-31T23:25:00+00:00" }, "reasonCode": [ { "codage": [ { "code": "72892002", "affichage": "Grossesse normale", "système": "http://snomed.info/sct" } ] } ], "état": "inconnu", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "type": [ { "codage": [ { "code": "424441002" } ] } ] } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3a13745e-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "code": { "codage": [ { "code": "72166-2", "affichage": "Statut du tabagisme", "système": "http://loinc.org" } ] }, "effectiveDateHeure": "2017-10-26T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" }, { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-observation-coded-value", "valeurConceptCodifiable": { "codage": [ { "code": "20171026002504", "affichage": "Ancien fumeur", "système": "http://snomed.info/sct" } ], "texte": "Ancien fumeur" } } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurDeLigne": "Ancien fumeur" } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3b6212fc-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "category": [ { "codage": [ { "code": "signes-vitaux", "affichage": "Signes vitaux", "système": "http://terminology.hl7.org/CodeSystem/observation-category" } ], "texte": "Signes vitaux" } ], "code": { "codage": [ { "code": "8302-2", "affichage": "Taille du corps", "système": "http://loinc.org" } ], "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/code-table-detail-observation-observation-value-units", "valeurConceptCodifiable": { "codage": [ { "code": "cm", "système": "http://unitsofmeasure.org" } ] } } ] }, "effectiveDateHeure": "2010-10-14T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurConceptCodifiable": { "codage": [ { "code": "20101014002504" } ] } } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3c8aba30-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "code": { "codage": [ { "code": "72514-3", "affichage": "Gravite de la douleur - 0-10 evaluation numerique verbale [Score] - Signaleee", "système": "http://loinc.org" } ], "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/code-table-detail-observation-observation-value-units", "valeurConceptCodifiable": { "codage": [ { "code": "{score}", "système": "http://unitsofmeasure.org" } ] } } ] }, "effectiveDateHeure": "2010-10-14T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurConceptCodifiable": { "codage": [ { "code": "20101014002504" } ] } } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3de455d0-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "category": [ { "codage": [ { "code": "signes-vitaux", "affichage": "Signes vitaux", "système": "http://terminology.hl7.org/CodeSystem/observation-category" } ], "texte": "Signes vitaux" } ], "code": { "codage": [ { "code": "29463-7", "affichage": "Poids corporel", "système": "http://loinc.org" } ], "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/code-table-detail-observation-observation-value-units", "valeurConceptCodifiable": { "codage": [ { "code": "kg", "système": "http://unitsofmeasure.org" } ] } } ] }, "effectiveDateHeure": "2010-10-14T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurConceptCodifiable": { "codage": [ { "code": "20101014002504" } ] } } }, { "demande": { "méthode": "POST", "url": "Observation" }, "UrlComplète": "urn:uuid:3f501418-e7fa-11ec-9601-0242ac1a0002", "ressource": { "typeDeRessource": "Observation", "code": { "codage": [ { "code": "39156-5", "affichage": "Indice de masse corporelle", "système": "http://loinc.org" } ], "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/code-table-detail-observation-observation-value-units", "valeurConceptCodifiable": { "codage": [ { "code": "kg/m2", "système": "http://unitsofmeasure.org" } ] } } ] }, "effectiveDateHeure": "2010-10-14T00:00:00+00:00", "visite": { "référence": "urn:uuid:38cf2d40-e7fa-11ec-9601-0242ac1a0002" }, "extension": [ { "url": "http://intersystems.com/fhir/extn/sda3/lib/observation-encounter-number", "valeurDeLigne": "1" } ], "état": "final", "sujet": { "référence": "urn:uuid:36dd6e2a-e7fa-11ec-9601-0242ac1a0002" }, "valeurConceptCodifiable": { "codage": [ { "code": "20101014002504" } ] } } } ] } ``` Sortie ```texte MSH|^~\&||^^NPI|||20220609134903+0000||^|66269,49743.388133779|P|2.5.1|||AL|AL|||||PH_SS-Ack^SS Sender^2.16.840.1.114222.4.10.3^ISO EVN||202206091349|||||^^NPI PID|1||060a6bd5-5146-4b08-a916-009858997bd3^^^https://github.com/s&&ISO^~060a6bd5-5146-4b08-a916-009858997bd3^^^http://hospital.smar&&ISO^MR~999-97-4582^^^&^SS~S99986284^^^&^DL~X84330364X^^^&^PPN||Masson^Livia^^^Mrs.^^||19920820|F|Simon^Livia^^||615 Avenue Lemaire^^^^||^PRN^PH^^^555^286||||||||||||||||||||| PV1|1|O||424441002|||||||||||||||1^^^&&^VN|||||||||||||||||||||||||200812312325| PV2|||72892002^Grossesse normale^SCT OBX|1||72166-2^Statut du tabagisme^LN||^^||||||F|||20171026 OBX|2||8302-2^Taille du corps^LN||^^||||||F|||20101014 OBX|3||72514-3^Gravite de la douleur - 0-10 evaluation numerique verbale [Score] - Signaleee^LN||^^||||||F|||20101014 OBX|4||29463-7^Poids corporel^LN||^^||||||F|||20101014 OBX|5||39156-5^Indice de masse corporelle^LN||^^||||||F|||20101014 ``` ### FHIR vers HL7 ORU ``` POST http://localhost:32783/api/fhir/hl7/oru ``` ### FHIR vers HL7 vxu ``` POST http://localhost:32783/api/fhir/hl7/vxu ``` ### CDA vers FHIR ``` POST http://localhost:32783/api/cda/fhir ``` #### Exemple ### Dépôt FHIR ``` GET http://localhost:32783/api/fhir/metadata ``` ## Format d'entrée HL7 pris en charge : * ADT_A01, ADT_A02, ADT_A03, ADT_A04, ADT_A05, ADT_A06, ADT_A07, ADT_A08, ADT_A09, ADT_A10, ADT_A11, ADT_A12, ADT_A13, ADT_A17, ADT_A18, ADT_A23, ADT_A25, ADT_A27, ADT_A28, ADT_A29, ADT_A30, ADT_A31, ADT_A34, ADT_A36, ADT_A39, ADT_A40, ADT_A41, ADT_A45, ADT_A47, ADT_A49, ADT_A50, ADT_A51, ADT_A60 * BAR_P12 * MDM_T02, MDM_T04, MDM_T08, MDM_T11 * OMP_O09 * ORM_O01 * ORU_R01 * PPR_PC1, PPR_PC2, PPR_PC3 * RDE_O11 * SIU_S12, SIU_S13, SIU_S14, SIU_S15, SIU_S16, SIU_S17, SIU_S26 * VXU_V04 ## Comment ça marche Ce projet fonctionne avec le diagramme pivot : SDA. Le SDA (Summary Document Architecture, Architecture du document de synthèse) est le format de données cliniques d'InterSystems. Les correspondances SDA FHIR peuvent être consultées [ici](https://docs.intersystems.com/irisforhealthlatest/csp/docbook/Doc.View.cls?KEY=HXFHIR_transforms), et celles de la CDA -> SDA [ici](https://docs.intersystems.com/irisforhealthlatest/csp/docbook/DocBook.UI.Page.cls?KEY=HXCDA). ![gif sda pivot](https://raw.githubusercontent.com/grongierisc/iris-healthtoolkit-service/main/misc/images/Gif_SDA_Pivot.gif)
Article
Lorenzo Scalese · Fév 27, 2023

OpenAPI Suite - Partie 1

Salut la communauté, J'aimerais vous présenter ma dernière application OpenAPI-Suite, c'est un ensemble d'outils permettant de générer du code ObjectScript à partir d'une specification OpenAPI version 3.0. L'application permet de: Générer les classes serveur REST. C'est assez similaire au code généré par ^%REST, la valeur ajoutée est le support de la version 3.0. Générer les classes pour un client HTTP. Générer une production cliente (business services, business operation, business process, Ens.Request, Ens.Response). Disposer d'une interface web pour générer et télécharger le code ou générer et compiler directement sur le serveur. Convertir les spécifications de version 1.x, 2.x en version 3.0. Aperçu OpenAPI-Suite est divisée en plusieurs packages et utilise différentes bibliothèques de la communauté des développeurs ainsi que des services REST publics. Vous pouvez voir sur le schéma ci-dessous, tous les packages développés et les bibliothèques et services web utilisés: Note: En cas de problème d'utilisation des services REST publics, il est possible de démarrer une instance docker du service de convertisseur et du validateur (nous verrons cela dans la partie 2). Quel est le rôle de chaque package? La suite OpenAPI a été conçue en différents pacakges pour faciliter la maintenance, les améliorations et extensions futures. Chaque package a un rôle. Jetons-y un coup d'oeil ! openapi-common-lib Il contient tout le code commun aux autres packages. Par exemple, openapi-client-gen et openapi-server-gen acceptent comme donnée en entrée: URL Chemin d'accès d'un fichier %Stream.Object %DynamicObject Format YAML Format JSON OpenAPI version 1.x, 2.x, 3.0.x. Cependant, seule la specification 3.0.x au format %DynamicObject peut être traité. Le code de transformation se trouve dans ce package. Il contient également divers utilitaires. swagger-converter-cli C'est une dépendance de openapi-common-lib et un client HTTP du service public REST converter.swagger.io afin de convertir les spécifications OpenAPI version 1.x ou 2.x en version 3.0. swagger-validator-cli C'est aussi une dépendance de openapi-common-lib, même si son nom est "validator", il n'est pas utilisé pour valider la spécification. converter.swagger.io fournit le service "parse" permettant de simplifier la structure d'une spécification OpenAPI. Par exemple: Il permet de créer une définition lorsqu'un objet est imbriqué et génère un "$ref" à la place. Cela réduit le nombre de cas à traiter dans l'algorithme de génération de code. openapi-client-gen Ce package est dédié à la génération de code côté client afin d'aider les développeurs à consommer les services REST. Il inclut la génération d'un simple HTTP client ou d'une production (business services, processes, ...). Il a été conçu intialement pour supporter swagger version 2.0, mais il a vient d'être complètement remanié pour supporter OpenAPI version 3.0. openapi-server-gen A l'opposé openapi-client-gen, ce package est dédié à la génération de code côté serveur. Il n'a aucun intérêt si vous avez besoin de générer un services REST à partir d'une spécification swagger 2.0. L'objectif de ce package est le support de la version 3.0. openapi-suite Il rassemble tous les packages mentionnés ci-dessus et fournit un API REST afin de: Générer le code et le compiler sur l'instance IRIS. Générer le code sans le compiler dans le but de le télécharger uniquement. Une interface web est également fournie pour consommer cette API REST et ainsi exploiter les fonctionnalités de la suite OpenAPI. Et les bibliothèques? Voici quelques bibliothèques existantes sur OpenExchange qui ont été utilisées dans ce développement : objectscript-openapi-definition Une bibliothèque utile pour générer les modèles à partir d'une spécification OpenAPI. C'est un élément très important de ce projet et je suis aussi un contributeur de ce projet. ssl-client Principalement utilisée pour créer une configuration "DefaultSSL" utilisées pour les requêtes HTTPS. yaml-utils Dans le cas de la spécification du format YAML, cette bibliothèque est utilisée pour la convertir au format JSON. Un must-have dans ce projet. D'ailleurs, elle a été initialement développée pour tester la spécification YAML avec openapi-client-gen version 1. io-redirect C'est une de mes bibliothèques, elle permet de rediriger les écritures vers un fichier, une variable, globale ou une chaîne de caractères. Elle est utilisée par le service REST pour garder un log des actions effectuées. Elle est inspirée par ce post de la communauté. Installation IPM La meilleure solution pour installation OpenAPI-Suite est d'utiliser IPM (zpm). Il y a beaucoup de pacakges et de dépendances. L'utilisation de IPM est très pratique et recommandée. zpm "install openapi-suite" ; optional ; zpm "install swagger-ui" Installation Docker ll n'y a rien de spécial, ce projet utilise le template intersystems-iris-dev-template git clone git@github.com:lscalese/openapi-suite.git cd openapi-suite docker-compose up -d Si vous obtenez une erreur lors du démarrage d'Iris, il peut s'agir d'un problème de permissions avec le fichier iris-main.log. Essayez ceci: touch iris-main.log && chmod 777 iris-main.log Note: ajouter les permissions RW pour l'utilisateur irisowner devrait être suffisant. Comment l'utiliser OpenAPI-Suite fournit une interface web pour "Générer et télécharger" ou "Générer et installer" le code. L'interface est disponible à l'adresse http://localhost:52796/openapisuite/ui/index.csp (*adapter avec votre numéro de port si nécessaire). C'est très simple, il suffit de remplir le formulaire : Nom du paquetage de l'application : c'est le package utilisé pour les classes générées. Il doit s'agir d'un nom de paquet inexistant. Sélectionnez ce que vous voulez générer : client HTTP, une Production ou serveur REST. Sélectionnez l'espace de nom où le code sera généré. Cela n'a d'importance si vous cliquez sur "Installer sur le serveur", sinon ce champs sera ignoré. Le nom de l'application Web est facultatif et n'est disponible que si vous sélectionnez "Server REST" pour la génération. Laissez ce champs vide si vous ne souhaitez pas créer d'application web liée à la classe de distribution REST générée. Le champ "OpenAPI specification" peut être une URL pointant vers la spécification ou un copier-coller de la spécification elle-même (dans ce cas, la spécification doit être au format JSON). Si vous cliquez sur le bouton "Télécharger uniquement", le code sera généré et téléchargé au formatXML, les classes seront ensuite supprimées du serveur. L'espace de nom utilisé pour stocker temporairement les classes générées est celui où OpenAPI-Suite est installé (par défaut IRISAPP si vous utilisez une installation docker). Cependant, si vous cliquez sur le bouton "Installer sur le serveur", le code sera généré et compilé et le serveur renverra un message JSON avec l'état de la génération et compilation du code. Par défaut, cette fonctionnalité est désactivée. Pour l'activer, il suffit d'ouvrir un terminal IRIS et de faire : Set ^openapisuite.config("web","enable-install-onserver") = 1 Explore the OpenAPI-suite REST API Le formulaire CSP utilise les services REST disponibles sur http://localhost:52796/openapisuite. Ouvrez swagger-ui http://localhost:52796/swagger-ui/index.html et explorez http://localhost:52796/openapisuite/_spec Il s'agit de la première étape vers la création d'une application front-end plus avancée avec le framework Angular plus tard. Generate code programmatically Bien sûr, il n'est pas obligatoire d'utiliser l'interface utilisateur, dans cette section nous verrons comment générer du code de manière programmatique et comment utiliser les services générés. Tous les extraits de code sont également disponibles dans la classe dc.openapi.suite.samples.PetStore. HTTP client Set features("simpleHttpClientOnly") = 1 Set sc = ##class(dc.openapi.client.Spec).generateApp("petstoreclient", "https://petstore3.swagger.io/api/v3/openapi.json", .features) Le premier argument est le package dans lequel les classes seront générées, assurez-vous donc de passer un nom de package valide. Le second argument peut être une URL pointant vers la spécification, un nom de fichier, un stream ou un %DynamicObject. "Features" est un array, seuls les clés suivantes sont disponibles: simpleHttpClientOnly: si égal à 1, seul un client HTTP simple sera généré sinon une production sera également générée (comportement par défaut). compile: Si égal à 0, le code généré ne sera pas compilé. Cela peut être utile si vous voulez générer du code uniquement pour l'exportation. Par défaut, compile est égal à 1. Vous trouverez ci-dessous un exemple d'utilisation du service "addPet" avec le client HTTP qui vient d'être généré: Set messageRequest = ##class(petstoreclient.requests.addPet).%New() Set messageRequest.%ContentType = "application/json" Do messageRequest.PetNewObject().%JSONImport({"id":456,"name":"Mittens","photoUrls":["https://static.wikia.nocookie.net/disney/images/c/cb/Profile_-_Mittens.jpg/revision/latest?cb=20200709180903"],"status":"available"}) Set httpClient = ##class(petstoreclient.HttpClient).%New("https://petstore3.swagger.io/api/v3","DefaultSSL") ; MessageResponse will be an instance of petstoreclient.responses.addPet Set sc = httpClient.addPet(messageRequest, .messageResponse) If $$$ISERR(sc) Do $SYSTEM.Status.DisplayError(sc) Quit sc Write !,"Http Status code : ", messageResponse.httpStatusCode,! Do messageResponse.Pet.%JSONExport() Click to show generated classes. Class petstoreclient.HttpClient Extends %RegisteredObject [ ProcedureBlock ] { Parameter SERVER = "https://petstore3.swagger.io/api/v3"; Parameter SSLCONFIGURATION = "DefaultSSL"; Property HttpRequest [ InitialExpression = {##class(%Net.HttpRequest).%New()} ]; Property SSLConfiguration As %String [ InitialExpression = {..#SSLCONFIGURATION} ]; Property Server As %String [ InitialExpression = {..#SERVER} ]; Property URLComponents [ MultiDimensional ]; Method %OnNew(Server As %String, SSLConfiguration As %String) As %Status { Set:$Data(Server) ..Server = Server Set:$Data(SSLConfiguration) ..SSLConfiguration = SSLConfiguration Quit ..InitializeHttpRequestObject() } Method InitializeHttpRequestObject() As %Status { Set ..HttpRequest = ##class(%Net.HttpRequest).%New() Do ##class(%Net.URLParser).Decompose(..Server, .components) Set:$Data(components("host"), host) ..HttpRequest.Server = host Set:$Data(components("port"), port) ..HttpRequest.Port = port Set:$$$LOWER($Get(components("scheme")))="https" ..HttpRequest.Https = $$$YES, ..HttpRequest.SSLConfiguration = ..SSLConfiguration Merge:$Data(components) ..URLComponents = components Quit $$$OK } /// Implement operationId : addPet /// post /pet Method addPet(requestMessage As petstoreclient.requests.addPet, Output responseMessage As petstoreclient.responses.addPet = {##class(petstoreclient.responses.addPet).%New()}) As %Status { Set sc = $$$OK $$$QuitOnError(requestMessage.LoadHttpRequestObject(..HttpRequest)) $$$QuitOnError(..HttpRequest.Send("POST", $Get(..URLComponents("path")) _ requestMessage.%URL)) $$$QuitOnError(responseMessage.LoadFromResponse(..HttpRequest.HttpResponse, "addPet")) Quit sc } ... } Class petstoreclient.requests.addPet Extends %RegisteredObject [ ProcedureBlock ] { Parameter METHOD = "post"; Parameter URL = "/pet"; Property %Consume As %String; Property %ContentType As %String; Property %URL As %String [ InitialExpression = {..#URL} ]; /// Use this property for body content with content-type = application/json.<br/> /// Use this property for body content with content-type = application/xml.<br/> /// Use this property for body content with content-type = application/x-www-form-urlencoded. Property Pet As petstoreclient.model.Pet; /// Load %Net.HttpRequest with this property object. Method LoadHttpRequestObject(ByRef httpRequest As %Net.HttpRequest) As %Status { Set sc = $$$OK Set httpRequest.ContentType = ..%ContentType Do httpRequest.SetHeader("accept", ..%Consume) If $Piece($$$LOWER(..%ContentType),";",1) = "application/json" Do ..Pet.%JSONExportToStream(httpRequest.EntityBody) If $Piece($$$LOWER(..%ContentType),";",1) = "application/xml" Do ..Pet.XMLExportToStream(httpRequest.EntityBody) If $Piece($$$LOWER(..%ContentType),";",1) = "application/x-www-form-urlencoded" { ; To implement. There is no code generation yet for this case. $$$ThrowStatus($$$ERROR($$$NotImplemented)) } Quit sc } } Class petstoreclient.responses.addPet Extends petstoreclient.responses.GenericResponse [ ProcedureBlock ] { /// http status code = 200 content-type = application/xml /// http status code = 200 content-type = application/json /// Property Pet As petstoreclient.model.Pet; /// Implement operationId : addPet /// post /pet Method LoadFromResponse(httpResponse As %Net.HttpResponse, caller As %String = "") As %Status { Set sc = $$$OK Do ##super(httpResponse, caller) If $$$LOWER($Piece(httpResponse.ContentType,";",1))="application/xml",httpResponse.StatusCode = "200" { $$$ThrowStatus($$$ERROR($$$NotImplemented)) } If $$$LOWER($Piece(httpResponse.ContentType,";",1))="application/json",httpResponse.StatusCode = "200" { Set ..Pet = ##class(petstoreclient.model.Pet).%New() Do ..Pet.%JSONImport(httpResponse.Data) Return sc } Quit sc } } Production Client Set sc = ##class(dc.openapi.client.Spec).generateApp("petstoreproduction", "https://petstore3.swagger.io/api/v3/openapi.json") Le premier argument est le nom du paquet, si vous testez la génération de code du client HTTP simple et la production du client, assurez-vous d'utiliser un nom de paquet différent. Le deuxième et le troisième suivent les mêmes règles que le client HTTP. Avant de tester, veuillez démarrer la production via le portail d'administration ou en utilisant cette commande dans un terminal IRIS: Do ##class(Ens.Director).StartProduction("petstoreproduction.Production") Vous trouverez ci-dessous un exemple d'utilisation du service "addPet", mais cette fois avec la production générée Set messageRequest = ##class(petstoreproduction.requests.addPet).%New() Set messageRequest.%ContentType = "application/json" Do messageRequest.PetNewObject().%JSONImport({"id":123,"name":"Kitty Galore","photoUrls":["https://www.tippett.com/wp-content/uploads/2017/01/ca2DC049.130.1264.jpg"],"status":"pending"}) ; MessageResponse will be an instance of petstoreclient.responses.addPet Set sc = ##class(petstoreproduction.Utils).invokeHostSync("petstoreproduction.bp.SyncProcess", messageRequest, "petstoreproduction.bs.ProxyService", , .messageResponse) Write !, "Take a look in visual trace (management portal)" If $$$ISERR(sc) Do $SYSTEM.Status.DisplayError(sc) Write !,"Http Status code : ", messageResponse.httpStatusCode,! Do messageResponse.Pet.%JSONExport() Maintenant, vous pouvez ouvrir la trace visuelle et voir les détails: Les classes générées dans les packages "model", "requests" et "responses" sont assez similaires au code généré pour un simple client HTTP. Les classes du package requests héritent de "Ens.Request" et les classes du package "responses" héritent de "Ens.Response". L'implémentation par défaut du "Business Operation" est très simple : Class petstoreproduction.bo.Operation Extends Ens.BusinessOperation [ ProcedureBlock ] { Parameter ADAPTER = "EnsLib.HTTP.OutboundAdapter"; Property Adapter As EnsLib.HTTP.OutboundAdapter; /// Implement operationId : addPet /// post /pet Method addPet(requestMessage As petstoreproduction.requests.addPet, Output responseMessage As petstoreproduction.responses.addPet) As %Status { Set sc = $$$OK, pHttpRequestIn = ##class(%Net.HttpRequest).%New(), responseMessage = ##class(petstoreproduction.responses.addPet).%New() $$$QuitOnError(requestMessage.LoadHttpRequestObject(pHttpRequestIn)) $$$QuitOnError(..Adapter.SendFormDataArray(.pHttpResponse, "post", pHttpRequestIn, , , ..Adapter.URL_requestMessage.%URL)) $$$QuitOnError(responseMessage.LoadFromResponse(pHttpResponse, "addPet")) Quit sc } ... } } Génération de serveur REST Set sc = ##class(dc.openapi.server.ServerAppGenerator).Generate("petstoreserver", "https://petstore3.swagger.io/api/v3/openapi.json", "/petstore/api") Le premier argument est le nom du package pour générer les classes. Le second suit les mêmes règles que le client HTTP. Le troisième argument n'est pas obligatoire, mais s'il est présent, une application web sera créée avec le nom donné (attention à bien donner un nom d'application web valide). La classe "petstoreserver.disp" (classe de dispatch %CSP.REST) ressemble à un code généré par ^%REST, effectue de nombreuses vérifications pour accepter ou rejeter la requête et appelle l'implémentation "ClassMethod" du service correspondant dans la classe "petstoreserver.impl". Pour les développeurs déjà familiarisé avec le code généré par ^%REST, la principale différence est l'argument passé à la méthode d'implémentation, il s'agit de l'objet "petstoreserver.requests". Exemple : Class petstoreserver.disp Extends %CSP.REST [ ProcedureBlock ] { Parameter CHARSET = "utf-8"; Parameter CONVERTINPUTSTREAM = 1; Parameter IgnoreWrites = 1; Parameter SpecificationClass = "petstoreserver.Spec"; /// Process request post /pet ClassMethod addPet() As %Status { Set sc = $$$OK Try{ Set acceptedMedia = $ListFromString("application/json,application/xml,application/x-www-form-urlencoded") If '$ListFind(acceptedMedia,$$$LOWER(%request.ContentType)) { Do ##class(%REST.Impl).%ReportRESTError(..#HTTP415UNSUPPORTEDMEDIATYPE,$$$ERROR($$$RESTContentType,%request.ContentType)) Quit } Do ##class(%REST.Impl).%SetContentType($Get(%request.CgiEnvs("HTTP_ACCEPT"))) If '##class(%REST.Impl).%CheckAccepts("application/xml,application/json") Do ##class(%REST.Impl).%ReportRESTError(..#HTTP406NOTACCEPTABLE,$$$ERROR($$$RESTBadAccepts)) Quit If '$isobject(%request.Content) Do ##class(%REST.Impl).%ReportRESTError(..#HTTP400BADREQUEST,$$$ERROR($$$RESTRequired,"body")) Quit Set requestMessage = ##class(petstoreserver.requests.addPet).%New() Do requestMessage.LoadFromRequest(%request) Set scValidateRequest = requestMessage.RequestValidate() If $$$ISERR(scValidateRequest) Do ##class(%REST.Impl).%ReportRESTError(..#HTTP400BADREQUEST,$$$ERROR(5001,"Invalid requestMessage object.")) Quit Set response = ##class(petstoreserver.impl).addPet(requestMessage) Do ##class(petstoreserver.impl).%WriteResponse(response) } Catch(ex) { Do ##class(%REST.Impl).%ReportRESTError(..#HTTP500INTERNALSERVERERROR,ex.AsStatus(),$parameter("petstoreserver.impl","ExposeServerExceptions")) } Quit sc } ... } Comme vous pouvez le voir, la classe de répartition appelle "LoadFromRequest" et "RequestValidate" avant d'appeler la méthode d'implémentation. Ces méthodes ont une implémentation par défaut, mais le générateur de code ne peut pas couvrir tous les cas. Actuellement, les cas les plus courants sont automatiquement traités comme les paramètres "query", "headers", "path" et body avec le type de contenu "application/json", "application/octet-stream", "application/xml" ou "multipart/form-data". Le développeur doit vérifier l'implémentation (par défaut, le générateur de code définit $$$ThrowStatus($$$ERROR($$$NotImplemented)) pour les cas non pris en charge). Example of request class : Class petstoreserver.requests.addPet Extends %RegisteredObject [ ProcedureBlock ] { Parameter METHOD = "post"; Parameter URL = "/pet"; Property %Consume As %String; Property %ContentType As %String; Property %URL As %String [ InitialExpression = {..#URL} ]; /// Use this property for body content with content-type = application/json.<br/> /// Use this property for body content with content-type = application/xml.<br/> /// Use this property for body content with content-type = application/x-www-form-urlencoded. Property Pet As petstoreserver.model.Pet; /// Load object properties from %CSP.Request object. Method LoadFromRequest(request As %CSP.Request = {%request}) As %Status { Set sc = $$$OK Set ..%ContentType = $Piece(request.ContentType, ";", 1) If ..%ContentType = "application/json"{ Do ..PetNewObject().%JSONImport(request.Content) } If ..%ContentType = "application/xml" { ; To implement. There is no code generation yet for this case. $$$ThrowStatus($$$ERROR($$$NotImplemented)) } If ..%ContentType = "application/x-www-form-urlencoded" { ; To implement. There is no code generation yet for this case. $$$ThrowStatus($$$ERROR($$$NotImplemented)) } Quit sc } /// Load object properties from %CSP.Request object. Method RequestValidate() As %Status { Set sc = $$$OK $$$QuitOnError(..%ValidateObject()) If ''$ListFind($ListFromString("application/json,application/xml,application/x-www-form-urlencoded"), ..%ContentType) { Quit:..Pet="" $$$ERROR(5659, "Pet") } If $IsObject(..Pet) $$$QuitOnError(..Pet.%ValidateObject()) Quit sc } } Comme pour l'utilisation de ^%REST, la classe "petstoreserver.impl" contient toutes les méthodes liées aux services que le développeur doit implémenter. Class petstoreserver.impl Extends %REST.Impl [ ProcedureBlock ] { Parameter ExposeServerExceptions = 1; /// Service implemntation for post /pet ClassMethod addPet(messageRequest As petstoreserver.requests.addPet) As %Status { ; Implement your service here. ; Return {} $$$ThrowStatus($$$ERROR($$$NotImplemented)) } ... } Short description of the generated packages Package name \ Class Name Type Description petstoreclient.model petstoreproduction.model Client-side and server-side Il contient tous les modèles. Ces classes étendent %JSON.Adaptor pour faciliter le chargement des objets à partir de JSON. Si une production est générée, ces classes étendent également %Persistent. petstoreclient.requests petstoreproduction.requests Client-side and server-side Objet utilisé pour initialiser facilement %Net.HttpRequest. Il existe une classe par opération définie dans la spécification.Dans le cas d'une production, ces classes étendent Ens.Request. Note: L'implémentation de cette classe est différente si elle est générée pour le côté serveur ou le côté client. Dans le cas du côté client, toutes les classes contienent la méthode "LoadHttpRequestObject" permettant de charger un "%Net.HttpRequest" à partir des propriétés de cette classe. Si les classes sont générées à des fins côté serveur, chaque classe contient une méthode "LoadFromRequest" permettant de charger l'instance à partir de l'objet "%request". petstoreclient.responses petstoreproduction.responses Client-side and server-side C'est l'opposé de "petstoreclient.requests". Elle permet de manipuler la réponse d'une requête %Net.HttpRequest. S'il s'agit d'une production, ces classes étendent Ens.Response. petstoreclient.HttpClient Client-side Contient toutes les méthodes pour exécuter les requêtes HTTP, il y a une méthode par opération définie dans la spécification OpenAPI. petstoreproduction. bo.Operation Client-side La classe Operation possède une méthode par opération définie dans la spécification OpenAPI. petstoreproduction.bp Client-side Deux business process par défaut sont définis : sync et async. petstoreproduction.bs Client-side Contient tous les services vides donc à implémenter par le développeur. petstoreproduction.Production Client-side Contient les paramètres de la production. petstoreserver.disp Server-side Classe de dispatch %CSP.REST. petstoreserver.Spec Server-side Cette classe contient la spécification OpenAPI dans un block XData. petstoreserver.impl Server-side It contains all empty methods related to operations defined in the OpenAPI specification. This is the class (extend %REST.Impl) where developers have to implement services. Elle contient toutes les méthodes vides liées aux opérations définies dans la spécification OpenAPI. Le développeur devra implémenter les méthodes. Statut du développement OpenAPI-Suite est encore un produit très jeune et a besoin d'être plus testé et amélioré. Le support d'OpenAPI 3 est partiel, l'implémentation pourrait être plus complète. Les tests ont été effectués avec la spécification publique https://petstore3.swagger.io/api/v3/openapi.json et deux autres relativement simples. Bien sûr, ce n'est pas suffisant pour couvrir tous les cas. Si vous avez des spécifications à partager, je serais heureux de les utiliser pour mes tests. Je pense que la base du projet est bonne et qu'il peut facilement évoluer, par exemple, être étendu pour supporter AsyncAPI. J'espère que vous apprécierez cette application et n'hésitez pas à laisser des commentaires. Merci pour votre attention.
Article
Lorenzo Scalese · Jan 9, 2023

Nouvelles extensions SDA de HealthShare

## **Création et utilisation des nouvelles extensions SDA pour le stockage d'éléments de données personnalisés** Dans HSCore 15.01, il existe une nouvelle façon de stocker les éléments de données personnalisés.  HealthShare peut désormais utiliser des extensions personnalisées pour de nombreux éléments SDA. Cet article a pour but de : 1. Montrer comment configurer votre système pour utiliser les extensions SDA. 2. Créer une nouvelle propriété d'extension SDA 3. Utiliser la nouvelle propriété d'extension SDA dans les transactions HL7 4. Interagir avec les nouvelles données 5. Montrer la nouvelle extension SDA utilisée dans une personnalisation du Rapport de résumé du patient (Patient Summary Report).       Note: Pour cet article, je me sers de build : HS-2016.1.1.108.0-hscore15.01_hsaa15_hspi15_hsviewer15.01_linkage15-b2136-win_x64 J'ai également créé le système en utilisant “d ##class(HS.Util.Installer).InstallBusDemo()”     ### Configurez votre système pour les extensions SDA   Cette section décrit comment configurer les extensions SDA pour un environnement HSCore 15.01.   **Création d'un nouvel espace de noms**   Dans le cadre des nouvelles extensions SDA, le nom de l'espace de noms personnalisé doit être **HSCUSTOM**. Vous pouvez l'ajouter en allant dans : Management Portal->System Administration->Configuration->System Configuration->Namespaces (Portail de gestion->Administration du système->Configuration->Configuration du système->Espaces de noms). Étapes pour créer un nouvel espace de noms : 1. Cliquez sur le bouton "Create New Namespace" (créer un nouvel espace de noms). 2. Entrez HSCUSTOM dans le champ “Name of the namespace” (Nom de l'espace de noms) (obligatoire). 3. Sélectionnez le bouton "Create New Database" (Créer une nouvelle base de données) Saisissez HSCUSTOM dans le champ "Enter the name of your database" (Entrez le nom de votre base de données). Pour le champ “Database directory” (Répertoire de la base de données) : Cliquez sur le bouton "Browse...". Créez un nouveau dossier/répertoire, j'ai nommé mon répertoire "HSCUSTOM", il se trouve dans le répertoire “mgr”. Cliquez sur le bouton “OK” Cliquez sur le bouton “Next” Acceptez les valeurs par défaut, et cliquez sur le bouton "Next". Créez une nouvelle ressource appelée %DB_HSCUSTOM et octroyez-lui des droits de lecture et d'écriture Cliquez sur le bouton "Finish" (terminer). 4.  De retour à l'écran "New Namespace" (nouvel espace de noms), cliquez sur le bouton "Save" (enregistrer). Cette procédure a pour effet de créer un nouvel espace de noms HSCUSTOM avec tous les mappings par défaut.   Exportation du paquet HS.Local Une des choses que nous devons faire est de copier les classes et le code de la base de données HSLIB vers la base de données HSCUSTOM. Vous pouvez le faire de plusieurs façons.  Je vais vous parler de la façon de le faire à partir de Studio ou de Terminal. Exportation à partir de Studio : 1. Connectez-vous à Studio 2. Changez l'espace de noms en espace de noms HSLIB (remarque : ceci peut être fait à partir de n'importe quel espace de noms qui a un paquetage HS mappé à HSLIB) 3. Allez dans le menu "Tools->Export" (outils - exportation). 4. Cliquez sur le bouton "Add" (ajouter) 5. Sélectionnez le dossier HS/Local, sélectionnez tout et cliquez sur le bouton "Open" (ouvrir). 6. Cela va tout sélectionner 7. Sélectionnez un fichier local ou distant pour exporter ces classes * Dans cet exemple, j'ai nommé le fichier "HSLocal.xml"       8.  Cliquez sur le bouton "OK".  Exportation à partir d'une session Terminal : 1. Connectez-vous à Terminal 2. Changez l'espace de noms en espace de noms HSLIB ( remarque : ceci peut être fait à partir de n'importe quel espace de noms qui a un paquetage HS mappé à HSLIB ) 3. HSLIB>d $system.OBJ.Export("HS.Local.*.cls","C:\Intersystems\Export\HSLocal.xml")   Ajoutez une nouvelle cartographie de paquet Le paquet "HS.Local" doit être référencé à partir du nouvel espace de noms HSCUSTOM.  Lorsque HSCUSTOM sera créé, "HS" sera mappé vers HSLIB.  Vous devrez ajouter "HS.Local" à l'espace de noms HSCUSTOM, car il est actuellement pointé vers HSLIB. Vous pouvez le faire manuellement via le Management Portal (Portail de gestion) ou de manière programmatique. Management Portal (Portail de gestion) : 1. Allez dans le Portail de gestion->Administration du système->Configuration->Configuration du système->Espaces de noms. 2. Recherchez HSCUSTOM dans la colonne des espaces de noms et sélectionnez le lien "Package Mapping". 3. Cliquez sur le bouton "New" 4. Sélectionnez **HSCUSTOM** dans le menu déroulant "Pakage Database Location" (location de la base de données de paquet) 5. Sélectionnez le bouton radio "Specify a new package” (Spécifier un nouveau paquet). 6. Entrez HS.Local dans le champ "Packaga Name" (Nom du paquet)          7. Cliquez sur le bouton "OK" Par programmation : Vous pouvez créer du code pour ajouter ce mappage à un espace de noms. 1. Déplacez-vous vers l'espace de noms %SYS * HSCUSTOM> ZN “%SYS” 2. Définissez la propriété de la base de données * %SYS> set tProperties("Database")="HSCUSTOM" 3. Créez le mappage * %SYS>w ##class(Config.MapPackages).Create("HSCUSTOM","HS.Local",.tProperties) _**Remarque:**_  Vous devrez le faire pour chaque espace de noms et instance qui est un espace de noms HealthShare, à l'exception des espaces de noms Library.   Il est important d'avoir ces mappages pour que les autres espaces de noms puissent accéder au code HSCUSTOM à utiliser dans leur traitement, comme les applications telles que Patient Index et Health Insight.   Importation du paquet HS.Local Maintenant que les paquets HS.Local pointent vers HSCUSTOM, vous pouvez déplacer les classes que nous avons exportées précédemment dans l'espace de noms HSCUSTOM. Vous pouvez le faire de plusieurs façons.  Je vais vous parler de la façon de le faire à partir de Studio ou de Terminal. Importation à partir de Studio: 1. Connectez-vous à Studio 2. Changez l'espace de noms en espace de noms HSCUSTOM. 3. Allez dans le menu Tools->Import Local (Outils->Importer Local). 4. Sélectionnez le fichier que vous avez exporté 5. Appuyez sur le bouton "Open" (ouvrir). 6. Vous devriez voir toutes les classes cochées et l'option "Compile Imported Items" (Compiler les éléments importés) cochée.      7.  Cliquez sur le bouton "OK".  Importation à partir d'une session Terminal : 1. Connectez-vous à Terminal 2. Changer l'espace de noms en HSCUSTOM 3. HSLIB>d $system.OBJ.Load("C:\Intersystems\Export\HSLocal.xml",”ck”)   Résumé Nous avons maintenant l'infrastructure pour les nouvelles extensions SDA personnalisées de HSCore 15.01.  Nous avons les classes HS.Local définies dans une nouvelle base de données HSCUSTOM et nous avons tous les espaces de noms qui pointent vers la localisation appropriée. Si vous avez plus d'une instance de cache, l'espace de noms HSCUSTOM et les mappages HS.Local doivent se trouver sur chaque instance qui exécute HealthShare.     ### Création d'une nouvelle extension SDA personnalisée Maintenant que nous avons les éléments nécessaires, nous allons créer une nouvelle propriété personnalisée. Nous allons commencer par créer une propriété personnalisée pour le Patient SDA (SDA du patient). En regardant les annotations HL7, il semble que "Veterans Military Status" (statut militaire des vétérans), qui est le PID, pièce 27, n'est pas utilisé dans SDA, alors essayons de créer ceci comme notre extension SDA personnalisée. Comme la pièce PID 27 est un champ d'entrée codé, nous allons montrer que les nouvelles extensions SDA personnalisées sont plus que la paire nom/valeur précédente, il s'agit maintenant d'un type de données plus complexe.  Dans cet exemple, nous créons un type de propriété personnalisé.   Edit HS.Local.SDA3.PatientExtension.cls Nous devons ajouter la nouvelle propriété à HS.Local.SDA3.PatientExtension.cls 1. Connectez-vous à Studio 2. Changez l'espace de noms en HSCUSTOM 3. Modifiez HS.Local.SDA3.PatientExtension.cls 4. Ajouter une classe personnalisée "Custom Class" * Cette classe représente un type de données complexe qui aura : * Champ de code * Description du Champ ![]()     5.   Ajoutez la propriété VeteransMilitaryStatus * Propriété VeteransMilitaryStatus En tant que CUSTOM.SDA3.CodeTableDetail.VeteransMilitaryStatus; ![]()       6.  Compilez HS.Local.SDA3.PatientExtension.cls       7.  Compilez la classe HS.SDA3.Patient       8.  Compilez la classe HS.Registry.Patient Cette propriété est maintenant disponible pour être ajoutée/modifiée/supprimée à partir du streamlet SDA. Utiliser la nouvelle propriété d'extension SDA dans les transactions HL7 Avant de pouvoir utiliser la propriété d'extension SDA, nous devons créer une nouvelle classe personnalisée qui étendra la classe HS.Gateway.HL7.HL7ToSDA3.  Ce code sera exécuté sur la passerelle EDGE. Voici un exemple de code de la nouvelle classe personnalisée : Class CUSTOM.Gateway.HL7.HL7ToSDA3 Extends HS.Gateway.HL7.HL7ToSDA3 [ Not ProcedureBlock ] { /// Méthode de rappel pour le traitement personnalisé du streamlet Patient ClassMethod OnPatient() { do ..write(cr_"<Extension>") set tVMSCode = $$$xml($g(^||d(s,27,1))) set tVMSDescription = $$$xml($g(^||d(s,27,2))) if tVMSCode'="" { do ..write(cr_"<VeteransMilitaryStatus>") do ..write(cr_""_tVMSCode_"") do ..write(cr_"<Description>"_tVMSDescription_"</Description>") do ..write(cr_"</VeteransMilitaryStatus>") } do ..write(cr_"</Extension>") Quit } Mise à jour de Production de Edge Gateway Ensemble. Modifiez l'opération : HS.Gateway.HL7.InboundProcess et changez le paramètre "HL7ToSDA3Class" pour utiliser la nouvelle classe que nous venons de créer. Cliquez sur le bouton "Apply" (appliquer) pour enregistrer les modifications.   Nous utilisons le message HL7 suivant :  (Notez que la pièce PID 27 a une valeur de "V^Veteran") MSH|^~\&||HC6|||||ADT^A04|||2.5 EVN|A04|20160711094500 PID|||STM123^^^HC6^MR||Bolton^George||19271014|M|||1 Memorial Drive^^Cambridge^MA^02142||||||||028345081||||||||V^Veteran   Nous traitons maintenant ce HL7 sur une passerelle Edge Gateway. Maintenant si nous regardons la trace, nous pouvons voir nos données dans le <Patient> SDA.![]() ![](
Article
Sylvain Guilbaud · Avr 25

Sécurisation des interfaces HL7 avec des certificats SSL/TLS (X.509)

## TLS, qu'est-ce que c'est ? La TLS (Transport Layer Security ou "Sécurité de la couche de transport"), qui succède à SSL (Secure Sockets Layer ou "Couche de sockets sécurisée"), fournit de la sécurité (c'est-à-dire le chiffrement et l'authentification) sur une connexion TCP/IP. Si vous avez déjà remarqué le "s" sur les URLs "https" vous avez reconnu une connexion HTTP "sécurisée" par SSL/TLS. Dans le passé, seules les pages de connexion/autorisation sur le web utilisaient TLS, mais dans l'environnement hostile d'Internet d'aujourd'hui, les meilleures pratiques indiquent que nous devrions sécuriser toutes les connexions avec TLS. ## Pourquoi utiliser TLS? Alors, pourquoi mettre en œuvre TLS pour les connexions HL7 ? Alors que les violations de données, les rançongiciels et les vulnérabilités sont de plus en plus fréquents, chaque mesure que vous prenez pour renforcer la sécurité de ces précieuses sources de données devient plus cruciale. La TLS est une méthode éprouvée et bien comprise pour protéger les données en transit. TLS fournit deux fonctionnalités principales qui nous sont bénéfiques : 1) le chiffrement et 2) l'authentification. ### Chiffrement Le chiffrement transforme les données en cours de transfert de sorte que seules les deux parties engagées dans la communication peuvent lire/comprendre les informations échangées. Dans la plupart des cas, seules les applications impliquées dans la connexion TLS peuvent interpréter les données transférées. Cela signifie que les acteurs malveillants opérant sur les serveurs ou réseaux de communication ne pourront pas lire les données, même s'ils parviennent à capturer les paquets TCP bruts à l'aide d'un renifleur de paquets (wiretap, wireshark, tcpdump, etc.). ![Without TLS](/sites/default/files/inline/images/without_tls.gif "Without TLS") ### Authentification L'authentification garantit que chaque partie communique avec la partie prévue et non avec un imposteur. En s'appuyant sur l'échange de certificats (et la vérification de la preuve de propriété associée qui s'est produite lors d'un handshake TLS), lorsque vous utilisez TLS, vous pouvez être sûr que vous échangez des données avec une partie de confiance. Plusieurs attaques consistent à tromper un serveur pour qu'il communique avec un acteur malveillant en redirigeant le trafic vers le mauvais serveur (par exemple, l'emploi de DNS et d'ARP poisoning) Lorsque TLS est impliqué, les imposteurs doivent non seulement rediriger le trafic, mais aussi voler les certificats et les clés appartenant à la partie de confiance. L'authentification protège non seulement contre les attaques intentionnelles de pirates informatiques ou de acteurs malveillants, mais aussi contre les erreurs de configuration accidentelles qui pourraient envoyer des données vers le ou les mauvais systèmes. Par exemple, si vous attribuez accidentellement l'adresse IP d'une connexion HL7 à un serveur qui n'utilise pas le certificat attendu, la vérification de la négociation TLS échouera avant l'envoi de données vers ce mauvais serveur. #### Vérification d'hôte Lors de la vérification, les clients ont la possibilité d'effectuer une vérification d'hôte. Cette vérification compare l'adresse IP ou le nom d'hôte utilisé dans la connexion avec les adresses IP et les noms d'hôte intégrés dans le certificat. Si cette vérification est activée et que l'adresse IP/l'hôte de la connexion ne correspond pas à une adresse IP/un hôte figurant dans le certificat, le handshake TLS échouera. Vous trouverez les adresses IP et les noms d'hôte dans les champs X.509 « Subject » et « Subject Alternative Name » présentés ci-dessous. #### Preuve de la propriété d'un certificat avec une clé privée Pour prouver la propriété des certificats échangés avec TLS, vous devez également avoir accès à la clé privée liée à la clé publique intégrée au certificat. Nous ne discuterons pas de la cryptographie employée pour la preuve de propriété avec une clé privée, mais vous devez savoir que l'accès à la clé privée de votre certificat est nécessaire pendant le handshake TLS. #### TLS mutuel Pour la plupart des connexions https établies par votre navigateur web, seul le certificat d'authenticité du serveur web est vérifié. Normalement, les serveurs web n'authentifient pas le client avec des certificats. Au lieu de cela, la plupart des serveurs web s'appuient sur l'authentification du client au niveau de l'application (formulaires de connexion, cookies, mots de passe, etc.). Avec HL7, il est préférable que les deux côtés de la connexion soient authentifiés. Lorsque les deux côtés sont authentifiés, on parle de «TLS mutuel». Avec le TLS mutuel, le serveur et le client échangent leurs certificats et l'autre côté vérifie les certificats fournis avant de poursuivre la connexion et l'échange de données. ## X.509 Certificats ### X.509 Champs du certificat Pour fournir le cryptage et l'authentification, les informations sur la clé publique et l'identité de chaque partie sont échangées dans des certificats [X.509] (https://en.wikipedia.org/wiki/X.509). Vous trouverez ci-dessous certains champs courants d'un certificat X.509 qui nous intéresseront: - `Serial Number`: numéro unique à un CA qui identifie ce certificat spécifique - `Subject Public Key Info`: clé publique du propriétaire - `Subject`: nom distinctif (DN) du serveur/service représenté par ce certificat - Ce champ peut être vide si des "Subject Alternative Names" (noms alternatifs du sujet) sont fournis. - `Issuer`: nom distinctif (DN) du CA qui a émis/signé ce certifica - `Validity Not Before`: date de mise en vigueur de ce certificat - `Validity Not After`: date d'expiration de ce certificat - `Basic Constraints`: indique s'il s'agit d'un CA ou non - `Key Usage`: l'utilisation prévue de la clé publique fournie par ce certificat - Valeurs d'exemple: digitalSignature, contentCommitment, keyEncipherment, dataEncipherment, keyAgreement, keyCertSign, cRLSign, encipherOnly, decipherOnly - `Extended Key Usage`: utilisations supplémentaires prévues de la clé publique fournie par ce certificat - Valeurs d'exemple: serverAuth, clientAuth, codeSigning, emailProtection, timeStamping, OCSPSigning, ipsecIKE, msCodeInd, msCodeCom, msCTLSign, msEFS - Pour les connexions TLS mutuelles, les deux modes d'utilisation serverAuth et clientAuth sont nécessaires. - `Subject Key Identifier`: identifie la clé publique du sujet fournie par ce certificat - `Authority Key Identifier`: identifie la clé publique du fournisseur utilisée pour vérifier ce certificat - `Subject Alternative Name`: contient un ou plusieurs noms alternatifs pour ce sujet - Les noms `DNS` et les adresses `IP` sont des noms alternatifs fréquemment fournis dans ce champ. - `Subject Alternative Name` est parfois abrégé en `SAN`. - Le nom DNS ou l'adresse IP utilisés dans la connexion doivent figurer dans cette liste ou dans le `Common Name` du `Subject` pour que la vérification de l'hôte soit réussie. #### Noms distingués Les champs `Subject` (Sujet) et `Issuer` (Émetteur) d'un certificat X.509 sont définis comme des `Distinguished Names` (DN, Noms Distingués). Les noms distingués sont constitués de plusieurs attributs, chaque attribut ayant le format `=`. Voici une liste non exhaustive des attributs courants que l'on trouve dans les champs `Subject` et `Issuer` | Abréviation | Nom | Exemple | Remarques | |--------------|--------------------|-----------------------|-----------------------------| |CN |Nom commun | CN=server1.domain.com | Le nom de domaine complet (FQDN) d'un serveur/service | |C |Pays | C=US | Code pays à deux caractères |ST |État (ou province) | ST=Massachusetts | Nom complet de l'état/province |L |Localité | L=Cambridge | Ville, région, etc. |O |Organisation | O=Best Corporation | Nom de l'organisation |OU |Unité opérationnelle| OU=Finance | Départment, division, etc. Selon les exemples du tableau ci-dessus, le DN complet pour cet exemple serait `C=US, ST=Massachusetts, L=Cambridge, O=Best Corporation, OU=Finance, CN=server1.domain.com` Notez que le `Common Name` (nom commun) trouvé dans le `Subject` (sujet) est utilisé lors de la vérification de l'hôte et correspond normalement au nom de domaine complet (FQDN) du serveur ou du service associé au certificat. Les `Subject Alternative Names` (noms alternatifs du sujet) du certificat peuvent également être utilisés lors de la vérification de l'hôte. #### Expiration du certificat Les champs `Validity Not Before` (Validité avant la date) et `Validity Not After` (Validité après la date) du certificat fournissent une plage de dates entre lesquelles le certificat est valide Normalement, les certificats feuille ont une validité d'un ou deux ans (bien que les sites Web soient encouragés à réduire leurs délais d'expiration à des périodes beaucoup plus courtes). Les autorités de certification ont généralement un délai d'expiration de plusieurs années. L'expiration des certificats est une fonctionnalité TLS nécessaire mais peu pratique. Avant d'ajouter TLS à vos connexions HL7, assurez-vous d'avoir un plan pour remplacer les certificats avant leur expiration. Une fois qu'un certificat expire, vous ne pourrez plus établir de connexion TLS à l'aide de celui-ci. ### Formats de certificat X.509 Les champs de ces certificats X.509 (ainsi que d'autres) sont structurés suivant le format [ASN.1](https://en.wikipedia.org/wiki/ASN.1) et généralement enregistrés dans l'un des formats de fichier suivants : - [DER] (https://en.wikipedia.org/wiki/Distinguished_Encoding_Rules) (format binaire) - [PEM] (https://en.wikipedia.org/wiki/Privacy-Enhanced_Mail) (base64) Exemple d'encodage PEM d'un certificat X.509: ``` -----BEGIN CERTIFICATE----- MIIEVTCCAz2gAwIBAgIQMm4hDSrdNjwKZtu3NtAA9DANBgkqhkiG9w0BAQsFADA7 MQswCQYDVQQGEwJVUzEeMBwGA1UEChMVR29vZ2xlIFRydXN0IFNlcnZpY2VzMQww CgYDVQQDEwNXUjIwHhcNMjUwMTIwMDgzNzU0WhcNMjUwNDE0MDgzNzUzWjAZMRcw FQYDVQQDEw53d3cuZ29vZ2xlLmNvbTBZMBMGByqGSM49AgEGCCqGSM49AwEHA0IA BDx/pIz8HwLWsWg16BG6YqeIYBGof9fn6z6QwQ2v6skSaJ9+0UaduP4J3K61Vn2v US108M0Uo1R1PGkTvVlo+C+jggJAMIICPDAOBgNVHQ8BAf8EBAMCB4AwEwYDVR0l BAwwCgYIKwYBBQUHAwEwDAYDVR0TAQH/BAIwADAdBgNVHQ4EFgQU3rId2EvtObeF NL+Beadr56BlVZYwHwYDVR0jBBgwFoAU3hse7XkV1D43JMMhu+w0OW1CsjAwWAYI KwYBBQUHAQEETDBKMCEGCCsGAQUFBzABhhVodHRwOi8vby5wa2kuZ29vZy93cjIw JQYIKwYBBQUHMAKGGWh0dHA6Ly9pLnBraS5nb29nL3dyMi5jcnQwGQYDVR0RBBIw EIIOd3d3Lmdvb2dsZS5jb20wEwYDVR0gBAwwCjAIBgZngQwBAgEwNgYDVR0fBC8w LTAroCmgJ4YlaHR0cDovL2MucGtpLmdvb2cvd3IyLzlVVmJOMHc1RTZZLmNybDCC AQMGCisGAQQB1nkCBAIEgfQEgfEA7wB2AE51oydcmhDDOFts1N8/Uusd8OCOG41p wLH6ZLFimjnfAAABlIMTadcAAAQDAEcwRQIgf6SEH+xVO+nGDd0wHlOyVTbmCwUH ADj7BJaSQDR1imsCIQDjJjt0NunwXS4IVp8BP0+1sx1BH6vaxgMFOATepoVlCwB1 AObSMWNAd4zBEEEG13G5zsHSQPaWhIb7uocyHf0eN45QAAABlIMTaeUAAAQDAEYw RAIgBNtbWviWZQGIXLj6AIEoFKYQW4pmwjEfkQfB1txFV20CIHeouBJ1pYp6HY/n 3FqtzC34hFbgdMhhzosXRC8+9qfGMA0GCSqGSIb3DQEBCwUAA4IBAQCHB09Uz2gM A/gRNfsyUYvFJ9J2lHCaUg/FT0OncW1WYqfnYjCxTlS6agVUPV7oIsLal52ZfYZU lNZPu3r012S9C/gIAfdmnnpJEG7QmbDQZyjF7L59nEoJ80c/D3Rdk9iH45sFIdYK USAO1VeH6O+kAtFN5/UYxyHJB5sDJ9Cl0Y1t91O1vZ4/PFdMv0HvlTA2nyCsGHu9 9PKS0tM1+uAT6/9abtqCBgojVp6/1jpx3sx3FqMtBSiB8QhsIiMa3X0Pu4t0HZ5j YcAkxtIVpNJ8h50L/52PySJhW4gKm77xNCnAhAYCdX0sx76eKBxB4NqMdCR945HW tDUHX+LWiuJX -----END CERTIFICATE----- ``` Comme vous pouvez le voir, l'encodage PEM ajoute -----BEGIN CERTIFICATE----- et -----END CERTIFICATE----- aux données ASN.1 du certificat encodées en base64. ## Établir la confiance avec les autorités de certification Sur l'Internet ouvert, il serait impossible pour votre navigateur Web de connaître et de faire confiance au certificat de chaque site Web. Il y en a tout simplement trop! Pour contourner ce problème, votre navigateur Web délègue la confiance à un ensemble prédéterminé d'autorités de certification (AC). Les autorités de certification sont des entités qui vérifient qu'une personne demandant un certificat pour un site Web ou un domaine est bien propriétaire et responsable du serveur, du domaine ou des activités commerciales associés à la demande de certificat. Une fois que l'autorité de certification a vérifié un propriétaire, elle est en mesure d'émettre le certificat demandé. Chaque autorité de certification est représentée par un ou plusieurs certificats X.509. Ces certificats CA sont utilisés pour signer tous les certificats émis par la CA. Si vous regardez dans le champ `Issuer` (Émetteur) d'un certificat X.509, vous trouverez une référence au certificat CA qui a créé et signé ce certificat. Si un certificat est créé sans autorité de certification, il est appelé certificat *auto-signé*. Vous savez qu'un certificat est auto-signé si les champs `Subject` (Sujet) et `Issuer` (Émetteur) du certificat sont identiques. En général, la CA crée un certificat `root` (racine) auto-signé avec une longue fenêtre d'expiration. Ce certificat racine est ensuite utilisé pour générer quelques autorités de certification `intermédiaires`, qui ont une fenêtre d'expiration légèrement plus courte. La CA racine sera sécurisée et rarement utilisée après la création des CA intermédiaires. Les CA intermédiaires seront utilisées pour émettre et signer les certificats `leaf` (feuille) au quotidien. Les CA intermédiaires sont créées au lieu d'utiliser directement la CA racine afin de minimiser l'impact en cas de violation ou de mauvaise gestion d'un certificat. Si une seule CA intermédiaire est compromise, l'entreprise aura toujours les autres CA disponibles pour continuer à fournir le service. ### Chaînes de certificats Un certificat de connexion et tous les certificats CA impliqués dans l'émission et la signature de ce certificat peuvent être organisés en une structure appelée *chaîne de certificats*. Cette chaîne de certificats (décrite ci-dessous) sera utilisée pour vérifier et approuver le certificat de connexion. Si vous suivez le certificat feuille d'une connexion jusqu'à la CA émettrice (en utilisant le champ `Issuer`) puis, à partir de cette CA, jusqu'à son émetteur (et ainsi de suite, jusqu'à ce que vous atteigniez un certificat racine auto-signé), vous aurez parcouru la chaîne de certificats. ![Construction d'une chaîne de certificats](/sites/default/files/inline/images/certificate_chain.gif "Building a Certificate Chain") ### Faire confiance à un certificat Votre navigateur Web et votre système d'exploitation conservent généralement une liste d'autorités de certification approuvées. Lors de la configuration d'une interface HL7 ou d'une autre application, vous dirigerez probablement votre interface vers un fichier CA-bundle contenant une liste de CA approuvées. Ce fichier contiendra généralement une liste d'un ou plusieurs certificats CA encodés au format PEM. Par exemple: ``` # Probablement, une CA intermédiaire -----BEGIN CERTIFICATE----- MIIDQTCCAimgAwIBAgITBmyfz5m/jAo54vB4ikPmljZbyjANBgkqhkiG9w0BAQsF ... rqXRfboQnoZsG4q5WTP468SQvvG5 -----END CERTIFICATE----- # Probablement, une CA racine -----BEGIN CERTIFICATE----- MIIDqDCCApCgAwIBAgIJAP7c4wEPyUj/MA0GCSqGSIb3DQEBBQUAMDQxCzAJBgNV ... WyH8EZE0vkHve52Xdf+XlcCWWC/qu0bXu+TZLg== -----END CERTIFICATE----- ``` Lorsque votre navigateur Web (ou l'interface HL7) tente d'établir une connexion TLS, il utilise cette liste de certificats CA de confiance pour déterminer s'il fait confiance au certificat échangé lors du handshake TLS. Le processus commence par le certificat racine et traverse la chaîne de certificats jusqu'au certificat CA suivant. Si le certificat CA n'est pas trouvé dans le magasin de confiance ou le fichier CA-bundle, le certificat racine *n'est pas* considéré comme fiable et la connexion TLS échoue. Si le certificat CA ou le fichier CA-bundle est trouvé dans le magasin de confiance, le processus continue en remontant la chaîne de certificats, en vérifiant que chaque CA se trouvant sur le chemin est dans le magasin de confiance. Une fois que le certificat CA racine au sommet de la chaîne est vérifié (ainsi que tous les certificats CA intermédiaires se trouvant sur le chemin), le processus peut approuver le certificat feuille du serveur. ![Détermination de la confiance](/sites/default/files/inline/images/determining_trust.gif "Determining Trust") ## Le handshake TLS Pour ajouter TLS à une connexion TCP/IP (comme un flux HL7), le client et le serveur doivent effectuer un handshake TLS après que la connexion TCP/IP a été établie. Ce handshake implique de s'accorder sur les chiffrements/méthodes de chiffrement, de s'accorder sur la version TLS, d'échanger des certificats X.509, de prouver la propriété de ces certificats et de valider que chaque partie fait confiance à l'autre. Les étapes principales d'un handshake TLS sont les suivantes: 1. Le client établit une connexion TCP/IP avec le serveur. 2. Le client lance le handshake TLS. 3. Le serveur envoie son certificat (et la preuve de sa propriété) au client. 4. Le client vérifie le certificat du serveur. 5. En cas de TLS mutuel, le client envoie son certificat (et la preuve de sa propriété) au serveur. 6. En cas de TLS mutuel, le serveur vérifie le certificat du client. 7. Le client et le serveur s'échangent des données encryptées. ![Handshake TLS](/sites/default/files/inline/images/tls_handshake.gif "TLS Handshake") ### 1. Le client établit une connexion TCP/IP avec le serveur. À l'étape n° 1, le client et le serveur effectuent un handshake TCP à la procédure de base « ternaire » [TCP 3-way handshake] (https://en.wikipedia.org/wiki/Transmission_Control_Protocol#Connection_establishment) pour établir une connexion TCP/IP entre eux. Dans un handshake à la procédure de base ternaire: 1. Le client envoie un paquet `SYN`. 2. Le serveur envoie un paquet `SYN-ACK`. 3. Le client envoie un paquet `ACK`. Une fois ce handshake terminé, la connexion TCP/IP est établie. L'étape suivante consiste à lancer le handshake TLS. ### 2. Le client lance le handshake TLS. Une fois la connexion TCP établie, l'une des parties doit agir en tant que client et lancer le handshake TLS. Généralement, le processus qui a initié la connexion TCP est également responsable du lancement du handshake TLS, mais cela peut être inversé dans de rares cas. Pour lancer le handshake TLS, le client envoie un message ClientHello au serveur. Ce message contient diverses options utilisées pour négocier les paramètres de sécurité de la connexion avec le serveur. ### 3. Le serveur envoie son certificat (et la preuve de sa propriété) au client. Après avoir reçu le message `ClientHello` du client, le serveur répond à son tour par un message `ServerHello`. Celui-ci inclut les paramètres de sécurité négociés. Après le message `ServerHello`, le serveur envoie également un message `Certificate` et `CertificateVerify` au client. Cela permet de partager la chaîne de certificats X.509 avec le client et de fournir la preuve de propriété de la clé privée associée au certificat. ### 4. Le client vérifie le certificat du serveur. Une fois que le client a reçu les messages `ServerHello`, `Certificate` et `CertificateVerify`, il vérifie que le certificat est valide et approuvé (en comparant les CAs aux fichiers CA-bundle approuvés, au magasin de certificats du système opérationnel ou au magasin de certificats du navigateur web). Le client effectue également toute vérification de l'hôte (voir ci-dessus) pour s'assurer que l'adresse de connexion correspond aux adresses/IP du certificat. ### 5. S'il s'agit d'une connexion TLS mutuelle, le client envoie son certificat (et la preuve de propriété) au serveur. S'il s'agit d'une connexion TLS mutuelle (déterminée par l'envoi d'un message `CertificateRequest` par le serveur), le client enverra un message `Certificate` incluant sa chaîne de certificats, puis un message `CertificateVerify` pour prouver qu'il est le propriétaire de la clé privée associée. ### 6. S'il s'agit d'une connexion TLS mutuelle, le serveur vérifie le certificat client. Là encore, s'il s'agit d'une connexion TLS mutuelle, le serveur vérifie que la chaîne de certificats envoyée par le client est valide et approuvée. ### 7. Le client et le serveur s'échangent des données encryptées. Si la négociation TLS se déroule sans erreur, le client et le serveur s'échangent des messages `Finished` (Terminé) pour achever la négociation. Après cela, les données encryptées peuvent être échangées entre le client et le serveur. ## Configuration de TLS sur les interfaces HL7 Félicitations d'être arrivé jusqu'ici ! Maintenant que vous savez *en quoi* consiste TLS, comment procéderiez-vous pour *mettre en œuvre* le protocole TLS sur vos connexions HL7 ? De manière générale, voici les étapes à suivre pour configurer TLS sur vos connexions HL7. 1. Choisissez une autorité de certification. 2. Créez une clé et une demande de signature de certificat. 3. Obtenez votre certificat auprès de votre CA. 4. Obtenez la chaîne de certificats pour votre pair. 5. Créez une configuration SSL pour la connexion. 6. Ajoutez la configuration SSL à l'interface, faites rebondir l'interface et vérifiez le flux de messages. ### 1. Choisissez une autorité de certification. La procédure que vous utiliserez pour obtenir un certificat et une clé pour votre serveur dépendra largement des politiques de sécurité de votre entreprise. Dans la plupart des cas, votre certificat sera signé par l'une des autorités de certification suivantes: 1. Votre certificat sera signé par une CA interne à l'entreprise. - C'est mon option préférée, car votre entreprise dispose déjà de l'infrastructure nécessaire pour gérer les certificats et les CAs. Il vous suffit de travailler avec l'équipe qui possède cette infrastructure pour obtenir votre propre certificat pour vos interfaces HL7. 2. Votre certificat sera signé par une CA publique. - Cette option est intéressante dans le sens où la CA publique dispose également de toute l'infrastructure nécessaire pour maintenir les certificats et les CAs. Cette option est sans doute exagérée pour la plupart des interfaces HL7, car les CA publiques fournissent généralement des certificats pour l'Internet ouvert ; les interfaces HL7 ont tendance à se connecter via un intranet privé, et non via l'Internet public. - L'obtention de certificats auprès d'une CA publique peut également entraîner des frai. 3. Votre certificat sera signé par une CA que vous créerez et maintiendrezvous-même. - Cette option peut vous convenir, mais malheureusement, cela signifie que vous supportez la charge de la maintenance et de la sécurisation de votre configuration CA et de votre logiciel. - Vous l'utilisez à vos risques et périls! - Cette option est la plus complexe. Préparez-vous à une courbe d'apprentissage abrupte. - Vous pouvez utiliser des progiciels open source éprouvés pour gérer votre CA et vos certificats. La suite OpenSSL est une excellente option. Les autres options sont EJBCA, step-ca et cfssl. ### 2. Créez une clé et une demande de signature de certificat. Après avoir choisi votre CA, l'étape suivante consiste à créer une clé privée et une demande de signature de certificat (`CSR`) . La manière dont vous générez la clé et la CSR dépendra de la politique de votre entreprise et de la CA choisie. Pour l'instant, nous allons simplement parler des étapes de manière générale. Lors de la génération d'une clé privée, la clé publique associée est également générée. La clé publique sera intégrée à votre CSR et à votre certificat signé. Ces deux clés seront utilisées pour prouver la propriété de votre certificat signé lors de l'établissement d'une connexion TLS. ATTENTION! Veillez à enregistrer votre clé privée dans un endroit sûr (de préférence dans un format protégé par un mot de passe). Si vous perdez cette clé, votre certificat ne sera plus utilisable. Si quelqu'un d'autre accède à cette clé, il pourra se faire passer pour votre serveur. La demande de signature de certificat inclura des informations sur votre serveur, votre entreprise, votre clé publique, la manière d'utiliser le certificat, etc. Elle inclura également la preuve que vous possédez la clé privée associée. Cette CSR sera ensuite fournie à votre CA pour générer et signer votre certificat. REMARQUE: lors de la création de la CSR, assurez-vous de demander une `Extended Key Usage` (utilisation étendue de la clé) à la fois pour `serverAuth` et `clientAuth`, si vous utilisez le TLS mutuel. La plupart des CA sont habituées à signer des certificats avec uniquement la clé `serverAuth`. Malheureusement, cela signifie que le certificat ne peut pas être utilisé comme certificat client dans une connexion TLS mutuelle. ### 3. Obtenez votre certificat auprès de votre CA. Après avoir créé votre clé et votre CSR, soumettez la CSR à votre autorité de certification. Après avoir effectué plusieurs vérifications, votre CA devrait être en mesure de vous fournir un certificat signé et la chaîne de certificats associée. Ce certificat et cette chaîne doivent être enregistrés au format PEM. Si la CA a fourni votre certificat dans un format différent, vous devrez le convertir à l'aide d'un outil tel qu'OpenSSL. ### 4. Obtenez la chaîne de certificats pour votre homologue. Les étapes précédentes étaient axées sur l'obtention d'un certificat pour votre serveur. Vous devriez pouvoir utiliser ce certificat (et la clé associée) avec chaque connexion HL7 vers/depuis ce serveur. Vous devrez également obtenir les chaînes de certificats pour chacun des systèmes/homologues auxquels vous vous connecterez. Les chaînes de certificats de chaque homologue devront être enregistrées dans un fichier au format PEM. Ce CA-bundle n'aura pas besoin de contenir les certificats feuille ; il doit uniquement contenir les certificats CA intermédiaires et racine. Veillez à fournir à votre homologue un CA-bundle contenant vos CA intermédiaires et racine. Cela lui permettra de faire confiance à votre certificat lorsque vous établirez une connexion. ### 5. Créez une configuration SSL pour la connexion. Dans Health Connect d'InterSystems, il vous faudra créer des configurations SSL client et serveur pour chaque système auquel votre serveur se connectera. Ces configurations SSL dirigeront vers le fichier CA-bundle du système associé et vers les fichiers clé et de certificat de votre serveur. Les configurations SSL client sont utilisées lors des opérations pour lancer le handshake TLS. Les configurations SSL serveur sont utilisées sur les services pour répondre aux handshakes TLS. Si un système dispose à la fois de services entrants et de services sortants, il faudra configurer à la fois une configuration SSL client et une configuration SSL serveur pour ce système. Pour créer une configuration SSL client: 1. Accédez à `System Administration > Security > SSL/TLS Configurations` (Administration système > Sécurité > Configurations SSL/TLS). 2. Appuyeze sur `Create New Configuration` (Créer une nouvelle configuration). 3. Donnez un `Configuration Name` (Nom de configuration) et une `Description` (Description) à votre configuration SSL. 4. Assurez-vous que votre configuration SSL est `Enabled` (Activée). 5. Choisissez `Client` comme `Type`. 6. Choisissez `Require` (Obligatoire) pour le champ `Server certificate verification` (Vérification du certificat serveur). Cela effectue une vérification de l'hôte sur la connexion. 7. Dirigez le champ `File` (Fichier) contenant le(s) certificat(s) CA de confiance vers le fichier CA-bundle contenant les CA intermédiaires et racines (au format PEM) du système auquel vous vous connectez. 8. Dirigez le champ `File` (Fichier) contenant le certificat de ce client vers le fichier contenant le certificat X.509 de votre serveur au format PEM. 9. Dirigez le champ `File` (Fichier) contenant la clé privée associée vers le fichier contenant la clé privée de votre certificat. 10. Le `Private key type` (type de clé privée) sera très probablement `RSA` (chiffrement RSA). Cela devrait correspondre au type de votre clé privée. 11. Si votre clé privée est protégée par un mot de passe (comme cela devrait être le cas), saisissez le mot de passe dans les champs `Private key password` (mot de passe de la clé privée) et `Private key password (confirm)` (confirmer le mot de passe de la clé privée). 12. Vous pouvez probablement laisser les autres champs à leurs valeurs par défaut. Pour créer une configuration de serveur SSL: 1. Go to `System Administration > Security > SSL/TLS Configurations`. 2. Appuyeze sur `Create New Configuration` (Créer une nouvelle configuration). 3. Donnez un `Configuration Name` (Nom de configuration) et une `Description` (Description) à votre configuration SSL. 4. Assurez-vous que votre configuration SSL est `Enabled` (Activée). 5. Choisissez `Server` comme `Type`. 6. Choisissez `Require` (Obligatoire) pour le champ `Client certificate verification` (Vérification du certificat client). Cela permettra de s'assurer que le TLS mutuel est exécuté. 7. Dirigez `File containing trusted Certificate Authority certificate(s)` (Fichier contenant le(s) certificat(s) de l'autorité de certification de confiance) vers le fichier CA-bundle contenant les CA intermédiaires et racines (au format PEM) du système auquel vous vous connectez. 8. Dirigez `File containing this server's certificate` (Fichier contenant le certificat de ce serveur) vers le fichier contenant le certificat X.509 de votre serveur au format PEM. 9. Dirigez `File containing associated private key` (Fichier contenant la clé privée associée) vers le fichier contenant la clé privée de votre certificat. 10. Le `Private key type` (type de clé privée) sera très probablement `RSA` (chiffrement RSA). Cela devrait correspondre au type de votre clé privée. 11. Si votre clé privée est protégée par un mot de passe (comme cela devrait être le cas), saisissez le mot de passe dans les champs `Private key password` (mot de passe de la clé privée) et `Private key password (confirm)` (confirmer le mot de passe de la clé privée). 12. Vous pouvez probablement laisser les autres champs à leurs valeurs par défaut. ![configuration de configuration SSL](/sites/default/files/inline/images/create_ssl_configs.gif "Creating SSL Configs") ### 6. Ajoutez la configuration SSL à l'interface, relancez l'interface et vérifiez le flux de messages. Une fois que vous avez créé les configurations SSL client et serveur, vous êtes prêt à activer TLS sur les interfaces. Pour chaque service ou opération, choisissez la configuration SSL associée dans le menu déroulant `Connection Settings > SSL Configuration` (Paramètres de connexion > Configuration SSL) qui se trouve dans l'onglet *Settings* (Paramètres) de l'interface. Après avoir relancé l'interface, vous verrez la connexion se rétablir. Lorsqu'un nouveau message est transféré, un statut `Completed` (Terminé) indique que TLS fonctionne. Si TLS ne fonctionne pas, la connexion sera interrompue à chaque tentative de message. Pour vous aider à déboguer les problèmes avec TLS, il se peut que vous ayez besoin d'utiliser des outils tels que tcpdump, Wireshark ou l'utilitaire s_client d'OpenSSL. ## Conclusion Nous avons fait une analyse très approfondie du sujet SSL/TLS. Il y a tellement d'autres informations qui n'ont pas été incluses dans cet article. J'espère que cet article vous a fourni un aperçu suffisant du fonctionnement de TLS pour que vous puissiez rechercher les détails et obtenir plus d'informations si nécessaire. Si vous recherchez une ressource approfondie sur TLS, consultez le site Web d'Ivan Ristić, [fiestyduck.com](https://www.feistyduck.com/) et son livre, [Bulletproof TLS and PKI](https://www.feistyduck.com/books/bulletproof-tls-and-pki/). J'ai trouvé que ce livre était une excellente ressource pour en savoir plus sur l'utilisation de TLS.
Article
Sylvain Guilbaud · Mars 29, 2023

Prédictions de Covid-19 ICU via ML vs. IntegratedML (Partie I)

Keywords:  IRIS, IntegratedML, apprentissage automatique, Covid-19, Kaggle  ## Objectif J'ai récemment remarqué un [jeu de données Kaggle](https://www.kaggle.com/S%C3%ADrio-Libanes/covid19/kernels) permettant de prédire si un patient Covid-19 sera admis en soins intensifs. Il s'agit d'un tableur de 1925 enregistrements comprenant 231 colonnes de signes vitaux et d'observations, la dernière colonne " USI " valant 1 pour Oui ou 0 pour Non. Ce jeu de données représente un bon exemple de ce que l'on appelle une tâche "traditionnelle de ML". Les données semblent avoir une quantité suffisante et une qualité relativement bonne. Il pourrait avoir de meilleures chances d'être appliqué directement sur le kit [IntegratedML demo](https://github.com/intersystems-community/integratedml-demo-template). Quelle serait donc l'approche la plus simple pour un test rapide basé sur les pipelines ML normaux par rapport à l'approche possible avec IntegratedML ?   ## Champ d'application Nous examinerons brièvement quelques étapes normales de ML, telles que : * Analyse des données (EDA) * Sélection des caractéristiques * Sélection du modèle * Ajustement des paramètres du modèle via le quadrillage Vs.  * Approches ML intégrées via SQL. Il est exécuté sur un serveur AWS Ubuntu 16.04 avec Docker-compose, etc.     ## Environnement Nous allons réutiliser l'environnement Docker de [integredML-demo-template](https://openexchange.intersystems.com/package/integratedml-demo-template): ![](https://user-images.githubusercontent.com/8899513/85151307-a0d1f280-b221-11ea-81d8-f0e11ca45d4c.PNG) Le fichier de bloc-notes suivant est exécuté sur "tf2jupyter", et IRIS avec IntegratedML sur "irismlsrv". Docker-compose fonctionne sur un AWS Ubuntu 16.04.   ## Données et tâches Le jeu de données contient 1925 enregistrements collectés auprès de 385 patients, chacun comportant exactement 5 enregistrements de rendez-vous. Sur ses 231 colonnes, une seule, "USI", constitue notre cible d'apprentissage et de prédiction, et les 230 autres colonnes pourraient toutes être utilisées comme entrées de quelque manière que ce soit. L'unité de soins intensifs a une valeur binaire de 1 ou 0. À l'exception de deux colonnes qui semblent être des chaînes catégorielles (présentées comme "objet" dans le cadre de données), toutes les autres sont numériques. import numpy as np import pandas as pd from sklearn.impute import SimpleImputer import matplotlib.pyplot as plt from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, roc_auc_score, roc_curve import seaborn as sns sns.set(style="whitegrid") import os for dirname, _, filenames in os.walk('./input'): for filename in filenames: print(os.path.join(dirname, filename)) ./input/datasets_605991_1272346_Kaggle_Sirio_Libanes_ICU_Prediction.xlsx   df = pd.read_excel("./input/datasets_605991_1272346_Kaggle_Sirio_Libanes_ICU_Prediction.xlsx") df   IDENTIFIANT_DE_VISITE_DU_PATIENT ÂGE_AU-DESSUS65 ÂGE_POURCENTAGE GENRE GROUPE DE MALADIES 1 GROUPE DE MALADIES 2 GROUPE DE MALADIES 3 GROUPE DE MALADIES 4 GROUPE DE MALADIES 5 GROUPE DE MALADIES 6 ... DIFFÉRENCE_DE_TEMPÉRATURE DIFFÉRENCE_DE SATURATION_D'OXYGÈNE DIFFÉRENCE_DE_TENSION_DIASTOLIQUE_REL DIFFÉRENCE_DE_TENSION_SISTOLIQUE_REL DIFFÉRENCE_DU_RYTHME_CARDIAQUE_REL DIFFÉRENCE_DE_TAUX_RESPIRATOIRE_REL DIFFÉRENCE_DE_TEMPÉRATURE_REL DIFFÉRENCE_DE_SATURATION_D'OXYGÈNE_REL FENÊTRE ICU 1 âge de 60-69 ans 0.0 0.0 0.0 0.0 1.0 1.0 ... -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 0-2 1 1 âge de 60-69 ans 0.0 0.0 0.0 0.0 1.0 1.0 ... -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 2-4 2 1 âge de 60-69 ans 0.0 0.0 0.0 0.0 1.0 1.0 ... NaN NaN NaN NaN NaN NaN NaN NaN 4-6 3 1 âge de 60-69 ans 0.0 0.0 0.0 0.0 1.0 1.0 ... -1.000000 -1.000000 NaN NaN NaN NaN -1.000000 -1.000000 6-12 4 1 âge de 60-69 ans 0.0 0.0 0.0 0.0 1.0 1.0 ... -0.238095 -0.818182 -0.389967 0.407558 -0.230462 0.096774 -0.242282 -0.814433 AU-DESSUS_12 1 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1920 384 âge de 50-59 ans 1 0.0 0.0 0.0 0.0 0.0 0.0 ... -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 0-2 1921 384 âge de 50-59 ans 1 0.0 0.0 0.0 0.0 0.0 0.0 ... -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 2-4 1922 384 âge de 50-59 ans 1 0.0 0.0 0.0 0.0 0.0 0.0 ... -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 4-6 1923 384 âge de 50-59 ans 1 0.0 0.0 0.0 0.0 0.0 0.0 ... -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 -1.000000 6-12 1924 384 âge de 50-59 ans 1 0.0 0.0 1.0 0.0 0.0 0.0 ... -0.547619 -0.838384 -0.701863 -0.585967 -0.763868 -0.612903 -0.551337 -0.835052 AU-DESSUS_12 1925 lignes × 231 colonnes df.dtypes IDENTIFIANT_DE_VISITE_DU_PATIENT int64 ÂGE_AU-DESSUS65 int64 ÂGE_POURCENTAGE object GENRE int64 GROUPE DE MALADIES 1 float64 ... DIFFÉRENCE_DE_TAUX_RESPIRATOIRE_REL float64 DIFFÉRENCE_DE_TEMPÉRATURE_REL float64 DIFFÉRENCE_DE SATURATION_D'OXYGÈNE_REL float64 FENÊTRE object USI int64 Longeur: 231, dtype: object Il existe certainement plusieurs options pour définir ce problème et ses approches. La première option qui nous vient à l'esprit est qu'il peut s'agir d'un problème fondamental de "classification binaire". Nous pouvons traiter les 1925 enregistrements comme des enregistrements individuels "apatrides", qu'ils proviennent ou non du même patient. Bien sûr, il pourrait également s'agir d'un problème de "régression" si nous traitions les valeurs de l'unité de soins intensifs et d'autres valeurs comme étant toutes numériques. Il existe certainement d'autres approches possibles. Par exemple, nous pouvons considérer que l'ensemble de données comporte 385 jeux distincts de courtes "séries temporelles", chacun pour un patient. Nous pourrions dissoudre le jeu entier en 385 jeux distincts pour Train/Val/Test, et pourrions-nous essayer des modèles d'apprentissage profond tels que CNN ou LSTM pour capturer la "phase ou le modèle de développement des symptômes" caché dans chaque jeu pour chaque patient individuel ? C'est possible. Ce faisant, nous pourrions également appliquer une augmentation des données pour enrichir les données de test par divers moyens. Il s'agit là d'un sujet qui dépasse le cadre de cet article. Dans cet article, nous nous contenterons de tester rapidement l'approche ML dite "traditionnelle" par rapport à l'approche IntegratedML (une approche AutoML)..     ## Approche ML "traditionnelle" ? Il s'agit d'un jeu de données relativement normalisé par rapport à la plupart des cas réels, à l'exception de quelques valeurs manquantes, de sorte que nous pourrions sauter la partie relative à l'ingénierie des caractéristiques et utiliser directement les colonnes comme caractéristiques. Passons donc directement à la sélection des caractéristiques. ### **Imputation des données manquantes** Il faut d'abord s'assurer que toutes les valeurs manquantes sont remplies au moyen d'une imputation simple : df_cat = df.select_dtypes(include=['object']) df_numeric = df.select_dtypes(exclude=['object']) imp = SimpleImputer(missing_values=np.nan, strategy='mean') idf = pd.DataFrame(imp.fit_transform(df_numeric)) idf.columns = df_numeric.columns idf.index = df_numeric.index idf.isnull().sum() ###   ### **Sélection sur les caractéristiques** Nous pouvons certainement utiliser la fonction de corrélation normale intégrée dans la base de données pour calculer la corrélation entre les valeurs de chaque colonne et les unités de soins intensifs. #### l'ingénierie des caractéristiques - **corrélation** {#featuring-engineering---correlation} idf.drop(["PATIENT_VISIT_IDENTIFIER"],1) idf = pd.concat([idf,df_cat ], axis=1) cor = idf.corr() cor_target = abs(cor["ICU"]) relevant_features = cor_target[cor_target>0.1] # correlation above 0.1 print(cor.shape, cor_target.shape, relevant_features.shape) #relevant_features.index #relevant_features.index.shape Il répertorie 88 caractéristiques présentant une corrélation >0,1 avec la valeur cible de l'unité de soins intensifs. Ces colonnes peuvent être directement utilisées comme entrée de notre modèle J'ai également exécuté quelques autres "méthodes de sélection de caractéristiques" qui sont normalement utilisées dans les tâches traditionnelles de ML : #### Sélection des caractéristiques - **Chi carré** {#feature-selection---Chi-squared} from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 from sklearn.preprocessing import MinMaxScaler X_norm = MinMaxScaler().fit_transform(X) chi_selector = SelectKBest(chi2, k=88) chi_selector.fit(X_norm, y) chi_support = chi_selector.get_support() chi_feature = X.loc[:,chi_support].columns.tolist() print(str(len(chi_feature)), 'selected features', chi_feature) 88 caractéristiques sélectionnées ['ÂGE_AU-DESSUS65', 'GENRE', 'GROUPE DE MALADIES 1', ... ... 'P02_VENEUS_MIN', 'P02_VENEUS_MAX', ... ... RATURE_MAX', 'DIFFÉRENCE_DE_TENSION_ARTÉRIELLE_DIASTOLIQUE', ... ... 'DIFFÉRENCE_DE_TEMPÉRATURE_REL', 'DIFFÉRENCE_DE SATURATION_D'OXYGÈNE_REL'] Sélection des caractéristiques - **Corrélation de Pearson**  def cor_selector(X, y,num_feats): cor_list = [] feature_name = X.columns.tolist() # calculate the correlation with y for each feature for i in X.columns.tolist(): cor = np.corrcoef(X[i], y)[0, 1] cor_list.append(cor) # replace NaN with 0 cor_list = [0 if np.isnan(i) else i for i in cor_list] # feature name cor_feature = X.iloc[:,np.argsort(np.abs(cor_list))[-num_feats:]].columns.tolist() # Sélection des caractéristiques? 0 for not select, 1 for select cor_support = [Vrai if i in cor_feature else False for i in feature_name] return cor_support, cor_feature cor_support, cor_feature = cor_selector(X, y, 88) print(str(len(cor_feature)), 'selected features: ', cor_feature) 88 caractéristiques sélectionnées: ['TEMPÉRATURE_MOYENNE', 'TENSION_DIASTOLIQUE_MAX', ... ... 'DIFFÉRENCE_DE_TAUX_ RESPIRATOIRE', 'AUX_ RESPIRATOIRE_MAX'] #### Sélection des caractéristiques - **élimination de caractéristiques récursives (RFE)** {#feature-selection---Recursive-Feature-Elimination-(RFE)} from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression rfe_selector = RFE(estimator=LogisticRegression(), n_features_to_select=88, step=100, verbose=5) rfe_selector.fit(X_norm, y) rfe_support = rfe_selector.get_support() rfe_feature = X.loc[:,rfe_support].columns.tolist() print(str(len(rfe_feature)), 'selected features: ', rfe_feature) Estimateur d'ajustement avec 127 caractéristiques. 88 caractéristiques sélectionnées: ['ÂGE_AU-DESSUS65', 'GENRE', ... ... 'DIFFÉRENCE_DE_TAUX_ RESPIRATOIRE_REL', 'DIFFÉRENCE_DE_TEMPÉRATURE_REL'] Sélection des caractéristiques - **Lasso** ffrom sklearn.feature_selection import SelectFromModel from sklearn.linear_model import LogisticRegression from sklearn.preprocessing import MinMaxScaler X_norm = MinMaxScaler().fit_transform(X) embeded_lr_selector = SelectFromModel(LogisticRegression(penalty="l2"), max_features=88) embeded_lr_selector.fit(X_norm, y) embeded_lr_support = embeded_lr_selector.get_support() embeded_lr_feature = X.loc[:,embeded_lr_support].columns.tolist() print(str(len(embeded_lr_feature)), 'selected features', embeded_lr_feature) 65 caractéristiques sélectionnées ['ÂGE_AU-DESSUS65', 'GENRE', ... ... 'DIFFÉRENCE_DE_TAUX_ RESPIRATOIRE_REL', 'DIFFÉRENCE_DE_TEMPÉRATURE_REL'] Sélection des caractéristiques - **RF Tree-based**: SelectFromModel from sklearn.feature_selection import SelectFromModel from sklearn.ensemble import RandomForestClassifier embeded_rf_selector = SelectFromModel(RandomForestClassifier(n_estimators=100), max_features=227) embeded_rf_selector.fit(X, y) embeded_rf_support = embeded_rf_selector.get_support() embeded_rf_feature = X.loc[:,embeded_rf_support].columns.tolist() print(str(len(embeded_rf_feature)), 'selected features', embeded_rf_feature) 48 selected features ['ÂGE_AU-DESSUS65', 'GENRE', ... ... 'DIFFÉRENCE_DE_TEMPÉRATURE_REL', 'DIFFÉRENCE_DE SATURATION_D'OXYGÈNE_REL'] #### Sélection des caractéristiques - **LightGBM** or **XGBoost** {#feature-selection---LightGBM-or-XGBoost} from sklearn.feature_selection import SelectFromModel from lightgbm import LGBMClassifier lgbc=LGBMClassifier(n_estimators=500, learning_rate=0.05, num_leaves=32, colsample_bytree=0.2, reg_alpha=3, reg_lambda=1, min_split_gain=0.01, min_child_weight=40) embeded_lgb_selector = SelectFromModel(lgbc, max_features=128) embeded_lgb_selector.fit(X, y) embeded_lgb_support = embeded_lgb_selector.get_support() embeded_lgb_feature = X.loc[:,embeded_lgb_support].columns.tolist() print(str(len(embeded_lgb_feature)), 'selected features: ', embeded_lgb_feature) embeded_lgb_feature.index 56 selected features: ['ÂGE_AU-DESSUS65', 'GENRE', 'HTN', ... ... 'DIFFÉRENCE_DE_TEMPÉRATURE_REL', 'DIFFÉRENCE_DE SATURATION_D'OXYGÈNE_REL'] #### Sélection des caractéristiques - **Les regrouper tous** {#feature-selection---Ensemble-them-all} feature_name = X.columns.tolist() # regrouper toute la sélection feature_selection_df = pd.DataFrame({'Feature':feature_name, 'Pearson':cor_support, 'Chi-2':chi_support, 'RFE':rfe_support, 'Logistics':embeded_lr_support, 'Random Forest':embeded_rf_support, 'LightGBM':embeded_lgb_support}) # compter les temps sélectionnés pour chaque caractéristique feature_selection_df['Total'] = np.sum(feature_selection_df, axis=1) # afficher les 100 premières num_feats = 227 feature_selection_df = feature_selection_df.sort_values(['Total','Feature'] , ascending=False) feature_selection_df.index = range(1, len(feature_selection_df)+1) feature_selection_df.head(num_feats) df_selected_columns = feature_selection_df.loc[(feature_selection_df['Total'] > 3)] df_selected_columns Nous pouvons dresser la liste des caractéristiques qui ont été sélectionnées dans le cadre d'au moins quatre méthodes : ![](/sites/default/files/inline/images/images/image(810).png) ... ... ![](/sites/default/files/inline/images/images/image(812).png) Nous pouvons certainement choisir ces 58 caractéristiques. Entre-temps, l'expérience nous a appris que la sélection des caractéristiques n'est pas nécessairement toujours un vote démocratique ; le plus souvent, elle peut être spécifique au problème du domaine, aux données spécifiques et parfois au modèle ou à l'approche ML spécifique que nous allons adopter plus tard. Sélection des caractéristiques - **Outils tiers**  Il existe des outils industriels et des outils AutoML largement utilisés, par exemple DataRobot qui peut fournir une bonne sélection automatique des caractéristiques :   ![](/sites/default/files/inline/images/images/capture_feature.png) Le graphe DataRobot ci-dessus montre, sans surprise, que les valeurs de fréquence respiratoire et de tension artérielle sont les caractéristiques les plus pertinentes pour l'admission en soins intensifs.     Sélection des caractéristiques - **Sélection finale** Dans ce cas, j'ai fait quelques expériences rapides et j'ai remarqué que la sélection des caractéristiques par LightGBM donnait un résultat un peu meilleur, c'est pourquoi nous n'utiliserons que cette méthode de sélection.    df_selected_columns = embeded_lgb_feature # mieux que la sélection ensembliste dataS = pd.concat([idf[df_selected_columns],idf['ICU'], df_cat['FENÊTRE']],1) dataS.ICU.value_counts() print(dataS.shape) (1925, 58) Nous pouvons voir que 58 caractéristiques sont sélectionnées, c'est-à-dire ni trop peu, ni trop beaucoup, ce qui semble être la bonne quantité pour ce problème spécifique de classification binaire à cible unique.    ### **Déséquilibre des données** plt.figure(figsize=(10,5)) count = sns.countplot(x = "USI",data=data) count.set_xticklabels(["Non admis", "Admis"]) plt.xlabel("Admission à l'USI") plt.ylabel("Nombre de patients") plt.show() Cela indique que les données sont déséquilibrées, seuls 26 % des enregistrements étant admis en USI. Cela aura un impact sur les résultats et nous pouvons donc envisager des approches normales d'équilibrage des données telles que SMOTE, etc. Nous pouvons essayer toutes sortes d'autres AED pour analyser les différentes distributions de données en conséquence.    ### **Exécuter une formation de base en LR** Le site Kaggle propose de jolis carnets d'entraînement rapide que nous pouvons exécuter rapidement en fonction de notre propre sélection de colonnes de caractéristiques. Commençons par une exécution rapide du classificateur LR pour le pipeline de formation :   data2 = pd.concat([idf[df_selected_columns],idf['USI'], df_cat['FENÊTRE']],1) data2.AGE_ABOVE65 = data2.AGE_ABOVE65.astype(int) data2.ICU = data2.ICU.astype(int) X2 = data2.drop("USI",1) y2 = data2.ICU from sklearn.preprocessing import LabelEncoder label_encoder = LabelEncoder() X2.WINDOW = label_encoder.fit_transform(np.array(X2["FENÊTRE"].astype(str)).reshape((-1,))) confusion_matrix2 = pd.crosstab(y2_test, y2_hat, rownames=['Réel'], colnames=['Prédit']) sns.heatmap(confusion_matrix2, annot=Vrai, fmt = 'g', cmap = 'Reds') print("ORIGINAL") print(classification_report(y_test, y_hat)) print("USI = ",roc_auc_score(y_test, y_hat),'\n\n') print("ENCODAGE D'ÉTIQUETTE") print(classification_report(y2_test, y2_hat)) print("ASC = ",roc_auc_score(y2_test, y2_hat)) y2hat_probs = LR.predict_proba(X2_test) y2hat_probs = y2hat_probs[:, 1] fpr2, tpr2, _ = roc_curve(y2_test, y2hat_probs) plt.figure(figsize=(10,7)) plt.plot([0, 1], [0, 1], 'k--') plt.plot(fpr, tpr, label="Base") plt.plot(fpr2,tpr2,label="Étiquette encodée") plt.xlabel('Taux de faux positifs') plt.ylabel('Taux de vrais positifs') plt.title('Courbe ROC') plt.legend(loc="meilleur") plt.show() ORIGINAL précision rappel score f1 support 0 0.88 0.94 0.91 171 1 0.76 0.57 0.65 54 exactitude 0.85 225 moyenne macro 0.82 0.76 0.78 225 moyenne pondérée 0.85 0.85 0.85 225 ASC= 0.7577972709551657 LABEL ENCODING précision rappel score f1 support 0 0.88 0.93 0.90 171 1 0.73 0.59 0.65 54 accuracy 0.85 225 moyenne macro 0.80 0.76 0.78 225 moyenne pondérée 0.84 0.85 0.84 225 ASC = 0.7612085769980507          Il semble qu'il atteigne une AUC de 76 %, avec une précision de 85 %, mais le rappel pour les patients admis en réanimation n'est que de 59 % - il semble y avoir trop de faux négatifs. Ce n'est certainement pas l'idéal - nous ne voulons pas passer à côté des risques réels de l'USI pour le dossier d'un patient. Toutes les tâches suivantes seront donc axées sur l'objectif sur la manière d'augmenter le taux de rappel, en réduisant le FN, avec une précision globale quelque peu équilibrée, nous l'espérons. Dans les sections précédentes, nous avons mentionné des données déséquilibrées, de sorte que notre premier réflexe serait de stratifier l'ensemble de test et de le MODIFIER pour obtenir un ensemble de données plus équilibré. #stratifier les données de test, afin de s'assurer que les données de train et de test ont le même ratio de 1:0 X3_train,X3_test,y3_train,y3_test = train_test_split(X2,y2,test_size=225/1925,random_state=42, stratify = y2, shuffle = Vrai) <span> </span> # former et prédire LR.fit(X3_train,y3_train) y3_hat = LR.predict(X3_test) #MODIFIER les données pour faire de l'UCI 1:0 une distribution équilibrée from imblearn.over_sampling import SMOTE sm = SMOTE(random_state = 42) X_train_res, y_train_res = sm.fit_sample(X3_train,y3_train.ravel()) LR.fit(X_train_res, y_train_res) y_res_hat = LR.predict(X3_test) #recréer la matrice de confusion, etc. confusion_matrix3 = pd.crosstab(y3_test, y_res_hat, rownames=['Actual'], colnames=['Predicted']) sns.heatmap(confusion_matrix3, annot=Vrai, fmt = 'g', cmap="YlOrBr") print("LABEL ENCODING + STRATIFY") print(classification_report(y3_test, y3_hat)) print("ASC = ",roc_auc_score(y3_test, y3_hat),'\n\n') print("SMOTE") print(classification_report(y3_test, y_res_hat)) print("ASC = ",roc_auc_score(y3_test, y_res_hat)) y_res_hat_probs = LR.predict_proba(X3_test) y_res_hat_probs = y_res_hat_probs[:, 1] fpr_res, tpr_res, _ = roc_curve(y3_test, y_res_hat_probs) plt.figure(figsize=(10,10)) #Et tracez la courbe ROC comme précédemment.   LABEL ENCODING + STRATIFY (CODAGE D'ÉTIQUETTES + STRATIFICATION) précision rappel f1 score support 0 0.87 0.99 0.92 165 1 0.95 0.58 0.72 60 exactitude 0.88 225 moyenne macro 0.91 0.79 0.82 225 moyenne pondérée 0.89 0.88 0.87 225 ASC = 0.7856060606060606 SMOTE précision rappel f1 score support 0 0.91 0.88 0.89 165 1 0.69 0.75 0.72 60 exactitude 0.84 225 moyenne macro 0.80 0.81 0.81 225 moyenne pondérée 0.85 0.84 0.85 225 ASC = 0.8143939393939393              Les traitements des données par STRATIFY (stratification) et SMOT (optimisation) semblent donc améliorer le rappel, qui passe de 0,59 à 0,75, avec une précision globale de 0,84.  Maintenant que le traitement des données est largement effectué comme d'habitude pour le ML traditionnel, nous voulons savoir quel pourrait être le(s) meilleur(s) modèle(s) dans ce cas ; peuvent-ils faire mieux, et pouvons-nous alors essayer une comparaison globale relative ?   ### **Comparaison de l'entraînement à la course de différents modèles**:  Poursuivons l'évaluation de quelques algorithmes de ML couramment utilisés, et générons un tableau de bord de résultats à comparer à l'aide de diagrammes en boîte à moustaches : # comparer les algorithmes from matplotlib import pyplot from sklearn.model_selection import train_test_split from sklearn.model_selection import cross_val_score from sklearn.model_selection import StratifiedKFold from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.naive_bayes import GaussianNB from sklearn.svm import SVC #Importer un modèle arborescent aléatoire from sklearn.ensemble import RandomForestClassifier from xgboost import XGBClassifier # Répertorier les algorithmes ensemble models = [] models.append(('LR', <strong>LogisticRegression</strong>(solver='liblinear', multi_class='ovr'))) models.append(('LDA', LinearDiscriminantAnalysis())) models.append(('KNN', <strong>KNeighborsClassifier</strong>())) models.append(('CART', <strong>DecisionTreeClassifier</strong>())) models.append(('NB', <strong>GaussianNB</strong>())) models.append(('SVM', <strong>SVC</strong>(gamma='auto'))) models.append(('RF', <strong>RandomForestClassifier</strong>(n_estimators=100))) models.append(('XGB', <strong>XGBClassifier</strong>())) #clf = XGBClassifier() # évaluer chaque modèle à tour de rôle résultats = [] noms = [] pour nom, modèler dans modèles : kfold = StratifiedKFold(n_splits=10, random_state=1) cv_results = cross_val_score(model, X_train_res, y_train_res, cv=kfold, scoring='f1') ## exactitude, précision, rappel results.append(cv_results) names.append(name) print('%s: %f (%f)' % (name, cv_results.mean(), cv_results.std())) # Comparer les performances de tous les modèles. Question - Souhaitez-vous voir un article intégré sur le site ? pyplot.figure(4, figsize=(12, 8)) pyplot.boxplot(résultats, étiquettes=noms) pyplot.title('Comparaison des algorithmes') pyplot.show() LR: 0.805390 (0.021905) LDA: 0.803804 (0.027671) KNN: 0.841824 (0.032945) CART: 0.845596 (0.053828) NB: 0.622540 (0.060390) SVM: 0.793754 (0.023050) RF: 0.896222 (0.033732) XGB: 0.907529 (0.040693) ![](/sites/default/files/inline/images/images/image-20200821155401-1.png) Ce qui précède semble montrer que le classificateur XGB et le classificateur de la forêt aléatoire "Random Forest" obtiendraient un meilleur score F1 que les autres modèles. Comparons leurs résultats réels sur le même ensemble de données de test normalisées : Temps d'importation from pandas import read_csv from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score from sklearn.svm import SVC pour nom, modèler dans modèles : print(name + ':\n\r') start = time.clock() model.fit(X_train_res, y_train_res) print("Temps de formation pour ", model, " ", time.clock() - start) predictions = model.predict(X3_test) #(X_validation) # Evaluate predictions print(accuracy_score(y3_test, predictions)) # Y_validation print(confusion_matrix(y3_test, predictions)) print(classification_report(y3_test, predictions)) LR: Temps de formation pour LogisticRegression(multi_class='ovr', solver='liblinear') 0.02814499999999498 0.8444444444444444 [[145 20] [ 15 45]] précision rappel f1 score support 0 0.91 0.88 0.89 165 1 0.69 0.75 0.72 60 exactitude 0.84 225 moyenne macro 0.80 0.81 0.81 225 moyenne pondérée 0.85 0.84 0.85 225 LDA: Temps de formation pour LinearDiscriminantAnalysis() 0.2280070000000194 0.8488888888888889 [[147 18] [ 16 44]] précision rappel f1 score support 0 0.90 0.89 0.90 165 1 0.71 0.73 0.72 60 exactitude 0.85 225 moyenne macro 0.81 0.81 0.81 225 moyenne pondérée 0.85 0.85 0.85 225 KNN: Temps de formation pour KNeighborsClassifier() 0.13023699999999394 0.8355555555555556 [[145 20] [ 17 43]] précision rappel f1 score support 0 0.90 0.88 0.89 165 1 0.68 0.72 0.70 60 exactitude 0.84 225 moyenne macro 0.79 0.80 0.79 225 moyenne pondérée 0.84 0.84 0.84 225 CART: Temps de formation pour DecisionTreeClassifier() 0.32616000000001577 0.8266666666666667 [[147 18] [ 21 39]] précision rappel f1 score support 0 0.88 0.89 0.88 165 1 0.68 0.65 0.67 60 exactitude 0.83 225 moyenne macro 0.78 0.77 0.77 225 moyenne pondérée 0.82 0.83 0.83 225 NB: Temps de formation pour GaussianNB() 0.0034229999999979555 0.8355555555555556 [[154 11] [ 26 34]] précision rappel f1 score support 0 0.86 0.93 0.89 165 1 0.76 0.57 0.65 60 exactitude 0.84 225 moyenne macro 0.81 0.75 0.77 225 moyenne pondérée 0.83 0.84 0.83 225 SVM: Temps de formation pour SVC(gamma='auto') 0.3596520000000112 0.8977777777777778 [[157 8] [ 15 45]] précision rappel f1 score support 0 0.91 0.95 0.93 165 1 0.85 0.75 0.80 60 exactitude 0.90 225 moyenne macro 0.88 0.85 0.86 225 moyenne pondérée 0.90 0.90 0.90 225 RF: Temps de formation pour RandomForestClassifier() 0.50123099999999 0.9066666666666666 [[158 7] [ 14 46]] précision rappel f1 score support 0 0.92 0.96 0.94 165 1 0.87 0.77 0.81 60 exactitude 0.91 225 moyenne macro 0.89 0.86 0.88 225 moyenne pondérée 0.91 0.91 0.90 225 XGB: Temps de formation pour XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1, colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1, importance_type='gain', interaction_constraints='', learning_rate=0.300000012, max_delta_step=0, max_depth=6, min_child_weight=1, missing=nan, monotone_constraints='()', n_estimators=100, n_jobs=0, num_parallel_tree=1, random_state=0, reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1, tree_method='exact', validate_parameters=1, verbosity=Aucun) 1.649520999999993 0.8844444444444445 [[155 10] [ 16 44]] précision rappel f1 score support 0 0.91 0.94 0.92 165 1 0.81 0.73 0.77 60 exactitude 0.88 225 moyenne macro 0.86 0.84 0.85 225 moyenne pondérée 0.88 0.88 0.88 225 Le résultat semble être que RF est en fait meilleur que XGB. Cela pourrait signifier que XGB est peut-être un peu plus surajouté d'une manière ou d'une autre. Le résultat de RFC est également légèrement meilleur que celui de LR.   ### **Exécuter le modèle sélectionné en poursuivant "Ajustement des paramètres via la recherche par quadrillage"** Supposons maintenant que nous ayons choisi le modèle de classificateur de la forêt aléatoire "Random Forest Classifier". Nous pouvons effectuer une nouvelle recherche sur la grille de ce modèle pour voir s'il est possible d'obtenir des résultats un peu plus performants.  Rappelez-vous que notre objectif est toujours d'optimiser le rappel dans ce cas, en minimisant le nombre de faux négatifs concernant les risques possibles pour l'USI lors de la rencontre avec le patient, nous utiliserons donc 'recall_score' pour réajuster le quadrillage ci-dessous. Une fois de plus, la validation croisée 10 fois sera utilisée comme d'habitude, étant donné que notre ensemble de test ci-dessus a toujours été fixé à environ 12 % de ces 2915 enregistrements. from sklearn.model_selection import GridSearchCV # Créer la grille de paramètres sur la base des résultats de la recherche aléatoire param_grid = {'bootstrap': [Vrai], 'ccp_alpha': [0.0], 'class_weight': [Aucun], 'criterion': ['gini', 'entropy'], 'max_depth': [Aucun], 'max_features': ['auto', 'log2'], 'max_leaf_nodes': [Aucun], 'max_samples': [Aucun], 'min_impurity_decrease': [0.0], 'min_impurity_split': [Aucun], 'min_samples_leaf': [1, 2, 4], 'min_samples_split': [2, 4], 'min_weight_fraction_leaf': [0.0], 'n_estimators': [100, 125], #'n_jobs': [Aucun], 'oob_score': [False], 'random_state': [Aucun], #'verbose': 0, 'warm_start': [False] } #Ajuster par matrice de confusion from sklearn.metrics import roc_curve, précision_recall_curve, auc, make_scorer, recall_score, accuracy_score, précision_score, confusion_matrix scorers = { 'recall_score': make_scorer(recall_score), 'précision_score': make_scorer(précision_score), 'accuracy_score': make_scorer(accuracy_score) } # Créer un modèle de base rfc = RandomForestClassifier() # Instancier le modèle de quadrillage grid_search = GridSearchCV(estimator = rfc, param_grid = param_grid, scoring=scorers, refit='recall_score', cv = 10, n_jobs = -1, verbose = 2) train_features = X_train_res grid_search.fit(train_features, train_labels) rf_best_grid = grid_search.best_estimator_ rf_best_grid.fit(train_features, train_labels) rf_predictions = rf_best_grid.predict(X3_test) print(accuracy_score(y3_test, rf_predictions)) print(confusion_matrix(y3_test, rf_predictions)) print(classification_report(y3_test, rf_predictions)) 0.92 [[ 46 14] [ 4 161]] précision rappel f1 score support 0 0.92 0.77 0.84 60 1 0.92 0.98 0.95 165 exactitude 0.92 225 moyenne macro 0.92 0.87 0.89 225 moyenne pondérée 0.92 0.92 0.92 225 Le résultat a montré qu'un quadrillage a permis d'augmenter légèrement la précision globale, tout en maintenant le FN au même niveau.  Traçons également les comparaisons avec l'ASC : confusion_matrix4 = pd.crosstab(y3_test, rf_predictions, rownames=['Actual'], colnames=['Predicted']) sns.heatmap(confusion_matrix4, annot=Vrai, fmt = 'g', cmap="YlOrBr") print("LABEL ENCODING + STRATIFY") print(classification_report(y3_test, 1-y3_hat)) print("ASC = ",roc_auc_score(y3_test, 1-y3_hat),'\n\n') print("SMOTE") print(classification_report(y3_test, 1-y_res_hat)) print("ASC = ",roc_auc_score(y3_test, 1-y_res_hat), '\n\n') print("SMOTE + LBG Selected Weights + RF Grid Search") print(classification_report(y3_test, rf_predictions)) print("ASC = ",roc_auc_score(y3_test, rf_predictions), '\n\n\n') y_res_hat_probs = LR.predict_proba(X3_test) y_res_hat_probs = y_res_hat_probs[:, 1] predictions_rf_probs = rf_best_grid.predict_proba(X3_test) #(X_validation) predictions_rf_probs = predictions_rf_probs[:, 1] fpr_res, tpr_res, _ = roc_curve(y3_test, 1-y_res_hat_probs) fpr_rf_res, tpr_rf_res, _ = roc_curve(y3_test, predictions_rf_probs) plt.figure(figsize=(10,10)) plt.plot([0, 1], [0, 1], 'k--') plt.plot(fpr, tpr, label="Base") plt.plot(fpr2,tpr2,label="Label Encoded") plt.plot(fpr3,tpr3,label="Stratify") plt.plot(fpr_res,tpr_res,label="SMOTE") plt.plot(fpr_rf_res,tpr_rf_res,label="SMOTE + RF GRID") plt.xlabel('False positive rate') plt.ylabel('Vrai positive rate') plt.title('ROC curve') plt.legend(loc="best") plt.show() CODAGE D'ÉTIQUETTES + STRATIFICATION précision rappel f1 score support 0 0.95 0.58 0.72 60 1 0.87 0.99 0.92 165 exactitude 0.88 225 moyenne macro 0.91 0.79 0.82 225 moyenne pondérée 0.89 0.88 0.87 225 ASC = 0.7856060606060606 MODIFICATION précision rappel f1 score support 0 0.69 0.75 0.72 60 1 0.91 0.88 0.89 165 exactitude 0.84 225 moyenne macro 0.80 0.81 0.81 225 moyenne pondérée 0.85 0.84 0.85 225 ASC = 0.8143939393939394 MODIFICATION + LBG Pondérations sélectionnées + Quadrillage RF précision rappel f1 score support 0 0.92 0.77 0.84 60 1 0.92 0.98 0.95 165 exactitude 0.92 225 moyenne macro 0.92 0.87 0.89 225 moyenne pondérée 0.92 0.92 0.92 225 ASC = 0.8712121212121211       Le résultat a montré qu'après des comparaisons d'algorithmes et un quadrillage suivant, nous avons réussi à faire passer l'ASC de 78 % à 87 %, avec une précision globale de 92 % et un rappel de 77 %.   ### **Récapitulatif de l'approche "ML traditionnelle"** Qu'en est-il réellement de ce résultat ? Il est correct pour un processus manuel de base avec des algorithmes ML traditionnels. Comment ce résultat apparaît-il dans les tableaux de compétition Kaggle ? Eh bien, il ne figurerait pas dans le tableau de classement. J'ai passé le jeu de données brutes par le service AutoML actuel de DataRobot, le meilleur résultat serait un ASC équivalent de ~90+% (à confirmer avec des données similaires) avec le modèle " Classificateur arborescent XGB avec fonctions d'apprentissage non supervisé " (XGB Trees Classifier with Unsupervised Learning Features), sur une comparaison des 43 meilleurs modèles. C'est peut-être le genre de modèle de base que nous devrions utiliser si nous voulons vraiment être compétitifs sur Kaggle. Je joindrai également la liste des meilleurs résultats par rapport aux modèles dans le github. Finalement, pour les cas réels spécifiques aux sites de soins, j'ai le sentiment que nous devons également intégrer un certain degré d'approches d'apprentissage profond personnalisées, comme mentionné dans la section "Données et tâches" de ce billet. Bien sûr, dans les cas réels, l'endroit où collecter des colonnes de données de qualité pourrait également être une question initiale.   ## L'approche IntegratedML? Ce qui précède est un processus de ML dit traditionnel, qui comprend normalement l'EDA des données, l'ingénierie des caractéristiques, la sélection des caractéristiques, la sélection des modèles, et l'optimisation des performances par la quadrillage, etc. C'est l'approche la plus simple à laquelle j'ai pu penser jusqu'à présent pour cette tâche, et nous n'avons même pas encore abordé le déploiement du modèle et les cycles de vie de la gestion des services - nous le ferons dans le prochain article, en examinant comment nous pourrions tirer parti de Flask/FastAPI/IRIS et déployer ce modèle de ML de base dans une pile de services de démonstration de la radiographie de Covid-19. IRIS dispose désormais d'IntegratedML, qui est une enveloppe SQL élégante d'options puissantes d'AutoMLs. Dans la deuxième partie, nous verrons comment accomplir la tâche susmentionnée dans le cadre d'un processus simplifié, de sorte que nous n'aurons plus à nous préoccuper de la sélection des caractéristiques, de la sélection des modèles, de l'optimisation des performances, etc. Jusqu'ici, cet article pourrait être trop long pour une note de 10 minutes visant à intégrer rapidement les mêmes données, c'est pourquoi je le déplace vers [l'article suivant, partie II](https://fr.community.intersystems.com/post/pr%C3%A9dictions-de-covid-19-icu-ml-vs-integratedml-partie-ii).