R

RAG

O RAG, ô désespoir, ô vieillesse ennemie !

N'ai-je donc tant vécu que pour être mal compris?

se lamentait le LLM, rattrapé par l'ancienneté de ses données d'entraînement, source de frustration et d'agacement certains de ses utilisateurs...

Car, oui, une IA aussi, ça vieillit.

Conscients de cette faiblesse structurelle du modèle - ce qui n'a rien de surprenant puisque ce qui nourrit et fait vivre une IA, après tout, ce sont les données, et les données aussi ont une vie - , voilà nos équipes techniques qui se penchent sur le problème et imaginent plusieurs pistes...

Deux options - complémentaires - émergent : - une actualisation du modèle avec un corpus de données plus petits, spécialisées dans un domaine, mais surtout déjà organisées et étiquetées avant d'être injectées; c'est ce qu'on appelle le réglage fin, ou fine tuning. Cet étiquetage par les humains est appelé apprentissage supervisé. - un enrichissement du modèle initial en le complétant par des données issues de sources externes bien définies : c'est la génération augmentée par récupération ou RAG pour les intimes.

Ca marche comment, le RAG?

L'idée est de pouvoir localiser dans les sources de données internes des informations pertinentes pour la requête de l’utilisateur, données qui seront ensuite utilisées pour générer des réponses plus précises. Il faut donc mettre en place un mécanisme de récupération des données pour augmenter le LLM afin de générer des réponses plus pertinentes.

Le RAG passera par quatre étapes (source : https://www.ibm.com/fr-fr/think/topics/rag-vs-fine-tuning) :

Requête : un utilisateur soumet une requête qui lance le système RAG.
Récupération d’informations : des algorithmes complexes passent au peigne fin les bases de connaissances de l'organisation à la recherche d’informations pertinentes.
Intégration : les données récupérées sont combinées à la requête de l’utilisateur et transmises au modèle RAG pour qu’il y réponde. À ce stade, le LLM n’a pas encore traité la requête.
Réponse : en combinant les données récupérées à ses données d’entraînement et aux connaissances stockées, le LLM génère une réponse adaptée au contexte.

RAG - schéma

On comprend aisément que le RAG n’altère pas le modèle lui-même, mais qu'il l’augmente avec un composant de recherche externe, compensant ainsi les potentiels défauts de qualité du modèle d'origine par l'adjonction de données plus pertinentes, mais aussi plus maîtrisées.

A contrario, le fine tuning permet d'améliorer la qualité globale des données, mais cela peut poser des problèmes, notamment de consommation de ressources, lorsqu'on cherche à spécialiser le LLM dans un domaine où les connaissances évoluent fortement, nécessitant ainsi des mises à jour régulières très coûteuses. Par ailleurs, il conviendra d'être vigilant sur les requêtes hors de la spécialité visée par le modèle.

Autre avantage du RAG : lorsqu'ils traitent des documents internes, les systèmes RAG utilisent la recherche sémantique et non plus l'approche statistique organisant les données par similarité, permettant ainsi des recherches par signification plutôt que par mot clé, intégrant de ce fait l’intention d’une requête dans la recherche, et renvoyant en conséquence des données les plus pertinentes.

En revanche, mettre en place un RAG nécessite un effort dans la conception et la maintenance du système d'extraction, car il faut concevoir et maintenir des pipelines qui vont permettre de récupérer les données issues des bases internes.

Et puis, mais cela est vrai pas seulement pour le RAG, la qualité du résultat obtenu dépend très fortement de la qualité des données source...

Pour en savoir plus

le lien vers l'article sur le site d'IBM qui a nourri cette entrée du geektionnaire : https://www.ibm.com/fr-fr/think/topics/rag-vs-fine-tuning
un article intéressant sur le site Yihao : https://www.yiaho.com/rag-retrieval-augmented-generation-en-ia-definition-explication-et-exemple/
Le "Guide de la génération augmentée par récupération (RAG)", sur le site de la Direction générale des entreprises du ministère de l'économie : https://www.entreprises.gouv.fr/la-dge/publications/guide-de-la-generation-augmentee-par-recuperation-rag

RAID

voir SSD

Référentiels généraux

Ils forment un groupe de six, qui n'a rien à voir avec celui que formèrent, entre 1916 et 1923, les compositeurs Georges Auric (1899-1983), Louis Durey (1888-1979), Arthur Honegger (1892-1955), Darius Milhaud (1892-1974), Francis Poulenc (1899-1963), et Germaine Tailleferre (1892-1983).

Pas plus qu'ils ne font référence au nombre maximum de maillons d'une chaîne de relations individuelles reliant deux individus sur la Terre, selon la théorie des six poignées de main.

Non, il s'agit plus prosaïquement des 6 référentiels généraux de l'Etat (et pas un pour les gouverner tous), applicables dans le domaine du numérique, à savoir :

RGAA : Référentiel Général d’Amélioration de l’Accessibilité : facilite la mise en accessibilité des sites et services numériques aux personnes en situation de handicap;
RGESN : Référentiel Général d’Écoconception des Services Numériques : vise à réduire l’impact environnemental des services numériques en encourageant les bonnes pratiques d’écoconception ;
RGS : Référentiel Général de Sécurité : définit les règles pour garantir la sécurité des systèmes d’information publics (authentification, signature électronique, chiffrement, etc.) ;
RGI : Référentiel Général d’Interopérabilité : encourage l’interopérabilité entre les systèmes informatiques de l’administration et favorise l’utilisation de standards ouverts ;
RGGA Référentiel Général de Gestion des Archives : fournit des bonnes pratiques pour l’archivage de documents numériques ;
RGPD Règlement Général sur la Protection des Données : Réglementation européenne sur la protection des données personnelles.

RG héros

le RGAA

C'est la boite à outils de l'accessibilité numérique. L'accessibilité numérique, c'est la pratique qui consiste à rendre un site ou un service numérique utilisable par l'ensemble des usagers porteurs d'un handicap. L'accessibilité numérique est une obligation légale portée par la loi du 11 février 2005.

Actuellement, nous en sommes à la version 4 du RGAA. Il est disponible sur le site https://accessibilite.numerique.gouv.fr. Les bonnes pratiques d'Ux / Ui contribuent à augmenter l'accessibilité d'un site. En effet, simplifier un parcours utilisateur sera facilitant pour tout usager : limiter le nombre de clics souris par exemple. L'utilisation d'une souris peut être délicate pour des dyspraxiques, des personnes atteintes de polyarthrite déformante ou toute autre pathologie limitant l'usage des mains.

L'accessibilité d'un site ou d'un service s'évalue autour de 106 critères répartis en 13 catégories. Le RGAA comporte la description précise du critère ainsi que la méthodologie du test à utiliser pour vérifier son code.

L'évaluation de l'accessibilité peut être réalisée par l'organisme propriétaire du service numérique en auto-évaluation ou par un tiers. La phase finale d'audit est la déclaration d'accessibilité. Le contenu de la déclaration d'accessibilité est décrit sur le site référence de l'accessibilité (voir supra) et elle doit être publiée sur internet dans un format accessible.

Chaque service en ligne doit permettre aux usagers de transmettre des réclamations quant à l'accessibilité du service.

En somme : le RGAA, c'est bon pour tout le monde : un process, un site, un service qui est accessible est plus ergonomique, plus facilitant pour l'ensemble des usagers, pas uniquement ceux avec un handicap.

le RGESN

Cousin du RGAA (mais aussi proche parent des RGI et RGS), le RGESN ou Référentiel général d’écoconception des services numériques, intègre une dimension environnementale et vise à réduire l’impact environnemental des services numériques en encourageant les bonnes pratiques d’écoconception.

Les objectifs visés sont :

Réduire la consommation énergétique et l’empreinte carbone des services numériques ;
Optimiser les ressources en évitant le gaspillage (bande passante, stockage, puissance de calcul) ;
Améliorer la performance et la sobriété des sites web et applications ;
Favoriser la durabilité des équipements en limitant l’obsolescence logicielle.

On ne saurait que trop vous recommander de vous plonger dans la lecture détaillée des critères évalués, disponibles sur cette page du site de la MiNumEco, Mission Interministérielle Numérique Écoresponsable : https://ecoresponsable.numerique.gouv.fr/publications/referentiel-general-ecoconception/

Et pour vous aider, les offres d'accompagnement et d'outillage que propose la DNum : cliquer ici

le RGS

Tous les RSSI vous le diront : la sécu, c'est essentiel et ça doit être pris en compte dès le départ, dès la conception de votre système d'information. Souvent perçue comme une contrainte qui ralentit le développement du produit numérique, c'est plutôt l'inverse qui va se produire en réalité... En effet, intégrer a posteriori des éléments liés à la sécurité, c'est toujours plus coûteux, en temps et en efforts. Et on ne parle même pas ici de ce que va générer le traitement d'une intrusion ou d'un acte malveillant dans votre système... Bref, notre Référentiel général de sécurité a pour objectif de définir un ensemble de règles de sécurité afin de développer la confiance des usagers et des administrations dans leurs échanges numériques.

Le département Sécurité et gestion de crise (DSGC) peut d'ailleurs vous accompagner sur ce chantier de sécurisation des SI.

le RGI

Comme son nom l'indique, le Référentiel général d'interopérabilité (RGI) traite... de l'interopérabilité des systèmes d'information (mais noooooon???) Dit simplement, il s'agit de faire en sorte que l’échange et l’exploitation des données entre les administrations, les citoyens et les entreprises ne nécessitent pas une usine à gaz coûteuse et complexe à maintenir. Le maître-mot (en fait, les) : standards ouverts et formats interopérables. On va retrouver ici 5 axes majeurs, à savoir :

Favoriser l’usage de formats ouverts (ex. : ODF, PDF/A) pour garantir la pérennité et la réutilisation des documents ;
Encourager des standards comme HTTP, FTP, SMTP, pour assurer la communication entre les systèmes ;
Utiliser les formats XML, JSON, CSV pour les échanges de données structurées ;
Recommander l’utilisation d’API normalisées et de services web REST/SOAP ;
Promouvoir des standards comme SAML, OpenID Connect, et l’authentification forte via des certificats numériques.

Pour en savoir plus : https://www.numerique.gouv.fr/publications/interoperabilite/

le RGGA

Moins connu que ses petits camarades, et d'ailleurs beaucoup plus difficile à trouver (taper "RGGA" dans la barre de recherche de votre moteur Internet préféré, vous allez majoritairement trouver des références au RGAA... comme quoi, à une lettre près...), le RGGA ou Référentiel général de gestion des archives, s'intéresse principalement au cycle de vie de vos données numériques. Comme il le dit lui-même, "La vie des archives commence dès la création de dossiers ou l'alimentation d'un système d'information par une administration.", et cela touche beaucoup d'objets numériques dont on n'a pas forcément conscience :

les données informatiques contenues dans les systèmes d'information ou échangées par télé-procédures;
les fichiers bureautiques;
les courriels;
les films, photographies ou enregistrements sonores réalisés dans le cadre de l'activité d'une administration;
... et même le code source de vos applications (si le développement a été fait par les services de l'Etat)

Il est donc essentiel d'intégrer dès l'origine la gestion du cycle de vie complet des documents/données numériques produits, en mettant en place des dispositifs techniques et organisationnels garantissant leur fiabilité et leur pérennité. Pour consulter le référentiel en intégralité, c'est ici

le RGPD

Le seul de la bande qui n'est pas un référentiel, mais un règlement, et en plus, il est européen ! Il pointe son nez le 25 mai 2018, avec pour objectif de renforcer la protection des données personnelles des citoyens européens et d'harmoniser les règles en matière de traitement des données au sein de l'UE.

Notre super-héros, pour accomplir sa mission, s'appuie sur 7 principes :

Licéité, loyauté et transparence : toute collecte et traitement de données doivent être effectués de manière licite (avec une base légale claire), loyale et transparente pour la personne concernée ;
Limitation des finalités : les données doivent être collectées pour des objectifs précis, explicites et légitimes et ne doivent pas être réutilisées pour d'autres finalités incompatibles ;
Minimisation des données : seules les données strictement nécessaires doivent être collectées et traitées ;
Exactitude des données : les données doivent être mises à jour et corrigées si elles sont inexactes ;
Limitation de la conservation : les données personnelles ne doivent pas être conservées plus longtemps que nécessaire ;
Sécurité et confidentialité : des mesures techniques et organisationnelles doivent être mises en place pour protéger les données contre les accès non autorisés, la perte ou l'altération ;
Responsabilité : les organismes traitant des données doivent prouver leur conformité au RGPD et documenter les mesures mises en place.

Et pour nous, au pôle ministériel, cela se traduit par un certain nombre d'exigences concrètes à respecter, à savoir :

Désignation d'un Délégué à la Protection des Données (DPO) pour garantir la conformité ;
Encadrement des échanges de données entre services et partenaires institutionnels ;
Sécurisation des plateformes numériques pour prévenir les cyberattaques.
Respect des droits des citoyens (accès, rectification, opposition au traitement de leurs données) ;
Minimisation des données dans les projets numériques et infrastructures informatiques.

Il est disponible sur le site de la CNIL ici : https://www.cnil.fr/fr/reglement-europeen-protection-donnees

Réseau de neurones

Voir Deep Learning

R

RAG