L'impact de l'intelligence artificielle dans la conduite de l'enquête judiciaire
- Par la rédaction du site PJGN
- Publié le 16 décembre 2020, mis à jour le 13 juin 2023
- « Beaucoup en parlent et peu la comprenne : qui suis-je ? »
- « L’intelligence artificielle », bien sûr !
Au regard de l’importance sociale que revêt l’enquête judiciaire pénale dans une société, il est essentiel d’approcher ce sujet sans fantasme ni passion. Définir ce qu’est l’intelligence artificielle (IA), à ce jour, décrire en quoi l’enquête judiciaire subit ou a subi des transformations ces dernières années et comment, naturellement, et ce de manière inexorable, ce nouvel outil technologique, va venir enrichir la palette déjà large des moyens mis à la disposition des enquêteurs et magistrats dans la conduite des enquêtes, nécessite d’y consacrer un peu de temps. Je gage qu’à l’identique des avancées technologiques qui ont effrayé le public au travers les temps, ces algorithmes viendront renforcer l’importance de la dimension humaine dans la conduite de notre action, pour peu que nous décidions de l’appréhender, de nous en saisir et de l’employer avec notre intelligence. S’il est évident que demain la conduite d’une enquête judiciaire se fera différemment, elle le sera toujours par des enquêteurs et magistrats nécessairement à l’aise avec ces outils et formés à leur emploi.
L'intelligence artificielle et l'enquête judiciaire
Lorsque l’on regarde les capacités des algorithmes actuels, on est bien loin des fantasmes qui laissent à penser que l’esprit humain sera supplanté dans toutes ses dimensions. En revanche, devant la multiplicité infinie des données, l’IA les classe mieux, les lie mieux et surtout se souvient de tout, et cela dans un temps très court. A l’aide de cet assistant, l’enquêteur et le magistrat pourront voir, analyser et confronter plus de pièces dans un dossier toujours plus volumineux et complexe. « L’œil ne voit dans les choses que ce qu’il y regarde et il ne regarde que ce qui est dans l’esprit (1)». La multitude des pièces d’un dossier pénal nous permet-elle, encore, de tout regarder ?
L'intelligence artificielle
L’IA n’est pas un objet unique et homogène en soi et cela se constate dans la définition ambitieuse et non atteinte que l’on retrouve dans le dictionnaire le trésor de la langue Française (TLF) élaboré par ATILF (2), : « Intelligence artificielle : recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à celles des êtres humains ». Pour remplir son objectif il lui faut nécessairement disposer de données en grande quantité (big data), des outils statistiques et probabilistes et si possible des algorithmes permettant de classer, valoriser et confronter ces données.
Les données
La loi N°2016-1321 du 7 octobre 2016 pour une république numérique (PRN) ouvre à tout un chacun un champ extraordinaire de données jusque-là confidentielles ou éparses. Des limites sont établies et liées à la confidentialité, la sécurité ou à l’anonymisation de ces données (3). Néanmoins ces données peuvent être naturellement couplées à d’autres données elles aussi librement accessibles, ou non, afin de constituer des bases ressources pour les utilisateurs d’outils numériques à même de les lier, les classer, les contextualiser, les croiser, en un mot d’en retirer une information supérieure à celle de départ. Si les données scientifiques issues des outils communément employés en sciences forensiques sont nativement ordonnées, celles, écrites, issues de la procédure judiciaire nécessitent des outils de traitement du langage naturel (TAL) afin de préparer leur exploitation automatique par des algorithmes dédiés.
Les outils
Il convient tout d’abord de distinguer deux familles de programmes : les systèmes experts (SE) et l’apprentissage automatique (Machine Learning) faisant partie intégrante du domaine de l’Intelligence Artificielle. (Conseil de l'Europe, 2018) Dans le premier cas on apprend à l’outil en lui fournissant des exemples, dans le second cas on demande à l’outil de retrouver, parmi les données à sa disposition, ce qui est susceptible de nous intéresser.
Les Systèmes Experts (4) se basent sur un modèle explicatif auquel il faut associer des paramètres permettant d’établir un ou plusieurs résultats. L’utilisation d’algorithmes d’apprentissage automatique s’emploie dans des situations où une démarche déterministe n’est pas concevable. Ainsi, l’apprentissage machine va consister à élaborer un modèle de corrélation réaliste entre des variables prédictives (données d’entrées) et des variables cibles (résultats). Pour cela, l’apprentissage automatique s’appuie sur un ensemble d’outils statistiques et d’algorithmes informatiques permettant d’automatiser la construction d’une fonction de prédiction.
Un système expert est un outil capable de reproduire les mécanismes cognitifs d’un expert, dans un domaine particulier. Plus précisément, il s’agit d’un logiciel capable de répondre à des questions, en effectuant un raisonnement à partir de faits et de règles connues. Il se compose de 3 parties : une base de faits, une base de règles, un moteur d’inférence.
Le moteur d’inférence est capable d’utiliser des faits et des règles pour produire de nouveaux faits, jusqu’à parvenir à la réponse à la question experte posée.
L’apprentissage machine fonctionne par une approche inductive et permet de construire un modèle mathématique à partir de données, en incluant un grand nombre de variables qui ne sont pas connues à l’avance.
Les paramètres sont configurés au fur et à mesure lors d’une phase d’apprentissage, qui utilise des jeux de données d’entraînement pour trouver des liens et les classifie. Les différentes méthodes d’apprentissage machine sont choisies par les concepteurs en fonction de la nature des tâches à accomplir.
Précurseur de l’Intelligence Artificielle, les systèmes experts s’appuient sur la logique formelle et utilisent le raisonnement déductif. Les systèmes experts ont connu un rapide développement dans les années 90, néanmoins différentes études ont montré leurs limites en performance et maintenance au-delà de 200 règles d’encodages. Dans le cas où le raisonnement nécessite un très grand nombre de règles ou qu’il est trop complexe à expliciter, il est préférable de se tourner vers un système d’apprentissage automatique qui va rechercher des corrélations entre données d’entrées et résultats. La figure 3 infra illustre les différentes catégories et sous-catégories d’apprentissage automatique ainsi que les activités qu’il est ainsi possible d’automatiser à ce jour.
En dépit de leur performance accrue dans de nombreux domaines, il est souvent très difficile d’expliquer les décisions proposées par les algorithmes de manière intelligible. Cette méconnaissance est principalement due aujourd’hui au changement de paradigme introduit par l’avènement de l’apprentissage, en particulier l’apprentissage profond (deep learning) (5).
Une attention particulière doit être portée quant au développement de l’outil numérique en fonction de son utilisation dans l’enquête. Ainsi le choix de la technique d’apprentissage employé, l’éthique en conception, la loyauté , l’absence de biais et l’absolue nécessité de pouvoir expliciter les arguments qui ont permis à l’outil de prendre une décision en particulier constitue le fil rouge dans la construction initiale de ces outils d’aide à l’enquête judiciaire (6).
Néanmoins, la description qui vient d’être faite supra des outils proposés par l’IA n’éclaire pas vraiment l’enquêteur et le magistrat en charge d’une enquête judiciaire quant au processus qui aura conduit l’IA à leur faire des propositions, ce qui génère une appréhension quant à l’emploi de ces outils dans un domaine aussi important que celui de la justice pénale.
Une solution
Il existe, fort heureusement, un « Deus ex machina » à ce dilemme. Dans le cadre de la conduite d’une enquête, nous nous trouvons devant le même problème théorique que celui de la résolution d’une équation complexe (du quatrième degré que l’on apprend à résoudre au lycée) qui comporte de nombreux facteurs inconnus et dont on recherche une solution.
Exemple d'une équation du 4ème degré : 4x4 + 10x3 - 28x2 - 46x + 60 = 0
En appliquant la méthode de Ferrari (1522-1565) la résolution s’opère en une vingtaine d’étapes. En utilisant un logiciel adapté en quelques millisecondes. Je gage que la plupart d’entre nous opte pour l’emploi d’un logiciel dédié. Les solutions de l'équation de départ sont fournis par le logiciel et sont ( x = -3, ou -5/2, ou 1 ou 2). Tout comme pour l’IA , la majorité d’entre nous ne maîtrise pas la conception de l’outil logiciel de résolution. En revanche nous faisons confiance à la machine, car nous pouvons vérifier le résultat, en remplaçant « x » par une des solutions directement dans l’équation.
Vérification d'une solution proposée par le logiciel :
4x4 + 10x3 - 28x2 - 46x + 60 = 0
ce qui donne 4(1)4 + 10(1)3 - 28(1)2 - 46(1) + 60 =0
4 + 10 - 28 - 46 + 60 = 0 et donc 0 = 0
De la même manière, lorsque l’exploitation des données d’enquête par l’IA à qui nous aurons confié l’ensemble des données, conduira le logiciel à nous proposer un lieu, une personne, un temps particulier, une action ou qu’il soulèvera une contradiction entre les déclarations ou les faits, nous aurons tout loisir de reprendre les éléments proposés par l’outil informatique et de le confronter à la réalité du dossier. D’autant plus facilement que l’ergonomie des outils fournira des indexations pour retrouver aisément les pièces nécessaires au sein du dossier quel qu’en soit son volume.
L’utilisateur, magistrat ou enquêteur, d’outils informatiques complexes utilisant l’IA pour exploiter l’ensemble des données disponibles dans un dossier judiciaire, se retrouve dans une situation qu’il connait déjà en police judiciaire, et qui consiste à disposer d’une pièce de procédure provenant d’un renseignement issu d’une source anonyme, et qui vient éclairer des faits. Cette information pourra être confrontée aux pièces du dossier existant et guider la suite des investigations. Ainsi, qu’elle provienne d’une source anonyme ou d’itération complexe réalisée par des algorithmes, enquêteurs et magistrats sont familiers des propositions ou des informations dont ils n’ont pas la compréhension complète, mais qu’ils peuvent vérifier.
Les données d'entrée dans l'enquête judiciaire
La pratique professionnelle quotidienne permet très rapidement de comprendre que le volume des dossiers judiciaires, en dehors de la complexité juridique, s’accroît considérablement au fil des ans. En découpant la conduite d’une enquête en trois phases, nous pouvons constater que le domaine des constatations s’est enrichi, celui des auditions, multiplié, et bien entendu celui des expertises complexifié. Nous sommes actuellement à un point où il me semble difficile pour un cerveau d’appréhender de manière holistique toutes ces données. L’IA, avec les capacités décrites ci-dessus, représente don une chance pour nous permettre d’assurer l’exploitation, efficiente, de ces données d’enquête. Car bien entendu personne ne peut accepter qu’il ne peut exploiter les données dont il dispose ou qu’il risque de passer à côté d’une information, car il n’aura pas pu se rappeler une contradiction entre un fait et un témoignage, noyé parmi des centaines d’autres.
Les constatations
« Les premières constatations faites dans n’importe quel crime ou délit sont la pierre angulaire de tout procès » explique Bischoff en 1938 (7). En dressant à gros traits la partie constatation systématique au travers le dernier siècle, nous sommes passés du croquis au début du vingtième siècle à la photographie noir et blanc, puis couleur vers le milieu du siècle, dans des dossiers photos toujours plus volumineux, complétés pour terminer le siècle par des films vidéo. Nous démarrons le vingtième et unième siècle avec des numérisations, des laser scanner, du tachéomètre, de la photogrammétrie, pour aboutir à de la visite panoramique, voire de l’immersion 3D numérique, couplés à des capacités d’intégration de scénario ou de calcul de trajectoire ou de son(8). Au sein du Pôle Judiciaire, nous conduisons un projet « Janus » qui permet de travailler sur des scènes de crimes virtualisées et des indices dématérialisés afin d’étudier les faits à plusieurs, de retravailler les indices et de vérifier les hypothèses en réalité augmentée. Ces développements se font en lien étroit avec le comité éthique du PJGN, comme pour tout développement portant sur l’emploi de nouvelles technologies.
L'aspect collecte
Le recueil des déclarations, des témoignages, les différentes auditions constituent la base du travail d’investigation (9) et bien souvent le premier pas dans la recherche des contradictions ou la vérification des faits. Ce sont désormais plusieurs centaines de pièces qui viennent communément enrichir un dossier. Bien entendu ces pièces sont encore essentiellement transcrites par un enquêteur, mais de plus en plus fréquemment, ou lorsque cela est prévu par la loi, elles sont filmées et enregistrées. Demain elles seront directement enregistrées et retranscrites automatiquement pour des raisons évidentes de coût. Ce sont donc désormais des milliers d’informations à exploiter et confronter.
Les traces et expertises
Le relevé des traces et indices désormais ne se limite plus aux seuls objets présents, ni aux quelques indices visibles, mais aussi à ceux invisibles à l’œil nu. Ce sont des équipements optiques ou physiques qui viennent améliorer la détection et la recherche de ces traces (sang, fibres, pollen, log réseau, données numériques, etc...) Tous ces éléments, une fois prélevés, vont venir enrichir un dossier (10), sans que l’on sache a priori s’ils seront utilisés ou nécessaires à la compréhension du déroulé des faits. Néanmoins on doit les rechercher et les relever dès le départ. Leur analyse vient encore complexifier le dossier, car chacun est porteur d’une information qu’il faut croiser et qui apporte son lot de contradictions lorsqu’ils sont confrontés aux autres indices (un mégot transporté, un ADN de transfert, .). Demain, ce sont de nouveaux indices qu’il faudra prendre en compte comme l’empreinte olfactive (11) et toutes les informations présentes au travers les objets connectés ou sur le cloud. Désormais l’ère de l’exploitation des documents numérisés est derrière nous, nous entrons dans celle de l’exploitation de la donnée numérique, que seule l’IA peut porter.
Valeur indiciale
En un siècle nous sommes passé de dizaines de données, à des milliers au vingtième siècle, puis à des millions voire des milliards en ce début de vingtième et unième siècle, il est flagrant que les outils pour les exploiter ne peuvent plus être un crayon et un cerveau. D’ailleurs la plupart des données sont stockées sur des disques durs ou clef USB, afin d’être conservées. Il est désormais impossible de réaliser le tirage papier du contenu d’une clef USB (photos, documents, fichiers divers) ou de la mémoire d’un ordinateur. Des outils d’assistance à même de croiser et lier ces données sont nécessaires. Les poids respectifs et relatifs des indices selon les hypothèses ne peuvent plus être réalisés à la main, les réseaux bayesiens (12) sont autant d'outils qui vont venir demain replacer chacun à sa place, les contextualiser dans le temps et l’espace afin de donner une fiabilité aux éléments de preuves exposés au procès. L’intelligence artificielle arrive pour accomplir ce travail de mémoire, de classification, de valeurs et de connexions entre les faits et les indices, qui sont retrouvés dans les dossiers judiciaires, afin de rechercher cette vérité exposée au procès pénal.
L'usage de l'IA
L’IA s’inscrit dans la continuité de l’informatique augmentée par la masse de données. L’accès à ces données, combinée avec la possession d’outils informatique communs et des algorithmes adaptés, confère un savoir et une connaissance que l’on ne peut pas laisser hors de notre conduite d’enquête. Tous les métiers, dont les dimensions de créativité et de réflexion sont faibles, seront directement concurrencés par l’IA, et au regard de la variété des affaires et de la créativité et de l’imagination toujours renouvelées des criminels. La dimension humaine ne pouvant être supplantée par des machines, enquêteurs et magistrats ne risquent pas de se voir substituer par de l’IA.
L'automatisation
Actuellement les techniques d’apprentissage permettent de retrouver la photo d’un individu, d’un objet, d’une arme parmi les milliers de photos contenues communément dans un ordinateur, un téléphone ou même le WEB. Personne ne souhaite rechercher un individu parmi des milliers de photos, dans le cadre d’une enquête judiciaire afin de dresser assez rapidement un environnement des connaissances d’un intéressé. De la même manière en ce qui concerne l’exploitation de centaines d’heures de vidéo à la recherche du passage d’un véhicule ou d’un individu. La vidéo-surveillance intelligente (VSI) dispose, quant à elle, d’une extraordinaire capacité de détection et d’identification pour modéliser des données et anticiper des situations. Les techniques d’apprentissage de l’IA dédiées à la reconnaissance d’objets ou de formes dans un contenu numérique sont naturellement acceptées pour notre confort et constituent un apport non contesté. L’usage de l’IA dans ces domaines n’est quasi jamais remis en cause, dans le respect de principes éthiques garantis au sein du Pôle judiciaire de la Gendarmerie Nationale par son comité d’éthique.
Les liens relationnels
Parmi les éléments d’enquêtes que l’on aura à étudier avec ces nouveaux outils, nous disposons d’auditions, de relevés bancaires, téléphonique, et des déclarations qui sont l’objet d’exploitation par des logiciels dédiés à relever des incohérences, à repositionner dans une échelle de temps et géographiques ou à générer des schémas relationnels. L’incrémentation de ces données à partir des documents papiers ou numériques est longue. Les outils de l’intelligence artificielle permettent de détecter ces éléments directement dans des textes, à les identifier et les classer selon leur signification et à générer quasi automatiquement ces schémas relationnels supra. Le gain de temps et la souplesse d’emploi rendent l’acceptation de ces outils évidente. Être en mesure de procéder à ces classements et ces liens, en temps réel à partir d’enregistrements sonores ou numériques correspond à une automatisation quasi naturelle qui ne saurait tarder. Les algorithmes en viendront naturellement à souligner au fil de l’eau des incohérences, et ainsi suggérer des questions qui appuieront le travail des enquêteurs et des magistrats. La reconnaissance vocale lors de l’écoute d’un enregistrement utilise l’IA (un apprentissage profond) et les outils comme GendVox (développé à l’IRCGN) permettent d’attribuer un nom à chaque locuteur dans une conversation, cela représente un gain de temps évident.
La détection d'incohérence
L’étape suivante et logique qui est rendue possible par le développement actuel des algorithmes mettant en œuvre de l’intelligence artificielle reviendra à détecter au travers les phrases employées ou les mots, les tonalités, le comportement global ou le rythme des déclarations, les omissions, les tentatives de mensonges ou la vraie détresse dans la voix. L’emploi de l’IA dans le cadre d’un appel au 112 par exemple qui permettrait de détecter dans la voix une réelle angoire, voire signer une maladie, sera faiblement remise en question. Comment ne pas utiliser ces nouveaux outils qui permettront à la justice ou au monde des urgences de rendre un travail plus fiable et plus efficient ? La détection du mensonge est à portée de l’IA. Tout comme actuellement un enquêteur ou un magistrat, par son travail de mémoire et son expérience, doit être en mesure de révéler les incohérences dans une déclaration, les contradictions dans les auditions ou le comportement anormal d’un individu tout en gardant la distance par rapport à ses a priori sociaux.
La rapidité de traitement des données liée à l’optimisation des logiciels sur des environnements maîtrisés permet déjà de détecter des comportements anormaux d’individus dans une foule, ce qui permet à l’outil informatique d’attirer l’attention de l’opérateur vidéo sur ces individus. Cela peut être considéré comme une levée de doute. Et pourtant lorsque l’on essaie de comprendre tous les mécanismes qui ont été nécessaires pour que le logiciel détecte tel individu dans la foule, nous devons constater et admettre qu’il a suivi des phases d’apprentissage et qu’il a affiné son pouvoir discriminant en apprenant par lui-même, c’est-à-dire en modifiant d’initiative quelques variables, grâce à des données fournies par son concepteur ou qu’il aura récupérées. Ce mode de fonctionnement de l’intelligence artificielle qui consiste à agréger des couches de logiciels, souvent disponibles en open source, ne permet pas de remonter le processus décisionnaire. C’est la raison pour laquelle l’aspect contrôle et vérification par l’opérateur, d’un résultat fourni par l’IA, reste une nécessité, tant dans ses aspects opérationnels que déontologiques et éthiques.
Les faux
A l’heure actuelle l’IA est déjà utilisée en masse par les criminels, et je ne parlerai que des cas les plus flagrants comme l’utilisation de virus, de vers (13) ou de malware. Mail il existe de plus en plus de modifications de photos, de films, de voix, qui sont l’œuvre d’utilisateurs malveillant d’outils facilement employables et très puissants du fait des algorithmes employés et ce à faibles coûts et faibles compétences. Seule l’IA est en mesure de les combattre, car elle permet des détections en temps réel et sur des flux très importants, ce que des opérateurs humains ne peuvent faire. Une réputation peut être détruite, une élection influencée, et, en matière criminelle, la maîtrise de ces outils pourrait permettre de donner des faux indices pour incriminer un individu innocent. Je n’ose même pas aborder le fait de la prise en compte à distance et leur modification dans des véhicules connectés. L’enquêteur et le magistrat ne peuvent se passer de l’IA pour se prémunir de ces fausses preuves.
Conclusion
L’enquêteur ou le magistrat de demain devra être en mesure de comprendre les résultats fournis par ces nouveaux « sens » développés grâce à l’IA et appréhender les biais générés par ces nouveaux outils. Il devra être en mesure de distinguer la statistique (science de la donnée du passé) de la probabilité (science de la donnée du devenir), et de les utiliser. Le sixième sens dont nous dote l’intelligence artificielle va devoir être intégré et géré par notre cerveau afin qu’il ne fasse pas qu’amplifier nos capacités individuelles, mais qu’il affine notre intelligence humaine. La disponibilité étendue de la connaissance offerte par l’IA est une opportunité qu’un professionnel ne peut laisser de côté. Comme nous le savons tous, l’Histoire regorge d’exemples démontrant que l'évolution technique ne devient progrès qu’en fonction de la pertinence de ses applications et qu'en la matière, les risques de dérives sont légion, surtout si on ne l’accompagne pas. L’Intelligence artificielle c’est l’expertise partout et accessible à tous, la conduite de l’enquête judiciaire ne sera pas épargnée et il ne paraît pas concevable que la justice se fasse hors des tribunaux, par des utilisateurs de données et d’algorithmes, dont la déontologie et l’éthique ne seraient pas éprouvées. La présence d’un individu dans tel magasin est désormais connue de nos applications informatiques, il serait regrettable que l’enquête l’ignore.
A travers le machine learning (apprentissage de la machine) et l’exploitation de données de masse c’est la capacité de faire des analyses prédictives qui est en jeu. A aucun moment, il ne s’est agi ici de parler de justice prédictive ou de police prédictive, qui font appels à d’autres paradigmes, car la problématique de la conduite de l’enquête se suffit à elle-même. Au regard des milliards de données constituant un dossier pénal ce jour, il n’apparaîtrait pas responsable de se passer de l’IA dans la recherche de la vérité judiciaire.
Références
1 Devise attribuée par Lacassagne à Bertillon (Niceforo 1907).
2 Laboratoire Analyse et Traitement Informatique de la Langue Française, membre du CNRS.
3 Depuis l’entrée en application du RGPD, la Cour de justice de l’UE [pseudonymise elle aussi les parties personnes physiques : voir son communiqué n° 96/18 du 29 juin 2018.
4 Commission européenne pour l’efficacité de la justice (CEPEJ), Charte éthique, p.34
5 Villani, donner un sens à l'intelligence artificielle, 2018
6 Rapport CNIL : Comment permettre à l'homme de garder la main ? Décembre 2017
7 Bischoff, M La police scientifique, Paris, Payot, 1938
8 Fixation de l'état des lieux par moyens spéciaux (IRCGN). H. Daudigny et al, revue géomètre XYZ, N° 138, 2014
9 "Les secrets des interrogatoires et des auditions de police"; O. Guéniat, presse romande, 2012
10 "Le renseignement par la trace", O. Ribaux, presse romande, 2014
11 Cuzuel V, Cognon G, IRCGN. Origin, analytical characterization and use of human odor in forensics. J Forensic Sci 2017
12 « Bayesian networks for probabilistic inference and decision analysis in forensic science », F.Taroni, Hardcover 2014
Ces contenus peuvent vous intéresser
Quantification rapide d’ADN par fluorimétrie à partir de prélèvements biologiques issus de cadavres et d’objets de références
Mots clés : Quantification ADN - fluorimétrie - DeNovix - Identification...
Article
Étude comparative de rehausseurs des traces papillaires ensanglantées sur support non poreux
Mots clefs Criminalistique - Traces papillaires ensanglantées...
Article
IGSR/OGSR : Étude de faisabilité d'une analyse conjointe
Mots clefsGunshot residue (GSR) - IGSR - OGSR - MEB/EDS - HPLC/HRMS
Article
Mise en évidence par ablation laser couplée à la spectrométrie de masse à plasma induit de marqueurs minéraux entrant dans la composition des encre...
Mots clefsProduits de marquage codés - systèmes intelligents de neutralisation...
Article
Contacter la gendarmerie
Numéros d'urgence