Axe n°2 - Le big data

Les données massives sont un enjeu pour de nombreux acteurs en France, et la Gendarmerie nationale ne fait pas exception : que cela soit à des fins de gestion opérationnelle de ses effectifs et moyens ou à des fins d'investigations criminelle, la gestion et l'exploitation des données fait partie des compétences du gendarme 3.0.

L’expression « Big data » date d’un article scientifique de 1997 sur les défis tech­nologiques à relever pour visualiser « les grands ensembles de données ». Il est la conséquence directe de la multiplication de l’information disponible sous forme de données numériques. Les enjeux induits par les données massives peuvent se synthétiser en règle des 3V : Volume, Vélocité et Variété.

Le volume de données numériques généré par an ne cesse de croître, selon les prévisions il sera de l’ordre de 40 zet­taoctets (4x1022, soit l'équivalent de 4 milliards de disque d'1 Teraoctet) en 2020 au niveau mondial. Or la donnée stockée a un coût en terme d’espace et d’énergie dépensés à la conserver. Comment la capter, la ranger et la conserver au juste besoin, en conformité avec un cadre juri­dique évolutif ? Vient ensuite s’ajouter la problématique de la variété des données à traiter : données structurées, non structurées, données brutes ; multi­plicité des formats, texte, audio, vidéo ; formats de données publiques ou proprié­taires ; lien entre les données ; textes multilingues, etc. Si les outils de collecte de données en source ouverte se sont multipliés, un travail continu de recherche et d’innovation est nécessaire pour accéder à toute la donnée disponible au moindre coût. Enfin le Big data ne sert à rien sans la vélocité : il faut pouvoir accéder à la donnée ou au résultat recherché rapidement : moteurs de recherche, outils de criblage, techniques de rapprochement sont au coeur de ce troisième enjeu, et font l’objet d'axes prioritaires de recherche.

À ces trois enjeux (volume, variété et vélocité) s’ajoutent les nombreux su­jets de recherche visant à l’exploitation statistique des données massives une fois rangées et prêtes à l’emploi. Les données massives ouvrent très largement le champ de l’exploitation de la statistique descriptive (techniques pour décrire un nombre important de données) et de la statistique inférentielle (techniques pour induire des caractéristiques inconnues d’une population à partir d’échantillons de celles-ci, avec une certaine marge d’erreur) : cette dernière ouvre le chapitre des capacités prédictives.

La gendarmerie nationale s’investit dans le Big data, dans un effort sur le long terme. Elle a d’ores et déjà initié une analyse de ses flux de données, leurs origines, leurs finalités, leurs formats et leurs cadres juridiques. Elle a fait évoluer et continue à faire évoluer sa capacité de stockage, attentive aux nouvelles architec­tures permettant d’optimiser le volume et le temps d’accès. Et elle a initié l’expérimentation de nouvelles technolo­gies offrant une très grosse puissance de calcul. Ces premiers travaux vont être poursuivis en augmentant le niveau d’ex­pertise tout au long du cycle de vie de la donnée, de sa captation à sa destruction.

Focus sur... L'analyse vidéo de masse

La multiplication des systèmes de vidéosurveillance et de la prise vidéo amateur lors d’événements constituent une réelle difficulté quant à leur exploitation dans un temps raisonnable. Le périmètre du « traitement vidéo de masse » comprend des fonctionnalités de base comme la gestion des multiples formats, le stockage ou le derushage, et une grande di­versité d’outils d’analyse comme l’analyse de mouvements, la lecture automatique de plaques d’immatriculation, la reconnaissance faciale, la détection de mouvements anor­maux… C’est pourquoi la gendarmerie  prend part au développement de la plateforme d’intégration vidéo SIGMA, servant de support pour les analyses vidéo spécifiques et capable de traiter tous les formats de fichier vidéo.

Actualités


Inf'ONSTS - Janvier 2021

  L'Observatoire vous présente...

Inf'ONSTS - Décembre 2020

  L'Observatoire vous présente...