Optimisation de la gestion des cas de dénonciation au sein d’une ONG grâce à une solution de synthèse vocale

01

Permettre au responsable de l’audit d’accélérer le processus d’enquête grâce à la synthèse vocale Azure :

Notre client, une ONG, estime que chaque dollar compte et applique une tolérance zéro à l’égard de la fraude, de la corruption et du gaspillage qui empêchent les ressources d’atteindre ceux qui en ont besoin. Chaque année, le chargé d’enquête mène de nombreuses enquêtes personnelles à la suite de dénonciations, ce qui implique des entretiens audio confidentiels qu’il faut transcrire pour obtenir des preuves et procéder à une analyse plus poussée.

Rencontrez notre client

Une ONG mondiale qui collecte et investit 4 milliards de dollars par an pour lutter contre les maladies infectieuses les plus meurtrières dans plus de 100 pays. Leur devise est de garantir un avenir plus sain, plus sûr et plus équitable pour tous.

02

Défis opérationnels :

  • La transcription manuelle peut exposer des détails sensibles de l’enquête, ce qui présente des risques sérieux pour la sécurité des données et la vie privée des personnes concernées.
  • Les professionnels chargés de la transcription ont éprouvé des difficultés à interpréter les différents accents mondiaux et le jargon spécialisé, ce qui a souvent entraîné des inexactitudes dans le texte transcrit.

03

  • Les délais de transcription prolongés dus au traitement manuel ont contribué à des retards importants dans le processus d’enquête, ce qui a retardé la prise de décisions cruciales.
  • Les variations dans les niveaux de compétence des transcripteurs ont donné lieu à des transcriptions de qualité inégale, ce qui a réduit la fiabilité des preuves vitales.
  • Au fur et à mesure que le volume des dossiers augmentait, l’approche de la transcription manuelle s’est avérée non évolutive, ne répondant pas à la demande croissante de transcription rapide et précise.

04

L’approche unique de Zuci :

Un pipeline de conversion de la parole au texte a été conçu sur mesure par notre équipe. Il s’agit de quatre couches distinctes, chacune ayant une fonction spécifique, pour rationaliser le processus de transcription tout en garantissant une grande précision et en maintenant des normes de sécurité rigoureuses.

Couche 1 – Couche d’interface utilisateur

  • Développée à l’aide de Streamlit, cette couche offre une interface conviviale permettant aux enquêteurs de soumettre des enregistrements audio et les informations qui les accompagnent.
  • Il permet également aux utilisateurs de gérer les paramètres de transcription, y compris la possibilité de sauvegarder ou d’ignorer les résultats de la transcription.

05

Représentation schématique du processus de conversion de la parole en texte

06

Couche 2 – Couche d’entrée

  • Dans cette couche, les données de l’utilisateur sont traitées et les fichiers audio sont validés par rapport aux formats pris en charge et aux règles de métadonnées. Le système s’assure que les fichiers et les données respectent les exigences spécifiées avant de passer à la couche ML.

Couche 3 – Couche ML (Machine Learning)

  • Les services Azure Speech-to-Text sont intégrés à ce stade, où les fichiers audio sont traités. Nous avons utilisé des scripts Python pour affiner le modèle Azure afin d’améliorer sa capacité à reconnaître avec précision les différents accents et dialectes du monde.
  • Cette couche est également responsable de la distinction entre plusieurs locuteurs et de l’attribution d’horodatages et d’identifiants de locuteurs, qui sont essentiels pour l’analyse ultérieure.

07

Couche 2 – Couche de sortie

  • Les résultats de la transcription sont présentés à l’utilisateur via l’interface Streamlit ou envoyés directement par courrier électronique, selon les préférences de l’utilisateur.
  • La couche de sortie permet la suppression sécurisée des fichiers audio et des transcriptions si l’utilisateur a choisi de ne pas sauvegarder les résultats, respectant ainsi les protocoles de confidentialité et de sécurité.

08

Résultats commerciaux :

  • Le système automatisé de conversion de la parole en texte a permis de réduire le temps de transcription d’une moyenne de 2 à 3 jours (pour la transcription manuelle) à quelques heures pour la majorité des fichiers audio, ce qui représente une réduction de temps d’environ 90 %.
  • L’automatisation du processus de transcription a permis de réduire considérablement la nécessité de recourir à des transcripteurs professionnels, ce qui s’est traduit par des économies substantielles sur les services de transcription.
  • L’efficacité du modèle ML a permis d’améliorer considérablement la précision, en réduisant le taux d’erreur à moins de 2 %, ce qui représente une amélioration de 80 % par rapport aux transcripteurs humains.
  • La capacité du système à transcrire simultanément des fichiers audio a permis d’augmenter de 200 % la capacité de traitement des dossiers du département, sans compromis sur la qualité ou la sécurité.

09

Pile technologique

10

Vous souhaitez obtenir des informations solides sur les données de votre organisation à travers les différentes plateformes ? Prenez contact avec Zuci Systems.