Optimaliseren van het beheer van klokkenluiderszaken in een NGO via spraak-naar-tekst-oplossing
01
De auditor in staat stellen het onderzoeksproces te versnellen met behulp van Azure Speech To Text:
Onze klant, een NGO, gelooft dat elke dollar telt en hanteert een nultolerantie voor fraude, corruptie en verspilling waardoor middelen niet terechtkomen bij degenen die ze nodig hebben. Jaarlijks behandelt de onderzoeksmedewerker veel persoonlijke onderzoeken naar aanleiding van meldingen van klokkenluiders, waarbij vertrouwelijke audio-interviews worden afgenomen die moeten worden getranscribeerd voor bewijs en verdere analyse.
Maak kennis met onze klant
Een wereldwijde speler op het gebied van NGO’s die jaarlijks US$ 4 miljard inzamelt en investeert om de dodelijkste infectieziekten in meer dan 100 landen te bestrijden. Hun motto is te zorgen voor een gezondere, veiligere en rechtvaardigere toekomst voor iedereen.
02
Operationele uitdagingen:
- Handmatige transcriptie kan gevoelige onderzoeksgegevens blootleggen, wat ernstige risico’s met zich meebrengt voor de gegevensbeveiliging en de privacy van de betrokken personen.
- Professionals die belast waren met transcriptie hadden moeite met het interpreteren van verschillende accenten en gespecialiseerd jargon, wat vaak leidde tot onnauwkeurigheden in de getranscribeerde tekst.
03
- Langdurige transcriptietijden als gevolg van handmatige verwerking droegen bij aan aanzienlijke vertragingen in de onderzoekspijplijn, waardoor cruciale besluitvorming vertraging opliep.
- Variaties in de vaardigheden van transcribenten resulteerden in transcripten van inconsistente kwaliteit, wat de betrouwbaarheid van vitaal bewijs verminderde.
- Naarmate het aantal gevallen toenam, bleek de handmatige transcriptieaanpak niet schaalbaar en kon deze niet voldoen aan de toenemende vraag naar snelle en nauwkeurige transcriptie.
04
De unieke aanpak van Zuci:
Een spraak-naar-tekst pijplijn werd op maat ontworpen door ons team. Deze bestaat uit vier afzonderlijke lagen, elk met een specifieke functie, om het transcriptieproces te stroomlijnen en tegelijkertijd een hoge nauwkeurigheid en strenge beveiligingsnormen te garanderen.
Laag 1 – UI-laag
- Deze laag is ontwikkeld met Streamlit en biedt een gebruiksvriendelijke interface voor onderzoekers om audio-opnames en bijbehorende informatie in te sturen.
- Gebruikers kunnen ook de transcriptie-instellingen beheren, inclusief de optie om de transcriptieresultaten op te slaan of te verwijderen.
05
Schematische weergave van spraak-naar-tekst workflow
06
Laag 2 – Invoerlaag
- In deze laag wordt de invoer van gebruikers verwerkt en worden audiobestanden gevalideerd aan de hand van ondersteunde indelingen en metadataregels. Het systeem zorgt ervoor dat bestanden en gegevens voldoen aan de gespecificeerde vereisten voordat ze doorgaan naar de ML-laag.
Laag 3 – ML(Machine Learning) Laag
- Azure Speech-to-Text services worden in dit stadium geïntegreerd, waarbij de audiobestanden worden verwerkt. We hebben Python-scripts gebruikt om het Azure-model te verfijnen, zodat het beter in staat is om verschillende accenten en dialecten wereldwijd nauwkeurig te herkennen.
- Deze laag is ook verantwoordelijk voor het onderscheiden van meerdere sprekers en het toekennen van tijdstempels en spreker-ID’s, die cruciaal zijn voor de daaropvolgende analyse.
07
Laag 2 – Uitvoerlaag
- De transcriptieresultaten worden teruggekoppeld naar de gebruiker via de Streamlit interface of direct via e-mail verstuurd, afhankelijk van de voorkeuren van de gebruiker.
- De uitvoerlaag maakt het mogelijk om audiobestanden en transcripties veilig te verwijderen als de gebruiker ervoor heeft gekozen om de resultaten niet op te slaan, waardoor privacy- en beveiligingsprotocollen worden nageleefd.
08
Bedrijfsresultaten:
- Het geautomatiseerde spraak-naar-tekstsysteem heeft de transcriptietijd teruggebracht van gemiddeld 2-3 dagen (voor handmatige transcriptie) naar een paar uur voor de meeste audiobestanden, wat neerkomt op een tijdsbesparing van ongeveer 90%.
- Door het transcriptieproces te automatiseren, is de behoefte aan professionele transcribenten aanzienlijk verminderd, wat leidt tot een aanzienlijke kostenbesparing op transcriptieservices.
- De efficiëntie van het ML-model heeft geleid tot een aanzienlijke verbetering van de nauwkeurigheid. Het foutenpercentage is teruggebracht tot minder dan 2%, wat neerkomt op een verbetering van 80% ten opzichte van menselijke transcribenten.
- De mogelijkheid om audiobestanden gelijktijdig te transcriberen heeft de capaciteit van de afdeling voor het behandelen van zaken met 200% verhoogd, zonder afbreuk te doen aan kwaliteit of beveiliging.
09
Tech stapel
10