Intelligence artificielle et qualité des données : la question à un million de dollars

Bibliophile, Movie buff & a Passionate Storyteller.

Une question qui revient souvent dans le contexte de la construction de systèmes d’intelligence artificielle tels que l’apprentissage automatique est « Comment obtenir de bonnes données pour entraîner les algorithmes ? La qualité des données est un défi. Comment pouvons-nous le surmonter?

La quantité et la qualité des données sont toutes deux importantes pour les systèmes d’intelligence artificielle . Alors que des options telles que les données préemballées, le crowdsourcing public et les crowds privés sont envisagées pour résoudre le problème de la quantité de données, la qualité des données continue d’être un défi et est susceptible de devenir de plus en plus importante.

Pourquoi la qualité des données est importante

Des systèmes tels que Machine Learning et Deep Learning utilisent de très grands ensembles de données à des fins de formation et de test. L’utilisation de données de mauvaise qualité ou de données non pertinentes pour former votre système d’apprentissage automatique aurait un impact significatif sur le comportement du système. Si vos données d’entraînement sont « inutiles », les résultats du modèle ne seront pas différents.

Aujourd’hui, les Data Scientists consacrent un temps considérable au nettoyage et à la préparation des données. Même avec de tels efforts, le nettoyage ne détecte ni ne corrige toutes les erreurs. La qualité des données est cruciale pour les organisations, sinon vous ne pouvez pas prendre les bonnes décisions sans elle. Avec une bonne qualité des données, vous pouvez être sûr que les algorithmes peuvent apporter plus de précision et également atténuer tout biais potentiel dans votre projet d’IA.

Étiquetage des données – Un élément clé de la qualité des données

Les données de formation peuvent se présenter sous de nombreux formats tels que Tableur, PDF, HTML ou JSON, et elles peuvent inclure du texte, des images, de la vidéo et de l’audio en fonction des besoins de votre application d’apprentissage automatique. Ces données doivent être étiquetées, ce qui signifie marquer votre ensemble de données de formation avec des fonctionnalités clés qui aideront à former votre algorithme. L’étiquetage des données est également appelé étiquetage des données, annotation, traitement des données, etc.

La façon dont les étiqueteurs de données évaluent ou attribuent une pondération à chaque étiquette affecte la précision de votre modèle. Parfois, vous devrez peut-être trouver des étiqueteurs de données avec l’expérience de domaine spécifique pour vos besoins afin d’avoir des étiqueteurs de données génériques qui peuvent travailler avec vos clients pour obtenir l’expérience de domaine pour attribuer le score ou la pondération. Comme vous pouvez le voir, la qualité de l’étiquetage des données a une corrélation directe avec les performances de votre modèle d’apprentissage automatique.

Le chemin vers de bonnes données

3 éléments clés peuvent vous aider à créer de bonnes données, à savoir les personnes, les processus et les outils.

Personnes

La qualité des données commence par les personnes réelles qui font le travail. Selon l’expérience qu’ils ont et la formation qu’ils reçoivent, la qualité des données peut avoir un impact significatif. Des membres seniors chevronnés ayant une expérience passée de la gestion de données volumineuses à des fins d’apprentissage automatique peuvent apporter une différence sous la forme d’une formation régulière aux autres membres de l’équipe.

Traiter

De bonnes pratiques et processus d’AQ (assurance qualité) peuvent faire une différence significative dans la qualité des données. Les méthodes couramment utilisées pour garantir l’exactitude et la cohérence des données incluent les ensembles d’or, le consensus et l’ audit .

Les ensembles d’or, ou références, mesurent la précision en comparant les annotations à un « ensemble d’or » ou à un exemple vérifié.

Le consensus, ou chevauchement, mesure la cohérence et l’accord au sein d’un groupe sur les données identifiées.

L’audit mesure à la fois l’exactitude et la cohérence en demandant à un expert d’examiner les étiquettes, soit en les vérifiant ponctuellement, soit en les examinant toutes.

Outils

La mise en œuvre d’outils appropriés et efficaces peut améliorer les résultats, augmenter la vitesse et aider à augmenter la productivité de l’équipe.

Références:

https://www.cloudfactory.com/training-data-guide

https://insidebigdata.com/2019/11/17/how-to-ensure-data-quality-for-ai/

Source des images :

https://www.cloudfactory.com/data-labeling-guide