OpenAI open-sources Whisper, un système de reconnaissance vocale multilingue

La reconnaissance vocale reste un problème difficile dans l’IA et l’apprentissage automatique. Dans une étape vers la résolution de ce problème, OpenAI a aujourd’hui ouvert Whisper, un système de reconnaissance automatique de la parole qui, selon la société, permet une transcription « robuste » dans plusieurs langues ainsi que la traduction de ces langues vers l’anglais.

D’innombrables organisations ont développé des systèmes de reconnaissance vocale hautement performants, qui sont au cœur des logiciels et des services de géants de la technologie comme Google, Amazon et Meta. Mais ce qui différencie Whisper, selon OpenAI, c’est qu’il a été formé sur 680 000 heures de données multilingues et « multitâches » collectées sur le Web, ce qui a permis d’améliorer la reconnaissance des accents uniques, du bruit de fond et du jargon technique.

« Les principaux utilisateurs prévus de [the Whisper] Les modèles sont des chercheurs en IA qui étudient la robustesse, la généralisation, les capacités, les biais et les contraintes du modèle actuel. Cependant, Whisper est également potentiellement très utile en tant que solution de reconnaissance vocale automatique pour les développeurs, en particulier pour la reconnaissance vocale en anglais », a écrit OpenAI dans le référentiel GitHub pour Whisper, à partir duquel plusieurs versions du système peuvent être téléchargées. « [The models] afficher de bons résultats ASR dans environ 10 langues. Ils peuvent présenter des capacités supplémentaires… s’ils sont affinés sur certaines tâches telles que la détection de l’activité vocale, la classification des locuteurs ou la diarisation des locuteurs, mais n’ont pas été solidement évalués dans ces domaines.

Whisper a ses limites, en particulier dans le domaine de la prédiction de texte. Parce que le système a été formé sur une grande quantité de données « bruyantes », OpenAI avertit que Whisper pourrait inclure des mots dans ses transcriptions qui n’ont pas été réellement prononcés – peut-être parce qu’il essaie à la fois de prédire le mot suivant dans l’audio et d’essayer de transcrire l’audio lui-même . De plus, Whisper ne fonctionne pas aussi bien dans toutes les langues, souffrant d’un taux d’erreur plus élevé lorsqu’il s’agit de locuteurs de langues qui ne sont pas bien représentés dans les données de formation.

Ce dernier élément n’est malheureusement pas nouveau dans le monde de la reconnaissance vocale. Les biais ont longtemps tourmenté même les meilleurs systèmes, avec une étude de Stanford de 2020 qui a révélé que les systèmes d’Amazon, Apple, Google, IBM et Microsoft ont fait beaucoup moins d’erreurs – environ 35 % – avec les utilisateurs blancs qu’avec les utilisateurs noirs.

Malgré cela, OpenAI voit les capacités de transcription de Whisper utilisées pour améliorer les outils d’accessibilité existants.

« Bien que les modèles Whisper ne puissent pas être utilisés pour la transcription en temps réel prêts à l’emploi, leur vitesse et leur taille suggèrent que d’autres pourraient être en mesure de créer des applications dessus qui permettent une reconnaissance et une traduction de la parole en temps quasi réel », la société continue sur GitHub. « La valeur réelle des applications bénéfiques construites sur les modèles Whisper suggère que les performances disparates de ces modèles peuvent avoir de réelles implications économiques… [W]Nous espérons que la technologie sera utilisée principalement à des fins bénéfiques, rendre la technologie de reconnaissance automatique de la parole plus accessible pourrait permettre à davantage d’acteurs de développer des technologies de surveillance performantes ou d’intensifier les efforts de surveillance existants, car la vitesse et la précision permettent une transcription et une traduction automatiques abordables de gros volumes de la communication audio.

La sortie de Whisper n’est pas nécessairement indicative des plans futurs d’OpenAI. Bien qu’elle se concentre de plus en plus sur des efforts commerciaux tels que DALL-E 2 et GPT-3, la société poursuit plusieurs axes de recherche purement théoriques, notamment des systèmes d’IA qui apprennent en observant des vidéos.