Voicebox : la IA de Meta capable de reproduire n’importe quel voix humaine
Meta vient de présenter officiellement Voicebox, une intelligence artificielle spécialisée dans la synthèse vocale. Ce modèle est capable de convertir du texte en fichier audio et générer des discours en basant avec ces échantillons de seulement deux secondes.
Comme vous le savez, les principaux acteurs de la Tech se sont lancées dans la course à l’IA. Après le lancement de ChatGPT en fin d’année 2022 et les 10 milliards de Microsoft investis dans la startup OpenAI, les géants du web se sont hâtés pour présenter à leur tour leur propre intelligence artificielle.
Google s’est illustré avec Bard, son IA conversationnelle, tandis que Meta a confirmé le développement de son IA dès avril 2023. Durant les derniers mois, la firme de Menlo Park a publié une multitude de modèles d’IA, à commencer par LLaMA (Large Language Model Meta AI), un modèle de langage open-source.
Il y a un peu, l’entreprise californienne a également dévoilé JEPA, un modèle qui a pour ambition de reproduire la pensée humaine, notamment en analysant et en comprenant des notions et concepts abstraits. Dans un tout autre domaine, Meta a également présenté MusicGen, une IA capable de créer une musique via une description textuelle basique.
META DÉVOILE VOICEBOX, L’IA CAPABLE D’IMITER LA VOIX HUMAINE
Or, ce 16 juin 2023, Meta a annoncé “sa nouvelle percée dans le domaine de l’IA générative pour la parole”. Cette IA, c’est Voicebox. Pour résumer, ce modèle d’IA de pointe est spécialisée dans la synthèse vocale. En d’autres termes, elle est capable de créer, modifier ou styliser des fichiers audio.
Abordons tout d’abord la fonctionnalité la plus intéressante (et probablement la plus problématique) de Voicebox : la synthèse texte-parole en contexte. En s’appuyant sur un extrait audio de deux secondes seulement, Voicebox est capable de générer un discours en simulant la voix et le phrasé de la personne entendue dans l’extrait.
De cette manière, Voicebox pourra simuler la voix d’un proche, d’un chanteur ou d’un homme politique. A l’avenir, Meta déclare que Voicebox et d’autres modèles d’IA générative similaires pourront donner des voix naturelles aux assistants vocaux ou aux PNJ dans le métaverse. En outre, ils pourraient également permettre aux malvoyants d’entendre des messages écrits avec les voix de leurs amis.
EDITION DE FICHIERS AUDIO ET TRADUCTION INSTANTANÉE
Mais ce n’est pas tout puisque Voicebox propose d’autres fonctionnalités :
- L’édition de l’audio et la réduction de bruit : Voicebox peut recréer une portion de discours interrompue par du bruit ou remplacer des mots écorchés et mal prononcés sans avoir à enregistrer un nouveau un discours dans son intégralité (une sorte de gomme magique à la Google pour l’audio)
- Traduction multilingue : Voicebox prend en charge six langues pour l’instant (anglais, français, espagnol, allemand, polonais et portugais), ce qui lui permet de transposer un discours dans une autre langue que celle du fichier original (tout en transposant le style et les nuances)
Pour réaliser ses différentes tâches, l’IA de Meta s’est perfectionnée sur plus de 50 000 heures d’extraits audio issus majoritairement de livres audio et de contenus libre de droits. Pour l’instant, Voicebox reste inaccessible au grand public, dans un souci de sécurité. Sans surprise, Meta redoute que son IA soit utilisée à mauvais escient, notamment pour imiter la voix de personnes réelles.
Source : Meta