Вы даете алгоритму на вход 5 секунд какого-то голоса и mp3 файл который вы хотели бы сделать похожим на этот голос, на выходе вы получаете поддельный голос который говорит что вам нужно.
В видео есть пару примеров:
https://youtu.be/-O_hYhToKoA
Алгоритм помимо того, что работает почти в режиме реального времени, так еще и с открытым исходным кодом и даже с уже обученными весами «весами» под английский язык доступными любому желающему: https://github.com/CorentinJ/Real-Time-Voice-Cloning