Конференции
Барселона, Испания
22
Январь
Барселона, Испания
22
Январь
Дубай, ОАЭ
09-11
Февраль
Санкт-Петербург, Россия
19
Февраль
г.Кейптаун, Южная Африка
03-05
Март
г.Дубай, ОАЭ
04-05
Март
г.Сан-Паулу, Бразилия
06-09
Апрель
г.Сочи, Россия
25-26
Апрель
г.Ереван, Армения
25-27
Май
г.Манила, Филиппины
01-03
Июнь
г.Тбилиси, Грузия
26-27
Июнь
г.Будапешт, Венгрия
09-10
Июль
г.Санкт-Петербург, Россия
12-13
Август
г.Мехико, Мексика
01-03
Сентябрь
г.Канкун, Мексика
07-08
Сентябрь
г.Рим, Италия
02-05
Ноябрь
г.Бангкок, Таиланд
30-02
Ноябрь -
Декабрь
г.Бангкок, Таиланд
09-10
Декабрь
г.Та‑Кали, Мальта
03-07
Май

Локальный запуск CosyVoice 3 — бесплатной нейронки для генерации озвучки и клонирования голоса


Пошаговая инструкция по локальной установке и запуску бесплатной нейросети для генерации озвучки и клонирования голоса CosyVoice 3. Основные функции, примеры клонирования голоса, решение проблем.

CosyVoice 3.0 — это продвинутая система синтеза речи (TTS) на базе LLM, ориентированная на zero-shot озвучку и клонирование голоса в реальных условиях. По сравнению с версией 2.0 она заметно лучше держит смысл текста, точнее воспроизводит тембр диктора и звучит более естественно по интонациям и ритму.

Основные возможности

  • Клонирует голос, его тембр и манеру речи по отрывку в 3-10 секунд.
  • Модель всего в 0.5B параметров — это позволяет запустить локально даже на слабом железе.
  • Поддерживает 9 языков: китайский, английский, японский, корейский, немецкий, испанский, французский, итальянский, русский.
  • Естественность и консистентность. Высокие показатели по сохранению смысла, сходству с оригинальным голосом и натуральности просодики.
  • Pronunciation inpainting. Тонкая настройка произношения через китайский Pinyin и английские CMU-фонемы.
  • Нормализация текста без отдельного frontend. Корректно читает числа, спецсимволы и разные форматы текста «из коробки».
  • Поддержка потоковой подачи текста и вывода аудио с задержкой от ~150 мс при сохранении качества.
  • Instruct-режим. Управление языком, диалектом, эмоциями, скоростью и громкостью одной инструкцией.

Примеры клонирования голоса

Исходный голос:

Результат клонирования:

Исходный голос:

Результат клонирования на другом языке:

Работа в CosyVoice 3

Ознакомимся с интерфейсом нейронки и далее перейдем к установке.

Интерфейс CosyVoice 3 на китайском языке, для удобства работы переводите штатными средствами браузера на нужный вам язык.

  • В поле «Input synthesized text» введите текст который нужно озвучить:

  • Ниже в блоке «Select reasoning mode» выбираем режим в зависмости от наших задач:
    • «3s ultra-fast replica» — режим для стандартного клонирования голоса на основе аудиозаписи и без смены языка
    • «Cross-language replica» — режим для клонирования голоса на основе аудиозаписи на другой язык

  • Ниже загружаем аудиоролик с нужным голосом или записываем свой через микрофон.

Важно: аудиоролик должен быть продолжительностью от 3 до 10 секнуд!

Важно! В поле «Enter the prompt text» обязательно нужно ввести точную транскрибацию загруженного или залитого аудио!

Далее нажмите «Generate audio» и дождитесь результата:

Лайфхак: если в режиме кроссъязычного клонирования результат получается невнятным или будет напоминать китайскую речь, попробуйте явно указать язык перед текстом озвучки. Например, добавьте в начале фразу: Please speak in English. В большинстве случаев модель начинает говорить на нужном языке, а лишнюю реплику можно будет обрезать.

Установка CosyVoice 3 локально

Все необходимые инструкции по установке доступны на официальной странице проекта https://github.com/FunAudioLLM/CosyVoice. Опираясь на нее пошагово и со скринами разберем установку и запуск. Устанавливать будем через терминал на примере macOS. На Windows установка и запуск аналогичны macOS через Miniconda, которую надо ставить первым шагом до клонирования репозитория. Отличия будут в том, что команды выполняются в Anaconda Prompt или PowerShell, а ffmpeg устанавливается через conda.

Лайфхак для тех кто на «Вы» с терминалом и консолью: Используйте ChatGPT, Gemini или Grok — отправьте нейронке ссылку на страницу инструкции по установке и попросите пошагово провести до результата. Попутно сможете решать возникающие ошибки скидывая в чатбота логи.

Клонирование репозитория

  • Откройте терминал и выполните следующую команду:
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice

  • Если часть зависимостей не загрузилась, выполните:
git submodule update --init --recursive

Установка Miniconda

Более подробную иструкцию по установке Miniconda можно найти в официальной документации: https://www.anaconda.com/docs/getting-started/miniconda/install

  • В терминале выполните команду

Для Apple Silicon:

curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-arm64.sh

Для Intel-Mac:

curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-x86_64.sh
  • Запустите установщик:
bash Miniconda3-latest-MacOSX-*.sh

В процессе нужно будет:

  • нажать Enter
  • пролистать лицензию (q)
  • написать yes
  • подтвердить путь (Enter)
  • на вопрос про conda init ответить yes

  • Перезапустите терминал или выполните:
source ~/.zshrc
  • Далее нужно принять ToS Anaconda, выполнив команду:
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/main
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/r
  • После перезапуска терминала вы оказались в домашнем каталоге. Вернитесь в папку проекта CosyVoice::

cd CosyVoice

Все дальнейшие команды необходимо выполняють из папки CosyVoice.

Создание виртуального окружения

  • Создайте отдельное окружение с Python 3.10. Использование более новых версий Python приводит к ошибкам в зависимостях.
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
python -V
which python
  • Должно стать так:
    • (cosyvoice) в начале строки
    • Python 3.10.x
    • путь типа /Users/username/miniconda3/envs/cosyvoice/bin/python

Обновление pip и вспомогательных пакетов

  • Перед установкой зависимостей обновим pip и вспомогательные пакеты:

python -m pip install -U pip setuptools wheel

Установка системной зависимости ffmpeg

ffmpeg обязателен для корректной генерации и вывода аудио.

  • Проверьте, установлен ли Homebrew, выполнив команду:
brew --version
  • Если команда brew не найдена, установите Homebrew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  • Когда запросит введите пароль (при наборе он не будет отображаться в терминале) и нажмите Enter:

  • После завершения установки перезапустите терминал или выполните:
source ~/.zshrc
  • После перезапуска терминала вы окажетесь в домашнем каталоге и без активного окружения. Вернитесь в папку проекта и активируйте окружение:
cd CosyVoice
conda activate cosyvoice
  • Установите ffmpeg, командой:
brew install ffmpeg

Установка зависимостей проекта

  • Выполните команду:
pip install -r requirements.txt
  • Выполните команду:
pip install "ruamel.yaml==0.17.32" "ruamel.yaml.clib==0.2.8"

Без этого webui упадёт при старте с ошибкой Loader.max_depth.

Скачивание модели

  • Выполните команду:
pip install "huggingface_hub>=0.30,<1.0"
  • Далее выполните команду которая запустит python и начнет скачивание CosyVoice3-0.5B через heredoc:
python - << 'PY'
from huggingface_hub import snapshot_download

snapshot_download(
    'FunAudioLLM/Fun-CosyVoice3-0.5B-2512',
    local_dir='pretrained_models/Fun-CosyVoice3-0.5B-2512'
)
PY

Загрузка может занять много времени, т.к. размер модели ~6–7 ГБ.

Запуск webui

  • Для запуска webui и дальнейшего использования интерфейса нейросети в браузере, выполните в терминале следующую команду:
python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B-2512

Для работы нейронки, терминал необходимо оставлять запущенным!

  • Откройте в браузере ссылку http://127.0.0.1:50000/ чтобы попасть в вебинтерфейс нейронки:

Повторный запуск 

Для повторного запуска CosyVoice 3 введите в терминале следующие команды:

cd ~/CosyVoice
conda activate cosyvoice
python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B-2512

Решение проблем

В ходе установки могут возникнуть различные проблемы, которые все не можем разобрать в статье. Поэтому мы постарались дополнить официальную инструкцию теми шагами, которые не допустят у вас ошибки с которыми столкнулись мы. Но для решения возникающих проблем также рекомендуем обращаться к чатботам.

CPARIP


Like it? Share with your friends!
0 Комментариев
Партнерка - Наша оценка
Вертикали
Мин. сумма
Сайт
Vavadapart обзор
Партнёрская программа онлайн-казино Vavada. Это прямой рекламодатель. На рынке с 2017 года. Сотрудничают по RevShare (до 50%) и CPA.
1000 рублей/$20/€20 выплата
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
фото
Наша партнерская программа c офферами по Gambling и Betting вертикалям. Выплаты в день запроса от $20.
$20 выплата
фото
882 шт
Перейти к офферам
Партнерская сеть в iGaming с собственным брендом BetAndreas, а также более 1300 офферов в ГЕО по всему миру. Партнерам доступны высокие ставки по CPA до 360$ и RevShare до 60%.
$100 выплата
фото
фото
фото
фото
1 шт
Перейти к офферам
Royal Partners обзор
iGaming партнерская программа и прямой рекламодатель известных лицензионных гемблинг офферов: FLAGMAN, IRWIN, GIZBO, LEX, MONRO, 1GO, STARDA, IZZI, DRIP, LEGZO, VOLNA, JET, FRESH, SOL и ROX.
$20 выплата
фото
фото
фото
фото
фото
фото
Партнерская программа в gambling и betting вертикалях. Прямой рекламодатель брендов Golden Star и Golden Crown. Работают с tier-1 ГЕО. Сотрудничают по CPA, RevShare, Hybrid моделям. Принимают все виды трафика, кроме противозаконных источников и способов.
€50 выплата
фото
фото
фото
V.Partners обзор
Прямой рекламодатель популярных в Европе казино и беттинг брендов: Vulkan Vegas, ICE Casino, VERDE Casino, Vulkan Bet и Hit'N'Spin. Партнерка основана в 2016 году. Работают по СРА, RevShare, Hybrid и принимают трафик с более чем 55 стран.
€100 выплата
фото
фото
фото
фото
фото
фото