Пошаговая инструкция по локальной установке и запуску бесплатной нейросети для генерации озвучки и клонирования голоса CosyVoice 3. Основные функции, примеры клонирования голоса, решение проблем.
- Страница проекта на GitHub: https://github.com/FunAudioLLM/CosyVoice
CosyVoice 3.0 — это продвинутая система синтеза речи (TTS) на базе LLM, ориентированная на zero-shot озвучку и клонирование голоса в реальных условиях. По сравнению с версией 2.0 она заметно лучше держит смысл текста, точнее воспроизводит тембр диктора и звучит более естественно по интонациям и ритму.
Основные возможности
- Клонирует голос, его тембр и манеру речи по отрывку в 3-10 секунд.
- Модель всего в 0.5B параметров — это позволяет запустить локально даже на слабом железе.
- Поддерживает 9 языков: китайский, английский, японский, корейский, немецкий, испанский, французский, итальянский, русский.
- Естественность и консистентность. Высокие показатели по сохранению смысла, сходству с оригинальным голосом и натуральности просодики.
- Pronunciation inpainting. Тонкая настройка произношения через китайский Pinyin и английские CMU-фонемы.
- Нормализация текста без отдельного frontend. Корректно читает числа, спецсимволы и разные форматы текста «из коробки».
- Поддержка потоковой подачи текста и вывода аудио с задержкой от ~150 мс при сохранении качества.
- Instruct-режим. Управление языком, диалектом, эмоциями, скоростью и громкостью одной инструкцией.
Примеры клонирования голоса
Исходный голос:
Результат клонирования:
Исходный голос:
Результат клонирования на другом языке:
Работа в CosyVoice 3
Ознакомимся с интерфейсом нейронки и далее перейдем к установке.
Интерфейс CosyVoice 3 на китайском языке, для удобства работы переводите штатными средствами браузера на нужный вам язык.

- В поле «Input synthesized text» введите текст который нужно озвучить:

- Ниже в блоке «Select reasoning mode» выбираем режим в зависмости от наших задач:
- «3s ultra-fast replica» — режим для стандартного клонирования голоса на основе аудиозаписи и без смены языка
- «Cross-language replica» — режим для клонирования голоса на основе аудиозаписи на другой язык

- Ниже загружаем аудиоролик с нужным голосом или записываем свой через микрофон.
Важно: аудиоролик должен быть продолжительностью от 3 до 10 секнуд!

Важно! В поле «Enter the prompt text» обязательно нужно ввести точную транскрибацию загруженного или залитого аудио!
Далее нажмите «Generate audio» и дождитесь результата:

Лайфхак: если в режиме кроссъязычного клонирования результат получается невнятным или будет напоминать китайскую речь, попробуйте явно указать язык перед текстом озвучки. Например, добавьте в начале фразу: Please speak in English. В большинстве случаев модель начинает говорить на нужном языке, а лишнюю реплику можно будет обрезать.
Установка CosyVoice 3 локально
Все необходимые инструкции по установке доступны на официальной странице проекта https://github.com/FunAudioLLM/CosyVoice. Опираясь на нее пошагово и со скринами разберем установку и запуск. Устанавливать будем через терминал на примере macOS. На Windows установка и запуск аналогичны macOS через Miniconda, которую надо ставить первым шагом до клонирования репозитория. Отличия будут в том, что команды выполняются в Anaconda Prompt или PowerShell, а ffmpeg устанавливается через conda.
Лайфхак для тех кто на «Вы» с терминалом и консолью: Используйте ChatGPT, Gemini или Grok — отправьте нейронке ссылку на страницу инструкции по установке и попросите пошагово провести до результата. Попутно сможете решать возникающие ошибки скидывая в чатбота логи.
Клонирование репозитория
- Откройте терминал и выполните следующую команду:
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git cd CosyVoice

- Если часть зависимостей не загрузилась, выполните:
git submodule update --init --recursive
Установка Miniconda
Более подробную иструкцию по установке Miniconda можно найти в официальной документации: https://www.anaconda.com/docs/getting-started/miniconda/install
- В терминале выполните команду
Для Apple Silicon:
curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-arm64.sh
Для Intel-Mac:
curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-x86_64.sh
- Запустите установщик:
bash Miniconda3-latest-MacOSX-*.sh
В процессе нужно будет:
- нажать Enter
- пролистать лицензию (q)
- написать yes
- подтвердить путь (Enter)
- на вопрос про conda init ответить yes

- Перезапустите терминал или выполните:
source ~/.zshrc
- Далее нужно принять ToS Anaconda, выполнив команду:
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/main conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/r
-
После перезапуска терминала вы оказались в домашнем каталоге. Вернитесь в папку проекта CosyVoice::
cd CosyVoice
Все дальнейшие команды необходимо выполняють из папки CosyVoice.
Создание виртуального окружения
- Создайте отдельное окружение с Python 3.10. Использование более новых версий Python приводит к ошибкам в зависимостях.
conda create -n cosyvoice -y python=3.10 conda activate cosyvoice python -V which python
- Должно стать так:
- (cosyvoice) в начале строки
- Python 3.10.x
- путь типа /Users/username/miniconda3/envs/cosyvoice/bin/python
Обновление pip и вспомогательных пакетов
-
Перед установкой зависимостей обновим pip и вспомогательные пакеты:
python -m pip install -U pip setuptools wheel
Установка системной зависимости ffmpeg
ffmpeg обязателен для корректной генерации и вывода аудио.
- Проверьте, установлен ли Homebrew, выполнив команду:
brew --version
- Если команда brew не найдена, установите Homebrew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Когда запросит введите пароль (при наборе он не будет отображаться в терминале) и нажмите Enter:

- После завершения установки перезапустите терминал или выполните:
source ~/.zshrc
- После перезапуска терминала вы окажетесь в домашнем каталоге и без активного окружения. Вернитесь в папку проекта и активируйте окружение:
cd CosyVoice conda activate cosyvoice
- Установите ffmpeg, командой:
brew install ffmpeg
Установка зависимостей проекта
- Выполните команду:
pip install -r requirements.txt
- Выполните команду:
pip install "ruamel.yaml==0.17.32" "ruamel.yaml.clib==0.2.8"
Без этого webui упадёт при старте с ошибкой Loader.max_depth.
Скачивание модели
- Выполните команду:
pip install "huggingface_hub>=0.30,<1.0"
- Далее выполните команду которая запустит python и начнет скачивание CosyVoice3-0.5B через heredoc:
python - << 'PY'
from huggingface_hub import snapshot_download
snapshot_download(
'FunAudioLLM/Fun-CosyVoice3-0.5B-2512',
local_dir='pretrained_models/Fun-CosyVoice3-0.5B-2512'
)
PY
Загрузка может занять много времени, т.к. размер модели ~6–7 ГБ.

Запуск webui
- Для запуска webui и дальнейшего использования интерфейса нейросети в браузере, выполните в терминале следующую команду:
python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B-2512
Для работы нейронки, терминал необходимо оставлять запущенным!
- Откройте в браузере ссылку http://127.0.0.1:50000/ чтобы попасть в вебинтерфейс нейронки:

Повторный запуск
Для повторного запуска CosyVoice 3 введите в терминале следующие команды:
cd ~/CosyVoice conda activate cosyvoice python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B-2512
Решение проблем
В ходе установки могут возникнуть различные проблемы, которые все не можем разобрать в статье. Поэтому мы постарались дополнить официальную инструкцию теми шагами, которые не допустят у вас ошибки с которыми столкнулись мы. Но для решения возникающих проблем также рекомендуем обращаться к чатботам.
