2 месяца назад 2 месяца назад

Локальный запуск CosyVoice 3 — бесплатной нейронки для генерации озвучки и клонирования голоса

от CPARIP Опубликовано: 16.01.2026Обновлено: 19.01.2026

Пошаговая инструкция по локальной установке и запуску бесплатной нейросети для генерации озвучки и клонирования голоса CosyVoice 3. Основные функции, примеры клонирования голоса, решение проблем.

Страница проекта на GitHub: https://github.com/FunAudioLLM/CosyVoice

CosyVoice 3.0 — это продвинутая система синтеза речи (TTS) на базе LLM, ориентированная на zero-shot озвучку и клонирование голоса в реальных условиях. По сравнению с версией 2.0 она заметно лучше держит смысл текста, точнее воспроизводит тембр диктора и звучит более естественно по интонациям и ритму.

Содержание

1. Основные возможности

2. Примеры клонирования голоса

3. Работа в CosyVoice 3

4. Установка CosyVoice 3 локально

4.1. Клонирование репозитория

4.2. Установка Miniconda

4.3. Создание виртуального окружения

4.4. Обновление pip и вспомогательных пакетов

4.5. Установка системной зависимости ffmpeg

4.6. Установка зависимостей проекта

4.7. Скачивание модели

5. Запуск webui

5.1. Повторный запуск

6. Решение проблем

Основные возможности

Клонирует голос, его тембр и манеру речи по отрывку в 3-10 секунд.
Модель всего в 0.5B параметров — это позволяет запустить локально даже на слабом железе.
Поддерживает 9 языков: китайский, английский, японский, корейский, немецкий, испанский, французский, итальянский, русский.
Естественность и консистентность. Высокие показатели по сохранению смысла, сходству с оригинальным голосом и натуральности просодики.
Pronunciation inpainting. Тонкая настройка произношения через китайский Pinyin и английские CMU-фонемы.
Нормализация текста без отдельного frontend. Корректно читает числа, спецсимволы и разные форматы текста «из коробки».
Поддержка потоковой подачи текста и вывода аудио с задержкой от ~150 мс при сохранении качества.
Instruct-режим. Управление языком, диалектом, эмоциями, скоростью и громкостью одной инструкцией.

Примеры клонирования голоса

Исходный голос:

Результат клонирования:

Исходный голос:

Результат клонирования на другом языке:

Работа в CosyVoice 3

Ознакомимся с интерфейсом нейронки и далее перейдем к установке.

Интерфейс CosyVoice 3 на китайском языке, для удобства работы переводите штатными средствами браузера на нужный вам язык.

В поле «Input synthesized text» введите текст который нужно озвучить:

Ниже в блоке «Select reasoning mode» выбираем режим в зависмости от наших задач:
- «3s ultra-fast replica» — режим для стандартного клонирования голоса на основе аудиозаписи и без смены языка
- «Cross-language replica» — режим для клонирования голоса на основе аудиозаписи на другой язык

Ниже загружаем аудиоролик с нужным голосом или записываем свой через микрофон.

Важно: аудиоролик должен быть продолжительностью от 3 до 10 секнуд!

Важно! В поле «Enter the prompt text» обязательно нужно ввести точную транскрибацию загруженного или залитого аудио!

Далее нажмите «Generate audio» и дождитесь результата:

Лайфхак: если в режиме кроссъязычного клонирования результат получается невнятным или будет напоминать китайскую речь, попробуйте явно указать язык перед текстом озвучки. Например, добавьте в начале фразу: Please speak in English. В большинстве случаев модель начинает говорить на нужном языке, а лишнюю реплику можно будет обрезать.

Установка CosyVoice 3 локально

Все необходимые инструкции по установке доступны на официальной странице проекта https://github.com/FunAudioLLM/CosyVoice. Опираясь на нее пошагово и со скринами разберем установку и запуск. Устанавливать будем через терминал на примере macOS. На Windows установка и запуск аналогичны macOS через Miniconda, которую надо ставить первым шагом до клонирования репозитория. Отличия будут в том, что команды выполняются в Anaconda Prompt или PowerShell, а ffmpeg устанавливается через conda.

Лайфхак для тех кто на «Вы» с терминалом и консолью: Используйте ChatGPT, Gemini или Grok — отправьте нейронке ссылку на страницу инструкции по установке и попросите пошагово провести до результата. Попутно сможете решать возникающие ошибки скидывая в чатбота логи.

Клонирование репозитория

Откройте терминал и выполните следующую команду:

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice

Если часть зависимостей не загрузилась, выполните:

git submodule update --init --recursive

Установка Miniconda

Более подробную иструкцию по установке Miniconda можно найти в официальной документации: https://www.anaconda.com/docs/getting-started/miniconda/install

В терминале выполните команду

Для Apple Silicon:

curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-arm64.sh

Для Intel-Mac:

curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-x86_64.sh

Запустите установщик:

bash Miniconda3-latest-MacOSX-*.sh

В процессе нужно будет:

нажать Enter
пролистать лицензию (q)
написать yes
подтвердить путь (Enter)
на вопрос про conda init ответить yes

Перезапустите терминал или выполните:

source ~/.zshrc

Далее нужно принять ToS Anaconda, выполнив команду:

conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/main
conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/r

После перезапуска терминала вы оказались в домашнем каталоге. Вернитесь в папку проекта CosyVoice::

cd CosyVoice

Все дальнейшие команды необходимо выполняють из папки CosyVoice.

Создание виртуального окружения

Создайте отдельное окружение с Python 3.10. Использование более новых версий Python приводит к ошибкам в зависимостях.

conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
python -V
which python

Должно стать так:
- (cosyvoice) в начале строки
- Python 3.10.x
- путь типа /Users/username/miniconda3/envs/cosyvoice/bin/python

Обновление pip и вспомогательных пакетов

Перед установкой зависимостей обновим pip и вспомогательные пакеты:

python -m pip install -U pip setuptools wheel

Установка системной зависимости ffmpeg

ffmpeg обязателен для корректной генерации и вывода аудио.

Проверьте, установлен ли Homebrew, выполнив команду:

brew --version

Если команда brew не найдена, установите Homebrew:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

Когда запросит введите пароль (при наборе он не будет отображаться в терминале) и нажмите Enter:

После завершения установки перезапустите терминал или выполните:

source ~/.zshrc

После перезапуска терминала вы окажетесь в домашнем каталоге и без активного окружения. Вернитесь в папку проекта и активируйте окружение:

cd CosyVoice
conda activate cosyvoice

Установите ffmpeg, командой:

brew install ffmpeg

Установка зависимостей проекта

Выполните команду:

pip install -r requirements.txt

Выполните команду:

pip install "ruamel.yaml==0.17.32" "ruamel.yaml.clib==0.2.8"

Без этого webui упадёт при старте с ошибкой Loader.max_depth.

Скачивание модели

Выполните команду:

pip install "huggingface_hub>=0.30,<1.0"

Далее выполните команду которая запустит python и начнет скачивание CosyVoice3-0.5B через heredoc:

python - << 'PY'
from huggingface_hub import snapshot_download

snapshot_download(
    'FunAudioLLM/Fun-CosyVoice3-0.5B-2512',
    local_dir='pretrained_models/Fun-CosyVoice3-0.5B-2512'
)
PY

Загрузка может занять много времени, т.к. размер модели ~6–7 ГБ.

Запуск webui

Для запуска webui и дальнейшего использования интерфейса нейросети в браузере, выполните в терминале следующую команду:

python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B-2512

Для работы нейронки, терминал необходимо оставлять запущенным!

Откройте в браузере ссылку http://127.0.0.1:50000/ чтобы попасть в вебинтерфейс нейронки:

Повторный запуск

Для повторного запуска CosyVoice 3 введите в терминале следующие команды:

cd ~/CosyVoice
conda activate cosyvoice
python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B-2512

Решение проблем

В ходе установки могут возникнуть различные проблемы, которые все не можем разобрать в статье. Поэтому мы постарались дополнить официальную инструкцию теми шагами, которые не допустят у вас ошибки с которыми столкнулись мы. Но для решения возникающих проблем также рекомендуем обращаться к чатботам.

CosyVoice 3, клонирование голоса, мануал, Нейросети

0 Комментариев

You must be logged in to post a comment.

Партнерские программы

Партнерка - Наша оценка

Вертикали

Мин. сумма

Сайт

Vavadapart обзор

Партнёрская программа онлайн-казино Vavada. Это прямой рекламодатель. На рынке с 2017 года. Сотрудничают по RevShare (до 50%) и CPA.

1000 рублей/$20/€20 выплата

—

Parimatch Affiliates обзор

Прямая партнерская программа, работающая с международным iGaming-оператором Parimatch. Эксклюзивные офферы в вертикалях gambling, betting и киберспорт с приоритетом на качество и стабильность. Высокие конкурентные рейты (CPA - Tier-1 up to 300$, Tier-2, Tier-3 - up to 150$, RevShare - up to 45%).

$100 выплата

—

Royal Partners обзор

iGaming партнерская программа и прямой рекламодатель известных лицензионных гемблинг офферов: FLAGMAN, IRWIN, GIZBO, LEX, MONRO, 1GO, STARDA, IZZI, DRIP, LEGZO, VOLNA, JET, FRESH, SOL и ROX.

$20 выплата

—

StarCrown Partners обзор

Партнерская программа в gambling и betting вертикалях. Прямой рекламодатель брендов Golden Star и Golden Crown. Работают с tier-1 ГЕО. Сотрудничают по CPA, RevShare, Hybrid моделям. Принимают все виды трафика, кроме противозаконных источников и способов.

€50 выплата

—

V.Partners обзор

Прямой рекламодатель популярных в Европе казино и беттинг брендов: Vulkan Vegas, ICE Casino, VERDE Casino, Vulkan Bet, Vulkan Spiele, Slotoro и Hit'N'Spin. Партнерка основана в 2016 году. Работают по СРА, RevShare, Hybrid и принимают трафик с более чем 55 стран.