AIAI·

【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板

Publié à 2024-08-27 23:14:40Vu 26 fois
Article professionnel
Réimpression Veuillez indiquer la source
Catégories d'écriture

一、引言

我很愿意推荐一些小而美、高实用模型,比如之前写的YOLOv10霸榜百度词条,很多人搜索,仅需100M就可以完成毫秒级图像识别与目标检测,相关的专栏也是CSDN付费专栏中排行最靠前的。今天介绍有一个小而美、高实用性的模型:ChatTTS。

二、TTS(text-to-speech)模型原理

2.1 VITS 模型架构

由于ChatTTS还没有公布论文,我们也不好对ChatTTS的底层原理进行武断。这里对另一个TTS里程碑模型VITS原理进行简要介绍,让大家对TTS模型原理有多认知。VITS详细论文见链接

VITS论文对训练和推理两个环节分别进行讲述:

2.2 VITS 模型训练

VITS模型训练:在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear Sepctrogram)是从用于训练的音频中提取的 wav 文件的音频特征。这些特征通过后验编码器(Posteritor)生成音频的表示,然后通过训练对齐这两者(在模块 A 中)。节奏也是表达的重要因素,因此还加入了一个随机持续时间预测器(Stochasitic Duration Predictor)模块,根据音素和对齐结果对输出音频长度进行调整。

2.3 VITS 模型推理

VITS模型推理:在推理过程中,输入是文本对应的音素。将映射和对长度采样输入模型,将其转换为语音表示流,然后通过解码器将其转换为音频格式。

根据论文中描述的逻辑,文本数据被转换为音素(即词的拼音)并输入模型。模型学习了音素与音频之间的关系,包括说话者的音质、音高、口音和发音习惯等。

三、ChatTTS 模型实战

3.1 ChatTTS 简介

ChatTTS 是一款专门为对话场景(例如 LLM 助手)设计的文本转语音模型。

3.2 ChatTTS 亮点

1. 对话式 TTS: ChatTTS 针对对话式任务进行了优化,能够实现自然且富有表现力的合成语音。它支持多个说话者,便于生成互动式对话。
2. 精细的控制: 该模型可以预测和控制精细的韵律特征,包括笑声、停顿和插入语。
3. 更好的韵律: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。

3.3 ChatTTS 数据集

1. 主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。
2. HuggingFace 上的开源版本是一个在 40,000 小时数据上进行无监督微调的预训练模型。

3.4 ChatTTS 部署

3.4.1 创建conda环境

conda create -n chattts
conda activate chattts

3.4.2 拉取源代码

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

3.4.3 安装环境依赖

pip install -r requirements.txt

3.4.4 启动WebUI

export CUDA_VISIBLE_DEVICES=3 #指定显卡
nohup   python examples/web/webui.py --server_name 0.0.0.0 --server_port 8888 > chattts_20240624.out 2>&1 & #后台运行

执行后会自动跳转出webui,地址为server_name:server_port

3.4.5 WebUI推理

个人感觉:其中夹杂着“那个”、“然后”、“嗯...”等口头禅,学的太逼真了,人类说话不就是这样么。。

1. [uv_break]、[laugh]等符号进行断句、微笑等声音控制。
2. Audio Seed:用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。推荐 Seed: 3798-知性女、462-大舌头女、2424-低沉男。
3. Text Seed:类似于 Audio Seed,在文本生成阶段用于初始化随机数生成器的种子值。
4. Refine Text:勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。
5. Audio Temperature️:控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。
6. Top_P:核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
7. Top_K:限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。

3.5 ChatTTS 代码

import os, sys
 
if sys.platform == "darwin":
    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 
now_dir = os.getcwd()
sys.path.append(now_dir)
 
import random
import argparse
 
import torch
import gradio as gr
import numpy as np
 
from dotenv import load_dotenv
load_dotenv("sha256.env")
 
import ChatTTS
 
# 音色选项:用于预置合适的音色
voices = {
    "默认": {"seed": 2},
    "音色1": {"seed": 1111},
    "音色2": {"seed": 2222},
    "音色3": {"seed": 3333},
    "音色4": {"seed": 4444},
    "音色5": {"seed": 5555},
    "音色6": {"seed": 6666},
    "音色7": {"seed": 7777},
    "音色8": {"seed": 8888},
    "音色9": {"seed": 9999},
    "音色10": {"seed": 11111},
}
 
def generate_seed():
    new_seed = random.randint(1, 100000000)
    return {
        "__type__": "update",
        "value": new_seed
        }
 
# 返回选择音色对应的seed
def on_voice_change(vocie_selection):
    return voices.get(vocie_selection)['seed']
 
def generate_audio(text, temperature, top_P, top_K, audio_seed_input, text_seed_input, refine_text_flag):
 
    torch.manual_seed(audio_seed_input)
    rand_spk = chat.sample_random_speaker()
    params_infer_code = {
        'spk_emb': rand_spk,
        'temperature': temperature,
        'top_P': top_P,
        'top_K': top_K,
        }
    params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}
 
    torch.manual_seed(text_seed_input)
 
    if refine_text_flag:
        text = chat.infer(text,
                          skip_refine_text=False,
                          refine_text_only=True,
                          params_refine_text=params_refine_text,
                          params_infer_code=params_infer_code
                          )
 
    wav = chat.infer(text,
                     skip_refine_text=True,
                     params_refine_text=params_refine_text,
                     params_infer_code=params_infer_code
                     )
 
    audio_data = np.array(wav[0]).flatten()
    sample_rate = 24000
    text_data = text[0] if isinstance(text, list) else text
 
    return [(sample_rate, audio_data), text_data]
 
 
def main():
 
    with gr.Blocks() as demo:
        gr.Markdown("# ChatTTS Webui")
        gr.Markdown("ChatTTS Model: [2noise/ChatTTS](https://github.com/2noise/ChatTTS)")
 
        default_text = "四川美食确实以辣闻名,但也有不辣的选择。[uv_break]比如甜水面、赖汤圆、蛋烘糕、叶儿粑等,这些小吃口味温和,甜而不腻,也很受欢迎。[laugh]"
        text_input = gr.Textbox(label="Input Text", lines=4, placeholder="Please Input Text...", value=default_text)
 
        with gr.Row():
            refine_text_checkbox = gr.Checkbox(label="Refine text", value=True)
            temperature_slider = gr.Slider(minimum=0.00001, maximum=1.0, step=0.00001, value=0.3, label="Audio temperature")
            top_p_slider = gr.Slider(minimum=0.1, maximum=0.9, step=0.05, value=0.7, label="top_P")
            top_k_slider = gr.Slider(minimum=1, maximum=20, step=1, value=20, label="top_K")
 
        with gr.Row():
            voice_options = {}
            voice_selection = gr.Dropdown(label="音色", choices=voices.keys(), value='默认')
            audio_seed_input = gr.Number(value=2, label="Audio Seed")
            generate_audio_seed = gr.Button("\U0001F3B2")
            text_seed_input = gr.Number(value=42, label="Text Seed")
            generate_text_seed = gr.Button("\U0001F3B2")
 
        generate_button = gr.Button("Generate")
 
        text_output = gr.Textbox(label="Output Text", interactive=False)
        audio_output = gr.Audio(label="Output Audio")
 
        # 使用Gradio的回调功能来更新数值输入框
        voice_selection.change(fn=on_voice_change, inputs=voice_selection, outputs=audio_seed_input)
 
        generate_audio_seed.click(generate_seed,
                                  inputs=[],
                                  outputs=audio_seed_input)
 
        generate_text_seed.click(generate_seed,
                                 inputs=[],
                                 outputs=text_seed_input)
 
        generate_button.click(generate_audio,
                              inputs=[text_input, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox],
                              outputs=[audio_output, text_output])
 
        gr.Examples(
            examples=[
                ["四川美食确实以辣闻名,但也有不辣的选择。比如甜水面、赖汤圆、蛋烘糕、叶儿粑等,这些小吃口味温和,甜而不腻,也很受欢迎。", 0.3, 0.7, 20, 2, 42, True],
                ["What is [uv_break]your favorite english food?[laugh][lbreak]", 0.5, 0.5, 10, 245, 531, True],
                ["chat T T S is a text to speech model designed for dialogue applications. [uv_break]it supports mixed language input [uv_break]and offers multi speaker capabilities with precise control over prosodic elements [laugh]like like [uv_break]laughter[laugh], [uv_break]pauses, [uv_break]and intonation. [uv_break]it delivers natural and expressive speech,[uv_break]so please[uv_break] use the project responsibly at your own risk.[uv_break]", 0.2, 0.6, 15, 67, 165, True],
            ],
            inputs=[text_input, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox],
        )
    
    parser = argparse.ArgumentParser(description='ChatTTS demo Launch')
    parser.add_argument('--server_name', type=str, default='0.0.0.0', help='Server name')
    parser.add_argument('--server_port', type=int, default=8080, help='Server port')
    parser.add_argument('--root_path', type=str, default=None, help='Root Path')
    parser.add_argument('--custom_path', type=str, default=None, help='the custom model path')
    args = parser.parse_args()
 
    print("loading ChatTTS model...")
    global chat
    chat = ChatTTS.Chat()
 
    if args.custom_path == None:
        chat.load_models()
    else:
        print('local model path:', args.custom_path)
        chat.load_models('custom', custom_path=args.custom_path)
 
    demo.launch(server_name=args.server_name, server_port=args.server_port, root_path=args.root_path, inbrowser=True)
 
 
if __name__ == '__main__':
    main()

通过import ChatTTS和chat = ChatTTS.chat()以及chat.infer对ChatTTS类进行引用,通过装载多个配置项进行不同语音类型的生成。

四、总结

本文首先以VITS为例,对TTS基本原理进行简要讲解,让大家对TTS模型有基本的认知,其次对ChatTTS模型进行step by step实战教学,个人感觉4万小时语音数据开源版本还是被阉割的很严重,可能担心合规问题吧。其次就是没有特定的角色与种子值对应关系,需要人工去归类,期待更多相关的工作诞生。

实用性上来讲,对于语音聊天助手,确实是一种技术上的升级,不需要特别多的GPU资源就可以搭建语音聊天服务,比LLM聊天上升了一个档次。最近好忙,主要在做一个人工智能助手,3天涨了1.3万粉丝。最近计划把ChatTTS应用于这个人工智能助手(微博:面子小行家)的私信回复中,涉及到音频文件与业务相结合。期待我的成果吧!


原文链接:https://blog.csdn.net/weixin_48007632/article/details/139929395

Section des commentaires

Pas encore de commentaire, ajoutez le premier.

弦圈热门内容

Vue.js与Nuxt.js的区别

Vue.js与Nuxt.js都是前端的两个框架,Vue.js的项目属于单页应用,而Nuxt.js是基于Vue.js的服务端渲染通用框架。单页应用简称SPA,指的是前端代码将会在浏览器端被浏览器渲染。这对SEO优化不利,搜索引擎爬虫,会爬到空的网页。在Vue项目中,Vue会将JS交给浏览器渲染因此,结果是查看源代码没有别的东西,搜索引擎爬虫也基本只能看到这些,于是便直接下一个了,不会等你渲染。而服务端渲染,简称SSR,正是该问题的解决方案。前端代码会先在Node.js服务端渲染,然后再交给浏览器进行“二次渲染”。Nuxt.js则是Vue.js的SSR通用解决方案。前端代码经过服务端渲染后,能让搜索引擎爬虫看到完整的网站,同时查看源代码也能看到完整的代码。服务端渲染能提高网站渲染速度,降低白屏时间。同时,因为要同时运行Node.js服务端,这增加了服务器的负载。在Nuxt.js中,可以设置部分页面SSR,部分页面则是SPA,这样能降低服务器的资源耗费。对于静态网站,可以使用预渲染替代服务端渲染。预渲染,简称SSG,指提前渲染静态的html,提高页面响应。SSG一般适用于文档、个人博客等场景 ...

Linux是什么?Linux简介

1. Linux操作系统这个词严格来说是不对的,因为Linux其实只是个宏内核,Linux的各个发行版才算得上是真正的操作系统。相比于Windows和unix,Linux是免费开源的(虽然某些发行版是付费的),其实Linux就诞生于这样的背景下。Linus还是学生的时候,他的一个老师因为不想用付费的unix教学,因此自己写了一个操作系统,免费开源。而Linus根据这个操作系统,自行开发出Linux系统。值得一提的是,手机安卓系统用的是Linux内核,而苹果系统用的则是unix系统的一个分支。在电脑的操作系统中,目前市场占比最高的仍然是Windows系统,Windows的图形界面相较于Linux的重命令行对于用户更友善,更易使用。而在服务器的操作系统中,很多服务器都使用Linux系统,因为Linux占的内存更小,相较于Windows更轻,服务器跑久了也不容易卡。同时,服务器基本上都是纯命令行的,因为安装桌面占用空间,因此使用纯命令行的Linux更合适,据说当初Linus就是不喜欢图形界面的。其实Linux也是可以安装图形环境的(即桌面),如GNOME、Xfce,但是有些云服务器,比如我现 ...

cover

如果假设地心人存在,就能解释为什么至今没有发现外星人

说到地心人这类阴谋论(斯诺登揭秘:地下世界真相,地心人真的存在吗?),原本应该当乐子看看就算了。但是如果假设地心人存在,并且是比地表人更高程度的文明,那么就能得出一些有趣的结论,能够解释以下几个问题。为什么至今没有发现外星人👽?为什么人类一直向外太空发射信息,向外星人问好,却没有回应?为什么不怕黑森林法则?​说到底还是因为人类太弱小了,人类科技发展到如今的程度,对整个地球的探索都只限于薄薄的表面。人类对地下最深处的探索记录,于整个地球而言,只相当于在一个蛋壳表面划掉一层皮。毕竟连最外面的地幔都只是钻了个小口。我们对于地底结构的认识很大程度上依赖于地震波。在这里我们展开想象,既然地心人假设存在,且拥有高度发达的文明,那么应该有相应的手段在地底完全隐匿起来,不被外面的人发现,且不会被地震波所暴露,甚至想在地底藏匿,避免地震波的影响本来就是一个前提条件。​上面论述中有个关键词是隐匿、藏匿,为什么地心人要藏起来呢?答案很简单,因为黑森林法则。有句话叫做闷声发大财,如果一个人刚刚发展起来,那么他一定会尽量低调,不被厉害的人盯上,保全自己。同样,一个文明刚刚发展起来,到了一个相对可观的程度(比如超 ...

cover

世界婴儿危机,我们要被婴儿淹没了吗?

在遥远的未来,一场前所未有的婴儿危机席卷全球,仿佛人类即将被这些无辜的小生命淹没。而这场危机的源头,竟然源自一个被誉为“世界第一X大国”的泡菜国。泡菜国因“伟哥河”的奇特现象,人口暴增,幼儿园爆满,无数孩子提前继承了家产。樱花国因难民涌入,出生率飙升,政府欢呼经济新曙光,半场开香槟。然而,樱花国很快因人口爆炸而面临前所未有的社会压力。驻樱花米军被迫撤离,并“意外”留下氢弹发生爆炸,人们以为能暂时缓解这场危机,但出乎所有人意料的是,这些新生儿们似乎拥有了对核辐射的免疫力。他们组成了一支支无意识的婴儿大军,跨越海洋,向世界各地迁徙。鹰酱国成为了他们新的目标,面对这些无辜又强大的生命,人们陷入了恐慌和混乱。

cover

宇宙真的是被造物主设计出来的吗?如果是,那么造物主是怎么样的存在?

我们所生活的宇宙是一个运转极其严密而又无比神秘的空间,时间,物质构造的综合体。每当我思考宇宙时,总有一个疑问随之而来,也挥之不去,这个疑问就是;我们的宇宙如此运行严密,如此奇巧,这到底是怎么形成的?难道宇宙的背后真的有造物主吗?难道宇宙真的是造物主设计出来的吗?图片来自网络在古老的人们对上天的崇拜和神话传说,到宗教文化,其都把宇宙的诞生归结于造物主的创造。当科学从最初的研究造物主存在的可能性,发展至当下科学形成一整套逻辑严密的学科,造物主似乎依然没有漏出其真实面容。图片来自网络对于宇宙是否是造物主所为,这个疑问始终伴随着我,只要我一思考宇宙的终极问题时,这个疑问总是第一时间跳出来,而我却无法回避,于是我抛开其它问题,死磕这个问题。终于在我付出了近4000个日夜的思考,终于对这个问题有了属于我自己的答案。图片来自网络我认为,所谓的造物主,其真实身份应该是宇宙运行法则,而宇宙运行法则是由宇宙最原始的构成条件,在其构成条件各自所存在的自性之间的相互作用而形成的自然反应所形成的。因此我认为我们宇宙的造物主就是;宇宙的构成材料和宇宙的运行法则。宇宙运行法则就是宇宙的造物主,他存在在宇宙之中的每个 ...