AIAI·

【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板

投稿時間:2024-08-27 23:14:40閲覧数:25
専門記事
転載は出所を明記してください
執筆カテゴリー

一、引言

我很愿意推荐一些小而美、高实用模型,比如之前写的YOLOv10霸榜百度词条,很多人搜索,仅需100M就可以完成毫秒级图像识别与目标检测,相关的专栏也是CSDN付费专栏中排行最靠前的。今天介绍有一个小而美、高实用性的模型:ChatTTS。

二、TTS(text-to-speech)模型原理

2.1 VITS 模型架构

由于ChatTTS还没有公布论文,我们也不好对ChatTTS的底层原理进行武断。这里对另一个TTS里程碑模型VITS原理进行简要介绍,让大家对TTS模型原理有多认知。VITS详细论文见链接

VITS论文对训练和推理两个环节分别进行讲述:

2.2 VITS 模型训练

VITS模型训练:在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear Sepctrogram)是从用于训练的音频中提取的 wav 文件的音频特征。这些特征通过后验编码器(Posteritor)生成音频的表示,然后通过训练对齐这两者(在模块 A 中)。节奏也是表达的重要因素,因此还加入了一个随机持续时间预测器(Stochasitic Duration Predictor)模块,根据音素和对齐结果对输出音频长度进行调整。

2.3 VITS 模型推理

VITS模型推理:在推理过程中,输入是文本对应的音素。将映射和对长度采样输入模型,将其转换为语音表示流,然后通过解码器将其转换为音频格式。

根据论文中描述的逻辑,文本数据被转换为音素(即词的拼音)并输入模型。模型学习了音素与音频之间的关系,包括说话者的音质、音高、口音和发音习惯等。

三、ChatTTS 模型实战

3.1 ChatTTS 简介

ChatTTS 是一款专门为对话场景(例如 LLM 助手)设计的文本转语音模型。

3.2 ChatTTS 亮点

1. 对话式 TTS: ChatTTS 针对对话式任务进行了优化,能够实现自然且富有表现力的合成语音。它支持多个说话者,便于生成互动式对话。
2. 精细的控制: 该模型可以预测和控制精细的韵律特征,包括笑声、停顿和插入语。
3. 更好的韵律: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。

3.3 ChatTTS 数据集

1. 主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。
2. HuggingFace 上的开源版本是一个在 40,000 小时数据上进行无监督微调的预训练模型。

3.4 ChatTTS 部署

3.4.1 创建conda环境

conda create -n chattts
conda activate chattts

3.4.2 拉取源代码

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

3.4.3 安装环境依赖

pip install -r requirements.txt

3.4.4 启动WebUI

export CUDA_VISIBLE_DEVICES=3 #指定显卡
nohup   python examples/web/webui.py --server_name 0.0.0.0 --server_port 8888 > chattts_20240624.out 2>&1 & #后台运行

执行后会自动跳转出webui,地址为server_name:server_port

3.4.5 WebUI推理

个人感觉:其中夹杂着“那个”、“然后”、“嗯...”等口头禅,学的太逼真了,人类说话不就是这样么。。

1. [uv_break]、[laugh]等符号进行断句、微笑等声音控制。
2. Audio Seed:用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。推荐 Seed: 3798-知性女、462-大舌头女、2424-低沉男。
3. Text Seed:类似于 Audio Seed,在文本生成阶段用于初始化随机数生成器的种子值。
4. Refine Text:勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。
5. Audio Temperature️:控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。
6. Top_P:核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
7. Top_K:限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。

3.5 ChatTTS 代码

import os, sys
 
if sys.platform == "darwin":
    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 
now_dir = os.getcwd()
sys.path.append(now_dir)
 
import random
import argparse
 
import torch
import gradio as gr
import numpy as np
 
from dotenv import load_dotenv
load_dotenv("sha256.env")
 
import ChatTTS
 
# 音色选项:用于预置合适的音色
voices = {
    "默认": {"seed": 2},
    "音色1": {"seed": 1111},
    "音色2": {"seed": 2222},
    "音色3": {"seed": 3333},
    "音色4": {"seed": 4444},
    "音色5": {"seed": 5555},
    "音色6": {"seed": 6666},
    "音色7": {"seed": 7777},
    "音色8": {"seed": 8888},
    "音色9": {"seed": 9999},
    "音色10": {"seed": 11111},
}
 
def generate_seed():
    new_seed = random.randint(1, 100000000)
    return {
        "__type__": "update",
        "value": new_seed
        }
 
# 返回选择音色对应的seed
def on_voice_change(vocie_selection):
    return voices.get(vocie_selection)['seed']
 
def generate_audio(text, temperature, top_P, top_K, audio_seed_input, text_seed_input, refine_text_flag):
 
    torch.manual_seed(audio_seed_input)
    rand_spk = chat.sample_random_speaker()
    params_infer_code = {
        'spk_emb': rand_spk,
        'temperature': temperature,
        'top_P': top_P,
        'top_K': top_K,
        }
    params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}
 
    torch.manual_seed(text_seed_input)
 
    if refine_text_flag:
        text = chat.infer(text,
                          skip_refine_text=False,
                          refine_text_only=True,
                          params_refine_text=params_refine_text,
                          params_infer_code=params_infer_code
                          )
 
    wav = chat.infer(text,
                     skip_refine_text=True,
                     params_refine_text=params_refine_text,
                     params_infer_code=params_infer_code
                     )
 
    audio_data = np.array(wav[0]).flatten()
    sample_rate = 24000
    text_data = text[0] if isinstance(text, list) else text
 
    return [(sample_rate, audio_data), text_data]
 
 
def main():
 
    with gr.Blocks() as demo:
        gr.Markdown("# ChatTTS Webui")
        gr.Markdown("ChatTTS Model: [2noise/ChatTTS](https://github.com/2noise/ChatTTS)")
 
        default_text = "四川美食确实以辣闻名,但也有不辣的选择。[uv_break]比如甜水面、赖汤圆、蛋烘糕、叶儿粑等,这些小吃口味温和,甜而不腻,也很受欢迎。[laugh]"
        text_input = gr.Textbox(label="Input Text", lines=4, placeholder="Please Input Text...", value=default_text)
 
        with gr.Row():
            refine_text_checkbox = gr.Checkbox(label="Refine text", value=True)
            temperature_slider = gr.Slider(minimum=0.00001, maximum=1.0, step=0.00001, value=0.3, label="Audio temperature")
            top_p_slider = gr.Slider(minimum=0.1, maximum=0.9, step=0.05, value=0.7, label="top_P")
            top_k_slider = gr.Slider(minimum=1, maximum=20, step=1, value=20, label="top_K")
 
        with gr.Row():
            voice_options = {}
            voice_selection = gr.Dropdown(label="音色", choices=voices.keys(), value='默认')
            audio_seed_input = gr.Number(value=2, label="Audio Seed")
            generate_audio_seed = gr.Button("\U0001F3B2")
            text_seed_input = gr.Number(value=42, label="Text Seed")
            generate_text_seed = gr.Button("\U0001F3B2")
 
        generate_button = gr.Button("Generate")
 
        text_output = gr.Textbox(label="Output Text", interactive=False)
        audio_output = gr.Audio(label="Output Audio")
 
        # 使用Gradio的回调功能来更新数值输入框
        voice_selection.change(fn=on_voice_change, inputs=voice_selection, outputs=audio_seed_input)
 
        generate_audio_seed.click(generate_seed,
                                  inputs=[],
                                  outputs=audio_seed_input)
 
        generate_text_seed.click(generate_seed,
                                 inputs=[],
                                 outputs=text_seed_input)
 
        generate_button.click(generate_audio,
                              inputs=[text_input, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox],
                              outputs=[audio_output, text_output])
 
        gr.Examples(
            examples=[
                ["四川美食确实以辣闻名,但也有不辣的选择。比如甜水面、赖汤圆、蛋烘糕、叶儿粑等,这些小吃口味温和,甜而不腻,也很受欢迎。", 0.3, 0.7, 20, 2, 42, True],
                ["What is [uv_break]your favorite english food?[laugh][lbreak]", 0.5, 0.5, 10, 245, 531, True],
                ["chat T T S is a text to speech model designed for dialogue applications. [uv_break]it supports mixed language input [uv_break]and offers multi speaker capabilities with precise control over prosodic elements [laugh]like like [uv_break]laughter[laugh], [uv_break]pauses, [uv_break]and intonation. [uv_break]it delivers natural and expressive speech,[uv_break]so please[uv_break] use the project responsibly at your own risk.[uv_break]", 0.2, 0.6, 15, 67, 165, True],
            ],
            inputs=[text_input, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox],
        )
    
    parser = argparse.ArgumentParser(description='ChatTTS demo Launch')
    parser.add_argument('--server_name', type=str, default='0.0.0.0', help='Server name')
    parser.add_argument('--server_port', type=int, default=8080, help='Server port')
    parser.add_argument('--root_path', type=str, default=None, help='Root Path')
    parser.add_argument('--custom_path', type=str, default=None, help='the custom model path')
    args = parser.parse_args()
 
    print("loading ChatTTS model...")
    global chat
    chat = ChatTTS.Chat()
 
    if args.custom_path == None:
        chat.load_models()
    else:
        print('local model path:', args.custom_path)
        chat.load_models('custom', custom_path=args.custom_path)
 
    demo.launch(server_name=args.server_name, server_port=args.server_port, root_path=args.root_path, inbrowser=True)
 
 
if __name__ == '__main__':
    main()

通过import ChatTTS和chat = ChatTTS.chat()以及chat.infer对ChatTTS类进行引用,通过装载多个配置项进行不同语音类型的生成。

四、总结

本文首先以VITS为例,对TTS基本原理进行简要讲解,让大家对TTS模型有基本的认知,其次对ChatTTS模型进行step by step实战教学,个人感觉4万小时语音数据开源版本还是被阉割的很严重,可能担心合规问题吧。其次就是没有特定的角色与种子值对应关系,需要人工去归类,期待更多相关的工作诞生。

实用性上来讲,对于语音聊天助手,确实是一种技术上的升级,不需要特别多的GPU资源就可以搭建语音聊天服务,比LLM聊天上升了一个档次。最近好忙,主要在做一个人工智能助手,3天涨了1.3万粉丝。最近计划把ChatTTS应用于这个人工智能助手(微博:面子小行家)的私信回复中,涉及到音频文件与业务相结合。期待我的成果吧!


原文链接:https://blog.csdn.net/weixin_48007632/article/details/139929395

コメント欄

まだコメントがありません。最初のコメントを投稿しましょう!

弦圈热门内容

cover

地心人和外星人阴谋论

由于本文对超维度到能拨弄时间的文明是否存在这个问题持有悲观态度,因此论述条件限制在三维下。 1.1 地心文明论我们默认地心是指距离地面6000公里的地方,这个地方的特点是:4000摄 氏度以上的极高温360 GPa 的地心压力没有阳光、几乎没有水分、氧气放射性元素衰变产生的大量辐射不依靠【温室】能在这种地方活下来的生物应该具有的特点:不能 是碳基,因为蛋白质DNA细胞分子结构全都会在高温下遭到破坏生物体 结构要异常坚韧,能在极高压下维持运作能有办法直接或间接吸收地热 能量维持生物体运作,且这个过程气体和水不参与反应其生存和繁衍模式能与辐射共生我们目前探测地心的手段有:由于地球内部的密度变化会影响地球重力场,因此精确重力测量可以给出地下岩石密度变化 由于地核中的液态铁和镍会产生磁场,通过探测地球磁场变化可以分析地壳中磁性物质分布遇到液体层会减速的纵向地震波,和只在固体传播的横向地震波人类的理性只能讨论可知的部分,讨论不可知部分是无效操作,在可知的范围内,目前只有少量微生物能在深底层存活,马里亚纳海沟最深处的生物也只是距离地面11公里而已。在可知范围内,没有任何生物能在地心长期生存。在贝叶 ...

Django将已经存在的字段改为外键

我有一个Django模型,它之前是这样的class Car(models.Model): manufacturer_id = models.IntegerField()然后还有另一个名为Manufacturer的模型,id字段所指的就是它。然而,后来我意识到使用Django自带的外键功能,会更方便。因此,我将这个模型改为现在这样class Car(models.Model): manufacturer = models.ForeignKey(Manufacturer)这次修改似乎一下就弄好了,查询出来的结果也没有任何报错,但是当我试着运行数据迁移的时候,Django输出了以下结果- Remove field manufacturer_id from car - Add field manufacturer to car执行这个迁移会清除所有已经存在于数据库里的关系,所以我并不想这么做。我其实并不想做任何的迁移,毕竟像Car.objects.get(manufacturer__name="Toyota")这样的查询没有一点问题。我更想要一个恰当的数据库外键限制,但不是高优先级的那种。总的来说,我的问题是:是否存在一种迁移方法或者别的,能让我将一个已经存在的字段转变为外键?我不能使用--fake因为我需要可靠地在开发、生产和同事的电脑上工作。内容来源于 Stack Overflow, 遵循 CCBY-SA 4.0 许可协议进行翻译与使用。原文链接:Django change an existing field to foreign key

84个万能生活小常识,家家都能用!(收藏起来慢慢看)

生活里爱护一个人,从不该只有空口白牙承诺,还有这些点点的细心照顾,吉米老师准备了84个万能小常识,希望你遇到的人和你彼此照顾,一起感受生活细水长流。01 厨房篇1、炒菜时,不要加冷水,冷水会使菜变老变硬不好吃,而加开水炒出来的菜又脆又嫩。2、炒藕丝时,一边炒一边加些水,能防止藕变黑。3、炒鸡蛋时,一个蛋加一汤匙温水搅匀,就不会炒老,而且炒出的蛋量多,松软可口。4、豆腐下锅前,可先放在开水里浸渍一刻钟,这样可清除泔水味。5、用冷水炖鱼无腥味,并应一次加足水,若中途再加水,会冲淡原汁的鲜味。6、蒸鱼或蒸肉时待蒸锅的水开了以后再上屉,能使鱼或肉外部突然遇到高温蒸气而立即收缩,内部鲜汁不外流,熟后味道鲜美,有光泽。7、熬骨头汤时,中途切莫加生水,以免汤的温度突然下降导致蛋白质和脂肪迅速凝固,影响营养和味道。8、煎荷包蛋时,在蛋黄即将凝固之际,可浇上一汤匙冷开水,会使蛋熟后又黄又嫩,色味俱佳。9、熬猪油时,先在锅内放入少量水,再将切好的猪油放入,这样熬出来的油,颜色晶亮而无杂质。02 食醋篇1、外出容易晕车,如喝下不很酸的食醋水,可以清爽精神,减轻晕车症状。2、失眠,可将一汤匙食醋倒入冷开水中, ...

JSON Parse报错: Unterminated string

我在JSON parse函数中使用转义引号时,遇到了一个常见的问题。如果存在转义引号,在本例中为“test”,则会导致以下错误'SyntaxError: JSON Parse error: Unterminated string'.var information = JSON.parse('[{"-1":"24","0":"","1":"","2":"","3":"0.0000","4":"","5":"0.00","6":"0.00","7":"1.00","8":"0","9":"false","10":"false","11":[""],"12":"","13":"","14":"test\""}]');JSON Lint验证该JSON为有效的。

网站和APP产品举步艰难,AI产品前途未卜

你抄你的内容,我写我的原创内容,我们都有光明的未来。在如今移动互联网时代后期、生成式ai时代初期,互联网上劣币驱逐良币的现象可以说是越来越严重。😂前有百度封杀,后有谷歌的不合理审查。只能说pc端互联网已经进入了一个存量竞争及其激烈的特殊时期。百度在国内早已是被很多人口诛笔伐,搜索出来的结果被不良广告霸占,找不到好的优质内容。这其实还好,早在09年时候百度就传出恶意封杀网站,后来谷歌退出🇨🇳市场以后,有了垄断地位更是可以为所欲为。而谷歌呢,“不作恶”的谷歌相比于百度还是好那么一些,至少对于新网站,不至于像百度那样一下子摁死,根本不给机会,谷歌还是会给些流量。但是谷歌对于中文互联网的搬运抄袭也是睁一只眼闭一只眼,或者说退出了🇨🇳市场,谷歌早也不想在中文互联网投入过多精力。虽然谷歌明面上是说,会打压搬运抄袭,但实际上有不少网站里面的内容全是一字不差的复制,结果非但不是限流,反而是让他们做起来了,不断给他们推流,甚至谷歌广告都给他挂上了,也不知道谷歌广告的审查为什么这么双标,全是原创内容的网站能说成是低质量内容。其实这也是目前很多搜索引擎面对的通病,对于这种内容农场没有很好的处理和解决,导致一 ...

乘坐超光速飞船,来到距离地球2241光年的位置,能否看到秦始皇登基?

在各方面条件均合适的前提下,理论上来说是有一定概率看到秦始皇登基的。在咱们上中学的时候,可能我们的物理老师就给我们讲过非常有趣的现象:夏天打雷下雨,往往在打雷之前会有一串闪电滑向天空,闪电过后就是雷声,对不对?那么我们为什么会先看到闪电,然后再听到雷声呢?再听到雷声呢原因很简单,因为闪电属于光,它的传递速度是光速。而雷属于声音,它的传播速度是声速。一个是30万公里每秒,一个是340米每秒。从这个理论来出发的话,我们就不能发现,在闪电打雷的过程当中,我们往往是最先看到闪电,然后才能听到打雷的声音。好的,在这样一个理论前提之下,我们会就更容易来理解这个话题了,简而言之:光和闪电本质上来说没有太大的区别,它们都是光的一种形式,而它们在传播的过程当中往往和周边的环境介质都有着密切联系。但是我们把这些通通排除在外的话,当一束光飘向外太空的过程当中,在最短的时间之内,它可能到达一个极远值。但是如果想把这个光传递得更远,这中间就需要时间了,而这个时间我们是以光年来衡量的。这个光年指的是什么呢?常规情况下来说,指的是光在一年内传播的距离。拿地球和太阳当一个引子太阳每天东升西落,我们早已经习惯了这样的一 ...

宇宙是被精心设计出来的吗?造物主真的存在吗?

我们对宇宙了解得越多,就会越发惊叹宇宙的精巧之处,宇宙中的各种规律,仿佛就是为我们量身定制一般,宇宙的精巧之处有很多很多,这里随便列举几项意思意思。图片来源网络宇宙诞生时膨胀的速度,如果快一点星系就无法形成,慢一点物质又会因为太过密集而重新坍塌。基本粒子形成时,中子的质量必须比质子稍大一点,使得中子可以衰变成为质子,这样宇宙中才可以有大量的氢元素,从而形成恒星。在四大基本力中,如果引力比现在稍强一点,那么宇宙中的恒星就会很快的耗尽自身的燃料,而如果稍弱一点,太阳又不可能点燃核聚变,宇宙空间将变成一片冰冷、黑暗。同样的,如果其他的基本力与现有的数值稍有不同,宇宙就会出现巨大的改变。图片来源网络需要说明的,上述参数都必须设计得非常精准,其精度通常都要求在小数点之后10几位。对于我们来讲,最精巧的设计莫过于我们的地球,与太阳恰到好处的距离、既不厚也不薄的大气层、足够的水资源、完美的磁场……,在地球附近,有月球帮地球稳定倾角(地球才有四季之分),有木星清理对我们威胁巨大的小行星。图片来源网络……总之一句话,宇宙中的任何细节出了一丁点的差错,我们的世界就将不复存在,甚至整个宇宙都不会出现。那么, ...

如果万物皆有意识,那么意识从何而来?石头拥有意识吗?

在人们的普遍认知中,意识是最特殊的存在,是我们认识和改造世界的基础条件。而物质是意识的载体,二者存在哲学意义上相互作用的关系。作为已知唯一的智慧生命体,人类自认为我们的意识是最复杂的。因为目前人类已经能够展开一系列的探索活动,而其他生物甚至都没有表现出意识活动的迹象,这也成为科学家们探索的重点。并非只有高级动物才拥有意识活动究竟意识是怎样的存在呢?我们能够与一些小动物进行情感交流,是不是意味着它们的意识活动与人类存在相似之处……在一部分科学家们的探索过程中,他们惊奇地发现,其实不仅只有高级动物拥有意识活动,植物同样可以进行交流,甚至一块石头都有可能拥有复杂的意识,只是我们的探索方式一直存在问题。从表面上看,一块石头可能存在了亿万年,除了地质环境的变化和人为因素影响它们的状态之外,它们几乎不会出现任何变化。而人们认为意识存在于大脑中,所以石头这样的非生命物质不可能存在意识活动。巴特斯克效应实验证明植物有情感巴特斯克效应实验利用特殊的仪器证明,植物拥有情感,在面对人类和动物的威胁时,它们也能够释放出防御以及害怕等信号给周围的同类。而人们无论如何也不会想到,主张进行该实验的科学家最初只是利用 ...

宇宙是否真的存在尽头?宇宙边界之外是什么呢?

随着人类科学技术水平的不断提高,我们对宇宙的认知也日益深入。在探索宇宙的过程中,人类面临着无数的疑问和未解之谜。其中最让人着迷的问题包括,宇宙是不是无限大的?宇宙究竟是否有尽头?相对于宇宙的广袤无垠,人类的存在显得微不足道。我们目前能通过技术手段观测到的宇宙范围,被称为可观测宇宙,这是一个直径930亿光年的球体空间。然而这终究只是宇宙的一部分,人类对于宇宙的了解仅仅只是刚刚开始。即便如此,我们仍然忍不住发问,宇宙的空间到底是不是无限延伸的?宇宙是否真的存在尽头呢?如果存在尽头,那尽头之外的“世界”又是怎么一番景象?图片来自网络从古至今,人类对我们脚下的地球和地球之外的空间一直充满了好奇和猜测。最早的古人通过观察,提出了“天圆地方”的观点。这种观点源于他们站在高处观察地表的结果,认为天是圆的,地是方的。随着地理和航海技术的发展,尤其是第一次环球航行的完成,人们终于证明了我们脚下的世界实际上是一个巨大的“球”。随着时间的推移,天文学开始萌芽。古代的天文学家通过夜空中的星星逐渐发现了地球与太阳之间的复杂关系。太阳作为一颗恒星,对地球的影响无处不在。到了现代,我们不仅了解了地球围绕太阳公转的轨 ...