【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
This person is lazy, nothing was left behind...
一、引言上一篇对ChatTTS文本转语音模型原理和实战进行了讲解,第6次拿到了热榜第一🏆。今天,分享其对称功能(语音转文本)模型:Whisper。Whisper由OpenAI研发并开源,参数量最小39M,最大1550M,支持包含中文在内的多种语言。由于其低资源成本、优质的生存效果,被广泛应用于音乐识别、私信聊天、同声传译、人机交互等各种语音转文本场景,且商业化后价格不菲。今天免费分享给大家,不要再去花钱买语音识别服务啦!二、Whisper 模型原理2.1 模型架构Whisper是一个典型的transformer Encoder-Decoder结构,针对语音和文本分别进行多任务(Multitask)处理。2.2 语音处理Whisper语音处理:基于680000小时音频数据进行训练,包含英文、其他语言转英文、非英文等多种语言。将音频数据转换成梅尔频谱图,再经过两个卷积层后送入 Transformer 模型。2.3 文本处理Whisper文本处理:文本token包含3类:special tokens(标记tokens)、text tokens(文本tokens)、timesta ...
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
This person is lazy, nothing was left behind...
一、引言我很愿意推荐一些小而美、高实用模型,比如之前写的YOLOv10霸榜百度词条,很多人搜索,仅需100M就可以完成毫秒级图像识别与目标检测,相关的专栏也是CSDN付费专栏中排行最靠前的。今天介绍有一个小而美、高实用性的模型:ChatTTS。二、TTS(text-to-speech)模型原理2.1 VITS 模型架构由于ChatTTS还没有公布论文,我们也不好对ChatTTS的底层原理进行武断。这里对另一个TTS里程碑模型VITS原理进行简要介绍,让大家对TTS模型原理有多认知。VITS详细论文见链接VITS论文对训练和推理两个环节分别进行讲述:2.2 VITS 模型训练VITS模型训练:在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear Sepctrogram)是从用于训练的音频中提取的 wav 文件的音频特征。这些特征通过后验编码器(Posteritor)生成音频的表示,然后通过训练对齐这两者(在模块 A 中)。节奏也是表达的重要因素 ...
从【人工智能】到【计算机视觉】,【深度学习】引领的未来科技创新与变革
This person is lazy, nothing was left behind...
1. 引言1.1 文章目的本文旨在为读者提供一个全面的人工智能学习指南,涵盖从基础概念到高级技术的方方面面。我们将通过理论讲解、代码示例和应用场景分析,帮助读者深刻理解人工智能、机器学习、算法、深度学习和计算机视觉的基本原理和实际应用。1.2 人工智能的定义人工智能(AI)是指通过计算机系统来模拟人类的智能行为,如学习、推理、规划、理解自然语言、感知视觉和执行复杂任务等。AI的核心在于通过算法和模型使机器能够自主决策,从而替代或辅助人类进行各类复杂任务。1.3 人工智能的重要性人工智能的重要性日益显著。它不仅在提高生产力、优化资源配置方面发挥了关键作用,还在医疗、金融、制造业、教育等领域带来了深远的变革。AI正在改变我们生活和工作的方式,使得许多曾经不可能实现的任务成为现实。2. 人工智能的基础2.1 人工智能的起源与发展起源人工智能的起源可以追溯到20世纪50年代,当时的研究者开始探索如何让计算机执行复杂的认知任务。图灵提出的“图灵测试”是早期AI发展的一个里程碑,用于评估机器是否能够表现出与人类相似的智能。发展历程人工智能的发展经历了几个阶段:规则系统和专家系统时代(1950-19 ...
AI: Deep Learning vs Machine Learning
This person is lazy, nothing was left behind...
In the previous article Supervised and Unsupervised learning in machine learning, we explains the meaning of machine learning. As AI is making waves across industries, we often hear the terms "deep learning" and "machine learning" getting thrown around interchangeably. While both are crucial for AI advancements, they are indeed two different subjects with distinct characteristics. Deep learning is a branch of machine learning, whose methods are based on artificial neural networks (ANNs). In othe ...
Supervised and Unsupervised learning in machine learning
This person is lazy, nothing was left behind...
Machine learning is a subject of artificial intelligence, which means programming computers in terms of algorithm so that they can learn from data. Supervised learning and unsupervised learning are two types of Machine Learning systems. One can easily tell the difference between them by the criterion: whether or not they are trained with human supervision. Supervised learning and unsupervised learning are two extreme. The former completely depends on human supervision, while the latter doesn't n ...