- 博客(287)
- 问答 (44)
- 收藏
- 关注
原创 WeNet语音识别实战
音之家-AI工匠学堂推出《WeNet语音识别实战》, WeNet是目前工业界最流行的开源端到端语音识别系统之一,也是学习端到端语音识别的最佳实践项目。语音识别的学习者和从业者,可以通过学习这门课程高效全面的掌握WeNet的基本原理和实战方法,降低自己摸索的成本,快速构建出高性能的语音识别系统。...
2022-06-21 15:06:58 5357 3
原创 Edge-TTS:微软推出的,免费、开源、支持多种中文语音语色的AI工具
edge-tts --voice zh-CN-YunyangNeural --text "大家好,欢迎关注语音之家,语音之家是一个助理AI语音开发者的社区。查询结果中的Gender为声音的性别,Name为声音的名字,如zh-CN-YunjianNeural,其中zh表示语言,CN表示国家或地区,可以根据需求选择不同的声音。它接受与 edge-tts 选项相同的参数。此外,必须使用 --rate=-50% 而不是 --rate -50%(注意等号的缺失),否则 -50% 将被解释为另一个参数。
2024-03-22 15:30:00 521
原创 全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型
从为期8周的训练营毕业,然后找到一份价值 20 万美元的工作,这样的日子已经一去不复返了。它首先使用了Shell Deon CLS存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回Shell,安装了所需要的依赖项。接下来,就是献技的时刻,Devin克隆了GitHub库,了解如何使用readme运行,设置好所需pip的要求,查看所有的脚本语言,并开始运行。众所周知,编程竞赛的核心就是要迅速准确地解决编程难题,强调快速解决复杂问题的能力,而且对于创新的解决问题的思路有着很高的要求。
2024-03-21 11:11:22 699
原创 文本到语音合成系统 ,开源!
TTS(Text To Speech,文本转语音)是一种将文字转换为语音的技术,它可以将计算机程序生成的文字转化为人类可以听懂的声音。TTS技术利用自然语言处理和语音合成技术,将文本转化为语音,并可以通过音频播放设备输出语音。
2024-03-15 14:27:20 132
原创 VideoDubber时长可控的视频配音方法
本次分享由中国人民大学、微软亚洲研究院联合投稿于AAAI 2023的一篇专门为视频配音任务定制的机器翻译的工作《VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing》。这个工作将电影或电视节目中的原始语音翻译成目标语言。
2024-03-11 15:07:19 775
原创 2.8k star! 用开源免费的edge-tts平替科大讯飞的语音合成服务
edge-tts是github上的一个开源项目,可以免费将文本转为语音,别看它只有2.8k star,替代科大讯飞的收费TTS服务完全没问题,因为这个项目实际是调用的微软edge的在线语音合成服务,支持40多种语言,300多种声音,效果毋容置疑。
2024-03-04 15:44:40 418
原创 ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结
为促进驾驶场景中语音处理和识别研究,在ISCSLP 2022上成功举办智能驾驶座舱语音识别挑战 (ICSRC)的基础上,西工大音频语音与语言处理研究组 (ASLP@NPU)联合理想汽车、希尔贝壳、WeNet社区、字节、微软、天津大学、南洋理工大学以及中国信息通信研究院等多家单位在ICASSP2024上推出了车载多通道语音识别挑战赛(ICMC-ASR)。
2024-03-01 14:24:30 842
原创 多模态说话人开源项目3D-Speaker
3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。
2024-02-29 11:04:07 1193
原创 论文分享|AAAI2024 基于异构图上下文建模实现对话语音合成的情感渲染
本次分享内蒙古大学S2LAB与字节跳动、港中文(深圳)合作,关于情感对话语音合成的工作《Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling 》。该工作利用异构图实现情感上下文建模机制,生成符合对话语境的情感语音,实现了对话语音合成的情感渲染。该工作被AAAI 2024录用。
2024-02-28 14:55:25 1028
原创 优化回声消除过程:AEC Challenge冠军方案线性部分解析
我们知道在WebRTC的AEC中包含两个部分,参考WebRTC AEC 流程解析,分别是线性部分,用于消除线性回声;非线性部分,用于消除硬件等引入的非线性部分。这里的线性部分采用了分块频域自适应滤波器(Partitioned Block Frequency Domain Adaptive Filter, PBFDAF),这个滤波器在Speex中称为分块频域波器(Multidelayblock frequency Filter,MDF), 其实它们原理是一样的,都是基于NLMS的自适应滤波器。
2024-02-27 14:59:08 758
原创 ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别
视听语音识别(Audio-visual speech recognition, AVSR)是指结合音频和视频信息对语音进行识别的技术。当前,语音识别(ASR)系统在准确性在某些场景下已经达到与人类相媲美的水平。然而在复杂声学环境或远场拾音场景,如多人会议中,ASR系统的性能可能会受到背景噪音、混响和多人说话的重叠的干扰而严重下降。基于视频的视觉语音识别(VSR)系统通常不会受到声学环境的干扰。
2024-02-26 17:32:18 952
原创 CHiME丨MMCSG(智能眼镜多模态对话)
CHiME 挑战赛已经正式开启,今天分享下 CHiME 的子任务MMCSG(智能眼镜多模态对话),欢迎大家投稿报名!
2024-02-23 14:00:23 629
原创 HBK声学与振动 | 助听器测试
高质量的助听器能让有听力障碍的用户轻松自如地进行交流。我们的头和躯干模拟器、耳模拟器和人工乳突为优化音频质量和清晰度提供了全面的测试解决方案。
2024-02-22 14:15:42 110
原创 解读OpenAI Sora文生视频技术原理
OpenAI Sora文生视频(图像看作单帧视频)一放出就炸翻整个AI 圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级的更新。OpenAI 随后公布的技术综述[文献1],难掩其勃勃雄心:视频生成模型作为世界模拟器。
2024-02-21 15:37:08 944
原创 AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业
Sora突破之后的突破又来了!语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全生成电影又近了一步。
2024-02-20 10:57:00 965
原创 WhisperFusion:具有超低延迟无缝对话功能的AI系统
WhisperFusion 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM)。
2024-02-19 15:05:25 929 1
原创 WhisperBot:整合了Mistral大型语言模型的实时语音转文本系统
欢迎来到 WhisperBot。WhisperBot 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM)。
2024-01-29 14:53:52 1176 1
原创 GPT-SoVits: 上线两天获得了1.4k star的开源声音克隆项目,1分钟语音训练TTS模型
近期,RVC变声器创始人 (GitHub昵称:RVC-Boss)开源了一款跨语言音色克隆项目 GPT-SoVITS。项目一上线就引来了互联网大佬和博主的好评推荐,不到两天时间就已经在GitHub上获得了1.4k Star量。
2024-01-24 14:38:10 2620 2
原创 细数语音识别中的几个former
随着Transformer在人工智能领域掀起了一轮技术革命,越来越多的领域开始使用基于Transformer的网络结构。目前在语音识别领域中,Tranformer已经取代了传统ASR建模方式。近几年关于ASR的研究工作很多都是基于Transformer的改进,本文将介绍其中应用较为广泛的几个former架构。
2024-01-23 11:40:42 1399
原创 2024年,AI大模型有哪些新看点?
自ChatGPT-4问世以来,过去的大半年中,我们虽然没有在ChatGPT发布一周年之际等来“ChatGPT-5”,但围绕ChatGPT,仍有不少新看点。其中的一些引发我们对人工智能(AI)与人的关系进行新的思考,另一些则为AI的发展和安全带来新的争论。
2024-01-22 16:55:16 1290
原创 音乐人声分离工具:极简的人声和背景音乐分离工具
这是一个极简的人声和背景音乐分离工具,本地化网页操作,无需连接外网,使用 2stems/4stems/5stems 模型。
2024-01-19 10:51:27 1138
原创 又快又好! 基于Consistency Model的一步采样歌声转换模型CoMoSVC已开源
在2023年,AI虚拟歌手如AI孙燕姿等已经引起了广泛的关注,而大多数应用都是基于开源框架SoVITS。最近,香港科技大学和微软亚洲研究院推出了一种基于Consistency Model的歌声转换系统CoMoSVC,它在歌声转换速度上与基于Flow的SoVITS系统相媲美,但在自然度和相似度方面大幅超越了原有模型。它的MOS评分(满分5分)比基于Flow的SoVITS系统高出了1分,同时也达到或超过了基于多步采样Diffusion Model的评分。
2024-01-18 16:06:41 469
原创 最强开源中英双语大模型发布,340亿参数超越Llama2-70B !
未来,FlagScale 将继续保持与上游项目 Megatron-LM 最新代码同步,引入更多定制功能,融合最新的分布式训练与推理技术以及主流大模型、支持异构AI硬件,力图构建一个通用、便捷、高效的分布式大模型训练推理框架,满足不同规模和需求的模型训练任务。在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》(Minecraft)作为一款受欢迎的开放世界游戏,具有无限生成的复杂世界和大量开放的任务,为智能体提供了丰富的交互接口,进而成为近几年开放式学习研究的重要测试环境。
2024-01-12 16:58:55 965
原创 Rectified Flow Matching 语音合成,上海交大开源
https://github.com/cantabile-kwok/VoiceFlow-TTS(持续更新中)rectified flow matching 与 flow matching 对比效果。rectified flow matching 与 grad-tts 对比效果。项目实现的参考信息,可以看到该项目做的工作很完备。VoiceFlow框图。
2024-01-10 15:58:55 416
原创 评测集开放丨中文读唇总动员:CNVSRC 2023 中文连续视觉语音识别挑战赛
视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。为此,清华大学在2023年发布了CN-CVS数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。
2024-01-10 15:55:03 1075
原创 奥特曼YC演讲:套壳ChatGPT者死,我行不代表你行
来源丨量子位这是在最新YC校友分享会上,OpenAI CEO奥特曼发表的演讲观点。为此他还特意补充道:尤其别花太多精力在UI界面上。一时间引发共鸣无数。不少业内人士表示:除了这句话以外,奥特曼这段演讲中可谓金句频出,个中不少“干货细节”,也被大伙儿纷纷摘录转发——包括GPT-5、6的进展,关于AGI未来趋势的看法,以及亲身创业的种种。比如,“AI女友”只是个美丽的陷阱,千万不要轻易尝试。听完演讲后的网友,甚至将之形容为“金子一般的收获”。所以奥特曼究竟在这场演讲中分享了啥?一起来看看。
2024-01-08 16:29:41 823
原创 假期归来必看!2023年9月份,爆款论文总结,了解最新学术进展!
以下文章来源于AINLPer ,作者ShuYini十一假期结束了,十月基本上算是过了一半了,小伙伴们收收心准备开始学习工作吧。按照惯例,月初继续带到家盘一下上个月(九月份)的热点论文。本月论文主要分为三个方面。其中在大模型微调方面有:麻省理工(MIT)提出了LongLoRA微调算法、北大&微软提出的RAIN对齐方法等;在大模型发布方面有:MAmmoTH、InternLM-20B、Xwin-LM、Falcon等模型发布;在大模型应用方面有:交通管理、文档问答、情感分析、编程等。
2024-01-03 19:30:00 815
原创 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星
一种直观的方法被称为窗口注意力(Window Attention)(如图 1 b),这种方法只在最近 token 的 KV 状态上保持一个固定大小的滑动窗口,虽然能确保在缓存填满后仍能保持稳定的内存使用率和解码速度,但一旦序列长度超过缓存大小,甚至只是驱逐第一个 token 的 KV,模型就会崩溃。通常,LLM 在预训练时受到注意力窗口的限制。基于上述洞察,研究者提出了 StreamingLLM,这是一个简单而高效的框架,它可以让使用有限注意力窗口训练的注意力模型在不进行微调的情况下处理无限长的文本。
2024-01-03 13:55:49 810
原创 论文分享 | 利用单模态自监督学习实现多模态AVSR
以下文章来源于智能语音新青年 ,作者ttslr 论文地址:https://aclanthology.org/2022.acl-long.308.pdf 代码仓库:https://github.com/LUMIA-Group/Leveraging-Self-Supervised-Learning-for-AVSR训练一个基于Transformer的模型需要大量的数据,然而获取对齐且有标注的多模态数据的成本很高,特别是用于音视频语音识别的数据(AVSR)。因此使用未标注的单模态数据非常有意义。另一方面,尽管
2023-12-27 18:02:57 933
原创 NeurIPS 2023丨说话人识别:语音解耦与自监督
对于说话人识别/验证(speaker recognition/verification)任务而言,提取准确的说话人表征(speaker representation)是非常困难的,因为语音信息中同时包含了说话人特征信息和语音内容信息[1]。另一方面,为了降低文本标签缺失对语音文本信息部分建模的影响,研究者提出了一种特别的自监督(self-supervision)学习方法来辅助解耦动态信息部分,其中使用的损失函数是通过对线性操作所保留的说话人表征的优化而达到的,命名为。t对于动态信息建模的有效性和必要性。
2023-12-27 17:07:56 859
原创 论文分享 | SINGFAKE:歌声深度伪造检测
以下文章来源于智能语音新青年,作者ttslr论文地址:https://arxiv.org/pdf/2309.07525.pdf合成歌声的兴起给艺术家和行业利益相关者带来了未经授权使用歌声的严峻挑战。与合成语音不同,合成歌声通常是在含有强烈背景音乐的歌曲中发布的,而强烈的背景音乐可能会掩盖合成人工痕迹。此外,歌声还具有不同于语音的声学和语言特点。这些独特的特性使得歌声深度伪造检测成为一个相关但又与合成语音检测明显不同的问题。在这项工作中,我们提出了歌声深度伪造检测任务。我们首先介绍了
2023-12-26 18:09:05 1004
原创 【开源项目】Flow Matching 语音合成
时光仿佛有穿越到了从前,在你诗情画意的眼波中,在你舒适浪漫的暇思里,我如风中的思绪徜徉广阔天际,仿佛一片沾染了快乐的羽毛,在云环影绕颤动里浸润着风的呼吸,风的诗韵,那清新的耳语,那婉约的甜蜜,那恬淡的温馨,将一腔情澜染得愈发的缠绵。(Grad-TTS-CFM,使用BigVGAN通用声码器,优化1&3&5还未集成,还有明显发音错误)CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入语音合成领域,下面是voicebox的一个工作流程图。4. 使用MAS对齐。
2023-12-22 11:14:49 1051
原创 回顾丨2023 SpeechHome 第三届语音技术研讨会
针对如何有效提取和表示多尺度的风格特征,提出了一种面向表现力语音合成的多尺度风格建模方法,使用多尺度参考编码器提取目标语音的全局和局部风格特征,提高语音合成的可控性、表现力和灵活性;报告首先总体介绍魔搭社区语音模态的开源现状,包含语音识别、语音合成、说话人识别等技术方向。报告分享了西工大音频语音与语言处理实验室在语音生成方面的进展,包括拟人化语音合成,基于语音因素解耦的表现力语音合成,基于自然语言的风格迁移、音色生成和语音转换,高表现力与实时语音转换、以及Vec Tok Speech多任务语音大模型技术。
2023-12-20 20:00:00 1498
原创 IEEE TASLP | 联合语音识别与口音识别的解耦交互多任务学习网络
然后对于任务交互,CTC分支为AR任务提供了对齐的文本,而从我们的AR模型中提取的口音嵌入整合到ASR分支的编码器和解码器中。具体地,对于一个带口音的语句,映射其相应的对齐文本向量到口音相关空间作为一种基准,然后通过评估输入的声学嵌入和该基准的点积相似度,实现对口音偏移的度量。通过比较D1和D5可以看出,如去掉从CTC分支中获得的对齐文本,将会对LASAS AR分支的准确性有重大不利影响,这一结果清楚地表明了来自CTC分支的语言信息对提高AR任务性能的重要性。此外,口音信息与ASR的整合方式也有优劣之分。
2023-12-20 13:52:17 1102 1
原创 报名开启丨2023 SpeechHome 语音技术研讨会
2023 SpeechHome 语音技术研讨会是由语音之家主办,深圳市人工智能学会、CCF 语音对话与听觉专委会做为指导单位,中国语音产业联盟、中国人工智能产业联盟数据委员会、北京人工智能产业联盟数据创新服务专业委员会、清华大学语音和语言技术中心、香港中文大学(深圳)语音与语言实验室、昆山杜克大学语音与多模态智能信息处理实验室、西北工业大学音频语音与语言处理研究组、小米集团、喜马拉雅、希尔贝壳协办。研讨会旨在促进产学研间的语音技术交流,洞察未来技术创新趋势,推动智能语音技术在前沿、开源领域的发展。
2023-11-09 15:01:05 160
原创 7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023
为了解决大模型的资源需求问题,华盛顿大学联合谷歌提出了一种新的蒸馏机制「分步蒸馏」(Distilling Step-by-Step),蒸馏后的模型尺寸相比原模型来说非常小,但性能却更好,并且微调和蒸馏过程中所需的训练数据也更少。在ANLI上,使用770M的T5模型实现了比540B的PaLM更好的性能,模型尺寸仅为1/700。实验中,微调后770M的T5模型在基准测试中仅使用80%的可用数据就优于少样本提示的540B的PaLM模型,而标准微调相同的T5模型即使使用100%的数据集也难以匹配。
2023-10-20 20:39:19 136
原创 7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023
LLM不实用,小模型蒸馏才是「现实」的大模型应用路线,全面领先微调技术!土豪请无视。。。
2023-10-08 10:32:50 126
原创 NeurIPS 2023丨说话人识别:语音解耦与自监督
对于说话人识别/验证(speaker recognition/verification)任务而言,提取准确的说话人表征(speaker representation)是非常困难的,因为语音信息中同时包含了说话人特征信息和语音内容信息[1]。另一方面,为了降低文本标签缺失对语音文本信息部分建模的影响,研究者提出了一种特别的自监督(self-supervision)学习方法来辅助解耦动态信息部分,其中使用的损失函数是通过对线性操作所保留的说话人表征的优化而达到的,命名为。t对于动态信息建模的有效性和必要性。
2023-10-07 15:49:01 328
原创 论文分享 | 利用单模态自监督学习实现多模态AVSR
训练一个基于Transformer的模型需要大量的数据,然而获取对齐且有标注的多模态数据的成本很高,特别是用于音视频语音识别的数据(AVSR)。因此使用未标注的单模态数据非常有意义。另一方面,尽管大规模自监督学习的有效性在音频和视觉方面都得到了很好的证实,但是如何将这些预训练模型融合到多模态场景中仍尚未得到充分探索。在本工作中,我们成功利用单模态自监督学习来优化多模态的AVSR。
2023-10-07 15:41:23 285
空空如也
请问cmake -B build的时候报这个错,大家有遇到的吗?
2022-08-03
想着用自己电脑训模型,理论上可以吗?
2022-08-03
用了aishell的数据集报这种问题的原因是什么?
2022-08-03
模型测试时,使用的average model,这是什么方法,有没有参考资料。
2022-08-03
aishell example运行stage 4,遇到这个报错,请问是什么问题?
2022-08-03
单并发,用的WeNetspeech离线大模型以及libtorch1.10,rescore和search都在500ms+,,为什么这么慢呢?一般TLG有多大呀?语言模型大小会很影响速度的吧?
2022-08-02
最后一个模型量化,在x86上也是有必要的吗?速度会提升多少?
2022-08-02
sort是让一个batch内的音频按顺序排列吗?
2022-08-02
一般这种websocket 如何做高并发,有没有好的解决方案呢
2022-08-01
热词输出带上 context 的标志了,是不是通过参数可以控制?还是要改下代码,去掉?
2022-08-01
这个热词文件,有行数限制么?比如:3万行,可以么?
2022-08-01
热词标记,但是最后没有实现是因为什么?
2022-08-01
WeNet进行一些简单的优化rtf大概能到多少?
2022-08-01
在流式识别中,如何解决背景噪音带来的干扰?
2022-07-22
web socket server支持语言模型吗?
2022-07-22
-context_score 这个值是什么范围?一般多少合适?
2022-07-22
web socket server 怎么启用热词?
2022-07-20
热词的文件是什么结构?
2022-07-20
WeNet 转 onnx 的时候要拆成几个模型导出,可以合并为一个吗?
2022-07-19
WeNet有什么独特的地方吗?比如流识别方面?
2022-07-19
端到端模型对于领域文本优化有什么方案可以在实际应用中使用的?
2022-07-19
如果想充分理解一个预训练模型的算法,比如aishell预训练模型,应该从哪入手?
2022-07-19
请问现在工业上用传统的技术多还是端到端的技术多啊?
2022-07-05
热词增强和热词唤醒在实现上的区别是什么?
2022-07-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人