海天瑞声AI-CSDN博客

原创智慧教育需要什么样的语料？

在智慧教育领域，通过高质量的ASR平行语料数据研发团队能够更好的提升平台算法能力，以更加科学和精准的方式评估学习者的语言学习进展，提供个性化的反馈和指导。更进一步，能够更好的促进教育资源的均衡分配，让不同地区和背景的用户获得高质量的语言学习资源。海天瑞声高质量语音平行语料包含了多种语言及其对应翻译的语音和文本数据，覆盖多语种和方言，满足全球化语言学习需求，为不同文化背景的学习者提供便利。提供准确的方言语音与标准语言文字的对应关系，使模型能够学习特定表达和用法，更准确地识别和翻译方言。

2024-04-12 17:48:33 394

原创 Sora和ta背后的数据

我们知道视频的像素空间本身含有大量的冗余信息，比如相邻像素格子的取值往往是相似的，潜空间是一种非常好的处理高维复杂数据的方式，同时我们还要保证解码的时候能够从潜变量还原出原数据，那么合适的压缩比就非常重要，压得太多还原出的数据质量就会变差，具体压到多少维度合适这是个工程问题，需要我们通过实验试出来。从官方发布的视频demo来看，Sora只需要输入包含“构成元素、环境、行为及发生顺序、视频风格”等关键因素的Prompt（提示词），就能生成不同风格的高清、连贯，且具有丰富运镜和转场的60s视频。

2024-03-22 18:13:35 921

原创红蓝对抗，检测大模型可靠性的重要方式

另一方面海天瑞声拥有专业的标注团队，可以作为红蓝对抗的人工专家，构造一系列挑战性的问题，发现和修复模型的漏洞或弱点。促进更准确、更可信的大模型的发展和落地。为此，需要不断完善攻防策略，将安全性整合到模型设计中，通过跨学科合作，确保模型在提供高效服务的同时，也符合社会的伦理标准和法律规定。因此，红蓝对抗对于确保AIGC大模型的安全、可靠、公正和符合道德的运行至关重要，同时也有助于推动AI技术的进步和发展。这通常涉及持续的模型训练和调整，以及制定更加严格的策略和准则，以减少模型生成不当内容的风险。

2024-01-31 15:06:44 568

原创 Midjourney V6 如何成为创意者的灵感源泉

这意味着数据收集和标注过程需覆盖多样化的图像和文本内容，从而让模型学习并理解各种复杂的视觉和语言信息。只有在这种全面、细致的数据支持下，模型才能有效地将文本描述转换为相应的图像，以满足各种创意和应用需求。除了图片质量的显著提升外，还能够更准确地理解用户的提示指令，生成更符合预期场景的高清图片。整个过程从文本输入开始，通过一系列的处理和转换步骤，最终生成与文本内容相关的图像。: 经过训练的模型，用于根据理解的文本内容生成相应的图像。: 这是整个框架的核心，涉及到文本理解和图像生成的技术。

2024-01-24 14:03:33 390

原创提升会议体验：大模型赋能的语音识别技术

通过利用这些数据进行深入的训练和测试，可以显著提升语音识别系统在处理多说话者、多语种会议环境中的性能，从而推动整个语音识别领域的发展。尽管语音大模型可以为会议场景的语音识别带来许多潜在的优势，但这些模型也需要域内的会议场景的数据来迁移和自适应，让Whisper适配于多说话人语音识别的应用场景和声学环境。尽管语音大模型如Whisper在会议场景的语音识别中展现出巨大的潜力，但为了使这些模型在多说话人语音识别应用中达到最佳性能，它们往往需要针对特定会议场景的数据进行迁移学习和自适应调整。

2023-12-21 15:06:54 1030

原创 NCMMSC-CNVSRC 2023视觉语音识别竞赛圆满落幕

视觉语音识别，也称唇语识别，是一项通过口唇动作来推断发音内容的技术。12月9日晚，NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议（NCMMSC 2023）举办，会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的获奖名次，在现场清华大学及各获奖团队进行精彩分享。研讨会中，清华大学王东老师主持技术交流会，海天瑞声副总经理、COO李科开场致辞并和语音之家创始人&CEO卜辉共同为2个赛道的获奖队伍颁奖，清华大学陈琛同学分享了基线系统与技术报告。

2023-12-18 11:55:04 108

原创情感语音，为AI伴侣注入“灵魂”

例如: 工作、旅行、教育，电影、音乐、爱好，体育、健康、地理、国家等。她推出了Caryn AI，这是一个基于GPT-4 API接口的AI聊天机器人，具有她的声音、言行和个性。一个人找到一个符合自己所有喜好的定制伴侣，这在现实生活中是无法实现的，但借助AI，这个愿望在虚拟世界中成为可能。为了能够进行无限的互动，包括发送书面消息、语音笔记，以及扩大范围以获取女友的照片和视频，用户则需要支付费用。当你高兴的时候，虚拟人需要为你高兴。悲你所悲，喜你所喜，真正的情感抚慰和陪伴，就需要这种情绪化的聊天技巧。

2023-12-18 11:52:38 47

原创 AI数字人技术深度赋能电商直播

只需几分钟的训练素材视频和1000美元成本，品牌方就能实现全天候直播售卖产品。来源：MIT Technology Review文章，小冰 (左右);硅基智能 (中)麻省理工科技评论发布的文章 “Deepfakes of Chinese influencers are livestreaming 24/7” 中提到上述内容，让全世界看到了中国的AI数字人技术如何应用于电商行业中，并拥有着怎样巨大的降本增效优势。近年来，随着直播行业的兴起，为电商行业注入了增长新动力。

2023-12-06 14:15:21 56

原创狙击ChatGPT，马斯克的Grok来了

拥有 330亿参数的 Grok，在GSM8k (中学数学词问题)，MMLU (多学科多项选择题)，HumanEval (Python代码补全任务)，MATH (数学：用LaTeX编写的中学和高中数学问题) 项测试中，都展示出了强大的性能，超越了其计算类别中的所有其他模型，包括ChatGPT-3.5和Inflection-1。具有情感的文本、语音或者其他多模态数据的采集需要专业的团队进行标注，海天瑞声能够提供情感相关的数据服务用于大模型的训练和微调，欢迎联系我们了解详情。幽默常常与特定的文化和语境相关联。

2023-11-20 15:27:24 135

原创 ChatGPT多模态功能All in One

此外，在会议上还推出了ChatGPT的自定义功能，用户可以无需任何编程知识，便可根据特定需求打造个性化的ChatGPT版本，称之为GPTs（多个GPT），这将作为即将推出的GPT商店（GPT Store）的一部分，实现人人都能零代码打造专属的ChatGPT。ChatGPT-4 与 DALL-E 或类似图像生成模型的集成可以实现无缝体验，用户可以在与 ChatGPT-4 的对话中描述图像，然后系统可以使用该描述来使用单独的图像生成图像，图像生成模型。这使得它能够提取当前信息，为用户提供更准确和最新的响应。

2023-11-08 10:38:25 767

原创 CNVSRC 2023 中文连续视觉语音识别挑战赛提交系统开放

CNVSRC 2023 设计特定说话人视觉语音识别（T1）和多说话人视觉语音识别（T2）两个任务，前者关注对某一特定说话人进行大数据调优后的性能，后者关注系统对非特定说话人的基础性能。包含43名说话人的音视频数据，每人的数据量接近1小时，其中每个人的三分之二数据构成开发集，剩余数据构成测试集。另20名说话人的数据来源于网络的演讲视频，单条数据时长较长，环境和内容较为复杂。包含一名说话人超过100小时的音视频数据，数据来源于网络视频，其中十分之九的数据构成开发集，剩余十分之一的数据作为测试集。

2023-11-01 10:37:48 60

原创 Data-Centric AI 以数据为中心的人工智能

它由五个子目标组成，包括收集数据，用于添加信息标签的数据标记，用于清理和转换数据的数据准备，用于对原始数据做更further的processing，用于在不收集更多数据的情况下增强数据多样性。以数据为中心的AI不仅要求数据的数据大而且要求数据的质量高，需要专业的数据公司把控质量。数据的关键性日益凸显，特别是近年来大型模型的发展，如上图ChatGPT迭代过程所示，训练所需的数据不仅在质量上有所提升，数量也呈现爆炸式增长。指的是数据降维，其主要目的就是在保留数据的基本信息的同时减少给定数据集的复杂性。

2023-11-01 10:28:07 182

原创数据清洗：大模型训练前的热身

经过清洗后的原始数据，约仅有1%成为语料库中的数据。

2023-10-25 12:24:50 331

原创 ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像

对话内容涉及明星、电脑及软硬件、教育、娱乐消遣、家族、美食、交友、健康、日常生活、婚姻恋爱、电影、音乐、新闻、宠物、时尚购物、社交、运动健身、旅游、电视节目、天气和工作。从他的回答可以看出，他会很多语种，但是对比普通常见的英文，汉语等大数据量的语种，其小语种的识别和合成准确率还是有差距，这也反应了一个事实：数据规模和质量决定 AI 模型的性能。由于小语种数据短缺，发音的特异性和语言标注较难等原因，导致ChatGPT对于小语种的语音识别和合成并不是非常的准确。这强调了小语种数据的精确标注和采集的重要性。

2023-10-17 16:49:40 371

原创 AUTO-AVSR 自动标注辅助下的视听语音识别

第一阶段为一个标注生成系统。对于LRS3，通过所提出的方法训练的仅视觉模型具有19.1％的WER，仅次于使用26倍训练数据的ViT3D-CM系统（WER为17.0％）作者提出了一种简单而有效的方法，通过使用预训练的ASR模型自动转录未标记的视频数据，从而扩展音频-视觉数据以用于语音识别。最近，ASR、VSR 和 AV-ASR的性能得到了显着提高，这主要归功于更大的模型和训练集的使用。论文作者提出使用开源的预训练语音识别模型去自动标注不含标签的数据集，然后使用这些标注后的数据去增广AVSR的训练数据。

2023-10-11 16:16:23 148 1

原创 CNVSRC 2023 中文连续视觉语音识别挑战赛评测集发布

CNVSRC 2023 设计特定说话人视觉语音识别（T1）和多说话人视觉语音识别（T2）两个任务，前者关注对某一特定说话人进行大数据调优后的性能，后者关注系统对非特定说话人的基础性能。包含43名说话人的音视频数据，每人的数据量接近1小时，其中每个人的三分之二数据构成开发集，剩余数据构成测试集。另20名说话人的数据来源于网络的演讲视频，单条数据时长较长，环境和内容较为复杂。包含一名说话人超过100小时的音视频数据，数据来源于网络视频，其中十分之九的数据构成开发集，剩余十分之一的数据作为测试集。

2023-10-11 16:09:13 121 1

原创覆盖100种语言的多模态语言翻译模型 SeamlessM4T

与普通的 UnitY 模型相比，(1) 从头开始初始化的核心 S2TT 模型被预先训练的 X2T 模型取代，以联合优化 T2TT、S2TT 和 ASR，(2) 浅层 T2U模型（在 Inaguma 等人中称为 T2U 单元编码器和第二通道单元解码器）被替换为具有 6 个 Transformer 层的更深层的基于 Transformer 的编码器解码器模型，(3) T2U 模型也在T2U 任务而不是从头开始训练。达到了新的最先进水平，在翻译到英语的语音到文本翻译上，BLEU分数比以前的模型提高了20%。

2023-09-28 10:34:41 372

原创 CNVSRC 2023 中文连续视觉语音识别挑战赛正式发布

由清华大学、北京邮电大学、海天瑞声、语音之家联合举办2023 NCMMSC特殊议题：中文连续视觉语音识别挑战赛（CNVSRC, Chinese Continuous Visual Speech Recognition Challenge）正式对外发布。

2023-09-20 17:26:38 106 1

原创 AI为什么经常产生幻觉？

对于上述方案中，训练数据的质量是重中之重。除了使用网络爬取的低质量数据，可以使用数据公司标注的高质量，精准数据微调模型，引导大数据训练的大模型的价值取向。如果用于训练 AI 的数据不是最新的或质量较差，AI 可能会基于不准确的信息做出幻觉的决策。例如，让 ChatGPT 列出五个用多项式建模花样滑冰的方程的参考文献，在 ChatGPT 给出的五个参考文献中，有四个是瞎编的，根本不存在。保证训练数据的高质量至关重要，这包括采取多项措施来维护和提升数据的质量水平，以确保AI系统能够产生准确和可靠的结果。

2023-09-12 13:46:28 227

原创数据为什么是大模型性能跃迁的“法宝”

关于训练数据，Llama 2 模型的训练语料库包含来自可公开访问来源的新鲜数据的混合，不包括与 Meta 产品或服务相关的数据。值得注意的是，这些改进包括更强大的数据清理、更新的数据混合、通过增加总标签来扩展训练、上下文长度加倍以及利用分组查询注意力 (GQA) 来增强大型模型的推理可靠性和可扩展性。然而，大量的计算要求阻碍了 LLM 的发展。在数据集构成上，DOTS-NLP-216 包含了对真实场景的对话采集，和高度还原真实场景的模拟对话这两种方式，来兼顾了分布的代表性、多样性和样本规模。

2023-09-11 11:15:00 89

原创驱动Llama 2提升效果的关键是什么？

去年，ChatGPT为全球人工智能的发展打开了新纪元。大语言模型（LLM）瞬间成为各大互联网公司争相追捧和追逐的蛋糕。全球进入到生成式大语言模型的军备赛中。当大家沉浸于讨论ChatGPT的的收费标准，是“$0.002 per 1k tokens”，每1000个tokens需要花费0.002美元，是否值得投资的时候....近期，Llama 2打开了AI大模型全球共享的新格局。此版本包括模型权重和用于预训练和微调的Llama语言模型的起始代码，参数范围从70亿到700亿。

2023-09-07 11:30:00 49

原创 RLHF如何优化迭代大模型性能？

ChatGPT是使用进行训练的一个大语言模型(LLM)。其工作原理可以简单地概括为：输入文本的编码、文本生成的解码、以及通过用户反馈不断迭代的训练优化过程。近几年，有不少在大量数据上训练的大语言模型，但这些模型都没有受到ChatGPT如此空前的关注度。主要原因在于那么什么是RLHF技术呢？还是先问问ChatGPT吧~概括来说，人类反馈强化学习 (RLHF) 是一种训练大型语言模型的方法，通过不断接收人类评估员的反馈来提升对话生成能力。

2023-09-06 10:30:00 145 1

原创大模型价值观对齐的那些事

2014年《人工智能：一种现代方法》的作者 Stuart Russell 教授，首次提出 “价值观对齐问题 (Value Alignment Problem)”。即我们构建的不是纯粹的智能，而是与人类价值观对齐的智能，并认为价值观对齐问题是人工智能内在固有的一部分，价值观对齐与人工智能的关系犹如安全壳之于核聚变反应堆。

2023-09-05 21:00:00 253 1

原创 Prompt Engineer入门指南

ChatGPT作为一款领先的语言模型，可以与人进行智能交互，提供有价值的信息和对话体验。这个智能小伙伴，可以回答你的问题、聊天，提供有趣的对话体验。但是作为普通人，你可能需要一些指南，来更好地与这位AI小助手交流。不用担心，我们将为你揭秘使用Prompt提问的秘籍，让你轻松玩转ChatGPT。ChatGPT虽然厉害，但并不是预知之神。所以，确保你的问题简单明了，避免卖弄华丽花哨的的隐晦表达。忘掉曲折的长篇大论，你跟ChatGPT的对话就像一部精彩的电影，上下文是剧情的关键。

2023-09-05 16:26:04 195 1

原创 Llama 2全球合作伙伴海天瑞声发布超大规模中文对话数据集DOTS-NLP-216

真实场景采集，符合中文表达习惯的自然对话数据，将为中文大语言模型（LLM）带来新动能。

2023-07-31 12:42:04 102 1

原创浅析ChatGPT技术

一句话介绍：ChatGPT是一个大语言模型，对应大数据、强算力、好算法。

2023-07-21 11:54:55 138 1

原创浅析多语种语音识别Multi-lingual ASR挑战

从Whisper的成功可以看出，多语种数据对于提升ASR系统的多语种识别的重要性。

2023-06-30 10:36:56 930

原创如何通过高质量语音合成数据

海天瑞声将持续提供更多高质量数据，赋能算法模型，提高语音合成的自然度和真实感。

2023-06-30 10:31:05 68

原创 OLR2021|倒计时5天，测试集即将发布！

由海天瑞声和清华大学发起，厦门大学、西北工业大学及昆山杜克大学联合主办的2021第六届“东方语种识别竞赛”（Oriental Language Recognition,以下简称OLR）将于11月1日正式发布测试集。作为本届赛事的一大亮点，语种识别1.2开放赛道的测试集包含了17种语言，均为从公开渠道获取的开源数据，覆盖了视频会议、日常交流等多种真实场景。该赛道设立的初衷在于应对复杂场景下的语种识别需求。这意味着本届OLR胜出队伍的模型将更贴近真实使用场景，环境鲁棒性更强，提前为模型吹响了实战的号角，以加

2021-10-27 21:36:36 165

原创 OLR2021报名启动，赛事再升级

1秒看懂OLR2021四大亮点：首次使用真实语音数据作为测试集；新增多语种语音识别赛道，混合13种语言的内容识别，挑战难度UPUP；以排行榜形式实时更新参赛队伍排名；将于国际语音顶会INTERSPEECH 2021举办Special Session.由海天瑞声和清华大学发起，厦门大学、西北工业大学及昆山杜克大学联合主办的2021第六届“东方语种识别竞赛”（Oriental Language Recognition,以下简称OLR）已经启动报名。赛事亮点本届竞赛新增以真实场景音频作为测试集

2021-08-03 20:41:33 252 1

原创阿尔茨海默综合症识别竞赛基线系统发布，报名通道即将关闭

作为2021年第十六届全国人机语音通讯学术会议（NCMMSC 2021）的特殊议题，由江苏师范大学、清华大学和海天瑞声公司联合举办的阿尔茨海默综合症（Alzheimer’s disease，AD）识别竞赛自启动报名以来，已有40多支队伍注册报名，目前竞赛仍在火热报名中。报名通道将于8月30日关闭，诚邀各位研究者和开发者参加本次比赛（参赛和报名请联系[email protected]）。为了帮助参赛者快速进入开发工作，以及比较参赛者算法的性能优势，组委会提供了基于tensorflow和sklearn的基线

2021-07-14 22:22:44 507

原创由海天瑞声支持，全球最大多领域英语开源数据集发布

日前，由陈果果、都家宇、张卫强等发起的语音社区志愿者组织SpeechColab和清华语音与音频技术实验室，联合语音社区的8个团队，在语音界大神Daniel Povey, Sanjeev Khudanpur, Shinji Watanabe等的大力支持下（详见下图），发布了全球最大的多领域英语开源数据集—GigaSpeech,介绍该数据集的论文已被国际语音顶会InterSpeech2021接收。参与人员及团队，完整论文下载见下文海天瑞声很荣幸参与了本次开源数据集的工作，为部分数据集提供了标注以及全部数据

2021-07-11 22:12:16 316

原创阿尔茨海默综合症识别竞赛，邀您报名

5月16日，由江苏师范大学、清华大学和海天瑞声联合举办的阿尔茨海默综合症(Alzheimer’s disease，简称AD)识别竞赛正式启动，欢迎学术界和产业界的同仁们报名参加！01竞赛背景阿尔茨海默综合症(Alzheimer’sdisease，AD)是最为常见的痴呆症，占所有类型痴呆的50%~70%。在AD痴呆阶段之前的阶段被称为轻度认知障碍（mild cognitiveimpairment, MCI），此时患者具有客观的认知损害但日常生活能力尚未受到明显影响。由于缺乏有效的干预药物，在发病早期进行诊

2021-05-18 09:42:32 518

原创 Call for Papers for the Special Session of INTERSPEECH 2021

在 INTERSPEECH 2021 会议举办期间，海天瑞声将与清华大学、厦门大学、西北工业大学及昆山杜克大学共同召开 Special Session – “Oriental Language Recognition”，围绕第五届“东方语种识别竞赛”（以下简称“OLR 竞赛”）所用技术和系统展开讨论。我们诚挚的邀请您向该 Special Session 投递论文，内容需引用OLR竞赛相关的技术或系统。该论文将按照与常规论文相同的方式进行评审和发表，提交截止日期为2021年3月26日。无论您是否参与过O

2021-01-20 20:14:57 396

海天瑞声的博客