- 博客(150)
- 资源 (97)
- 问答 (7)
- 收藏
- 关注
原创 夜雨飘零·千问:解答您无尽的疑问
想象一下,只需一键,即可轻松启动功能强大的大语言模型。夜雨飘零·千问启动器就是这样一个神奇的工具,它无需繁琐的环境搭建,内置了多种规格的模型以适应不同的使用场景。更令人惊喜的是,即使你的设备资源有限,也能找到适合的模型,因为最小的0.5B模型仅需1G显存!
2024-04-09 23:33:37 273
原创 PPASR流式与非流式语音识别
PPASR是一款基于PaddlePaddle实现的语音识别框架,PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。
2021-11-30 22:35:20 7338 35
原创 鸿蒙应用开发-录音并使用WebSocket实现实时语音识别
录音并实时获取RAW的音频格式数据,利用WebSocket上传数据到服务器,并实时获取语音识别结果,参考文档。是录音工具类,进行录音和获取录音数据。中添加,关于字段说明,也需要在各个的。添加所需要的权限,注意是在。还需要一些其他的工具函数。
2024-03-26 22:58:48 620 1
原创 鸿蒙应用开发-录音保存并播放音频
是录音工具类,进行录音和获取录音数据。格式的音频,然后播放该音频,参考文档。中添加,关于字段说明,也需要在各个的。添加所需要的权限,注意是在。
2024-03-26 22:56:48 403
原创 鸿蒙应用开发-仿微信聊天对话对话信息列表
编写的是对列表的操作,如添加数据、获取列表大小,通过操作这个对象,控制列表显示。仿微信聊天对话对话信息列表,显示发送文本和接收文本,参考文档。
2024-01-19 19:35:08 478
原创 鸿蒙应用开发-请求语音合成服务获取音频文件
请求语音合成服务,通过上传语音合成文本,返回音频数据,并保存到本地。这里要说明一下,由于`HttpResponse`接口给问题,服务的响应类型必须是`application/octet-stream`,才能正确获取音频数据并保存,接口文档:[HttpResponse]
2024-01-18 19:47:31 387
原创 轻松识别几个小时的长音视频文件
之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。而且识别结果中,可以包含每句话的开始时间和结束时间,可以用来做字幕等等。
2024-01-07 13:28:05 473
原创 语音指令控制坦克大战
本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序,用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。
2023-12-17 13:07:59 502
原创 一键运行大语言模型服务,搭建聊天应用
本文介绍一个可以快速搭建本地大语言模型的聊天服务,模型和代码已全部提供,不需要联网运行。项目使用的是Qwen-7B-Int4模型,只需要8G显存的显卡都能流畅运行,无论是Windows还是Linux系统都支持使用。
2023-10-23 20:46:29 267
原创 轻松快速搭建一个本地的语音合成服务
本文将介绍一个可以快速搭建本地语音合成的服务,模型和代码已全部提供,不需要联网运行。项目使用的是VITS模型结构,能够很轻松地启动服务。
2023-10-22 13:59:16 305
原创 识别准确率竟如此高,实时语音识别服务
本文将介绍一个准确率非常高的语音识别框架,那就是FunASR,这个框架的模型训练数据超过几万个小时,经过测试,准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别,一边说话一边出结果。
2023-10-21 21:56:04 836
原创 FunASR语音识别GUI界面应用
本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。
2023-10-08 18:46:12 774
原创 基于PaddlePaddle实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支
2023-08-20 23:08:54 1280
原创 基于Pytorch实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支
2023-08-20 23:05:12 3118 3
原创 微调Whisper语音识别模型和加速推理
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
2023-04-23 22:41:07 7727 11
原创 使用VAD将长语音分割的多段短语音
今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是的一个小功能,这个功能是基于深度学习实现的。
2022-11-23 20:30:00 2087
原创 基于PaddlePaddle训练中文标点符号模型
本想是基于[PaddleSpeech](https://github.com/paddlepaddle/PaddleSpeech)开发的中文标点符号模型,默认使用的预训练模型为`ernie-3.0-medium-zh`。该模型可以用于语音识别结果添加标点符号,使用案例[PPASR](https://github.com/yeyupiaoling/PPASR)。
2022-09-14 19:34:00 3122 5
原创 基于Pytorch实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。
2022-07-07 21:28:08 5725 12
原创 使用PaddlePaddle轻松实现语音合成
使用PaddlePaddle轻松实现语音合成,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
2022-07-06 21:04:43 2521 1
原创 使用PaddlePaddle搭建一个可以识别数千中动物
使用PaddlePaddle实现的数千种动物识别,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
2022-07-06 19:56:03 1089
原创 基于PaddlePaddle实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。
2022-07-06 18:00:46 1131 2
原创 基于Pytorch实现的EcapaTdnn声纹识别模型
前言本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。源码地址:VoiceprintRecognition-Pytorch使用
2022-05-04 15:56:46 6191 33
原创 基于PaddlePaddle实现的EcapaTdnn声纹识别模型
本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m
2022-05-01 22:29:11 3108
原创 给语音识别文本加上标点符号
在语音识别中,模型输出的结果只是单纯的文本结果,并没有根据语法添加标点符号,本教程就是针对这种情况,在语音识别文本中根据语法情况加入标点符号,使得语音识别系统能够输出在标点符号的最终结果。
2022-01-13 15:29:47 10343 19
原创 WenetSpeech数据集的处理和使用
WenetSpeech数据集包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。
2021-11-30 20:43:06 6793 6
原创 基于PaddlePaddle实现的快速人脸识别模型
前言本项目参考了ArcFace的损失函数,同时参考了PP-OCRv2模型结构,意在开发一个模型较小,但识别准确率较高且推理速度快的一种人脸识别项目,该项目训练数据使用emore数据集,一共有85742个人,共5822653张图片,使用lfw-align-128数据集作为测试数据。源码地址:https://github.com/yeyupiaoling/PaddlePaddle-MobileFaceNets数据集准备本项目提供了标注文件,存放在dataset目录下,解压即可。另外需要下载下面这两个数据
2021-11-03 15:32:48 3030 17
原创 基于Pytorch实现的快速人脸识别模型
MobileFaceNet本项目参考了ArcFace的损失函数结合MobileNet,意在开发一个模型较小,但识别准确率较高且推理速度快的一种人脸识别项目,该项目训练数据使用emore数据集,一共有85742个人,共5822653张图片,使用lfw-align-128数据集作为测试数据。源码地址:https://github.com/yeyupiaoling/Pytorch-MobileFaceNet数据集准备本项目提供了标注文件,存放在dataset目录下,解压即可。另外需要下载下面这两个数据集,
2021-11-03 15:25:39 5768 35
原创 PPASR语音识别(进阶级)
PPASR(进阶级)基于PaddlePaddle2实现的端到端自动语音识别,相比入门级,进阶级从三个方面来提高模型的准确率,首先最主要的是更换了模型,这次采用了DeepSpeech2模型,DeepSpeech2是2015年百度发布的语音识别模型,其论文为[《Baidu’s Deep Speech 2 paper》](http://proceedings.mlr.press/v48/amodei16.pdf) 。然后也修改了音频的预处理,这次使用了在语音识别上更好的预处理,通过用FFT energy计算线性谱
2021-09-18 09:36:29 1426 2
原创 基于Pytorch实现的声音分类
本项目是基于Pytorch的声音分类项目,旨在实现对各种环境声音、动物叫声和语种的识别。项目提供了多种声音分类模型,如EcapaTdnn、PANNS、ResNetSE、CAMPPlus和ERes2Net,以支持不同的应用场景。此外,项目还提供了常用的Urbansound8K数据集测试报告和一些方言数据集的下载和使用例子。用户可以根据自己的需求选择适合的模型和数据集,以实现更准确的声音分类。项目的应用场景广泛,可以用于室外的环境监测、野生动物保护、语音识别等领域。同时,项目也鼓励用户探索更多的使用场景,以推动
2021-08-20 20:12:48 25702 177
原创 基于Tensorflow2实现的中文声纹识别
前言本章介绍如何使用Tensorflow实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》 。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。不同的是本项目使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更
2021-07-06 21:20:59 2210 22
原创 基于Pytorch实现的声纹识别模型
本章介绍如何使用Pytorch实现简单的声纹识别模型,本项目参考了人脸识别项目的做法Pytorch-MobileFaceNet,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。
2021-07-06 16:53:36 16301 65
原创 我的新书,《PaddlePaddle Fluid 深度学习入门与实战》已出版!
前言PaddlePaddle,又名飞桨,前生是百度公司与 2013 年自主研发的深度学习框架,在 2016 年 9 月的百度世界大会上,百度首席科学家吴恩达首次宣布开源 PaddlePaddle 深度学习框架,也是我国首款深度学习开源框架。笔者是2017年开始接触PaddlePaddle的,那是由于开源时间较短,所以能接触到相关资料相当有限,为了更多开发者能够熟悉使用 PaddlePaddle 这个这个框架,我在CSDN博客上分别编写了《我的PaddlePaddle学习之路》以及多篇实用教程,同时还出版了
2021-06-06 10:06:36 1702 10
原创 基于Pytorch实现人脸关键点检测模型MTCNN
前言MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,总体可分为P-Net、R-Net、和O-Net三层网络结构。它是2016年中国科学院深圳研究院提出的用于人脸检测任务的多任务神经网络模型,该模型主要采用了三个级联的网络,采用候选框加分类器的思想,进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net
2021-06-02 22:50:07 6397 26
原创 基于MXNET实现的年龄性别识别
年龄性别识别年龄性别识别,基于insightface功能模块开发的,支持多张人脸同时检测和识别。源码地址:https://github.com/yeyupiaoling/Age-Gender-MXNET环境安装mxnet,支持1.3~1.6版本,安装命令如下。pip install mxnet-cu101==1.5.0数据集默认支持以下三种数据集,将以下三个数据集下载解压到dataset目录下。http://afad-dataset.github.io/http://mmlab
2021-04-07 20:49:20 1305 1
原创 基于PaddlePaddle 2.0动态图实现的CRNN文字识别模型
CRNN本项目是PaddlePaddle 2.0动态图实现的CRNN文字识别模型,可支持长短不一的图片输入。CRNN是一种端到端的识别模式,不需要通过分割图片即可完成图片中全部的文字识别。CRNN的结构主要是CNN+RNN+CTC,它们分别的作用是,使用深度CNN,对输入图像提取特征,得到特征图。使用双向RNN(BLSTM)对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签(真实值)分布。使用 CTC Loss,把从循环层获取的一系列标签分布转换成最终的标签序列。CRNN的结构如下,一
2021-04-03 12:05:10 2177 5
原创 基于PaddlePaddle2.0验证码端到端的识别
验证码端到端的识别,是对《我的PaddlePaddle学习之路》笔记六——验证码端到端的识别 的升级,这篇文章是我18年初写的,基于当时的V2版本编写,现在有点过时了,突然想升级一下。在线运行在线运行:https://aistudio.baidu.com/aistudio/projectdetail/1679868创建数据列表和词汇表数据列表是为了方便训练是读取数据的。import osimport cv2def createDataList(data_path, list_path):
2021-03-23 19:27:49 791 3
PPASR的V2版本Conformer训练超大数据集
2022-11-11
PPASR的V2版本DeepSpeech2模型文件
2022-11-08
PPASR的V2版本Conformer模型文件
2022-11-08
PaddlePaddle实现的EcapaTdnn声纹识别超大数据melspectrogram
2022-11-08
PaddlePaddle实现的EcapaTdnn声纹识别超大数据(spectrogram)
2022-11-08
Pytorch实现的EcapaTdnn声纹识别超大数据模型(melspectrogram)
2022-11-08
Pytorch训练EcapaTdnn声纹识别超大数据模型(spectrogram)
2022-11-08
三个标点符号的标点符号模型
2022-09-15
基于PaddlePaddle实现的语音合成工具
2022-06-27
基于深度学习框架ONNX的人脸识别系统
2022-06-24
基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-07
基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-06
基于Pytorch实现的EcapaTdnn声纹识别模型(spectrogram)
2022-05-04
基于Pytorch实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-05-03
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-02
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-01
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(spectrogram)
2022-04-26
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-04-25
MASR中文语音识别模型(数据集:Librispeech)
2022-03-22
PPASR流式与非流式语音识别模型(LibriSpeech数据集)
2022-01-26
对语音识别结果加上标点符号模型
2022-01-13
MASR中文语音识别模型(大数据集训练的)
2022-01-09
Pytorch实现的流式与非流式语音识别模型(数据集:free_st_chinese_mandarin_corpus)
2021-12-26
基于PaddlePaddle声纹识别模型全部模型参数文件
2023-08-28
基于Pytorch声纹识别模型全部模型参数文件
2023-08-28
基于PaddlePaddle声纹识别模型EcapaTdnn全部模型参数文件
2023-08-11
基于Pytorch声纹识别模型EcapaTdnn全部模型参数文件
2023-08-11
MASR的V2版本Conformer训练超大数据集
2023-01-29
3000+小时的中文普通话语音数据集
2022-11-14
自定义中文语料约2千万条数据
2022-11-14
基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-07
基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-06
基于Pytorch实现的EcapaTdnn声纹识别模型(spectrogram)
2022-05-04
基于Pytorch实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-05-03
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-02
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-01
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(spectrogram)
2022-04-26
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-04-25
MASR中文语音识别模型(大数据集训练的)
2022-01-09
WeNet中的Fbank有没有对齐的Python版本?
2021-11-29
请问wave.open读取的流怎把它转换为跟soundfile一样的numpy结果呢?
2021-10-29
中英文混合端到端语音识别模型
2021-10-17
在Android上如果对音频做快速傅里叶变换
2021-09-28
Android如何不预览从摄像头中获取视频帧?
2019-04-15
在paddlepaddle中的book里“识别数字”如何引用其他训练数据
2017-10-25
Android新版本模拟器要输入密码问题
2017-06-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人