- 博客(149)
- 资源 (97)
- 问答 (7)
- 收藏
- 关注
原创 PPASR流式与非流式语音识别
PPASR是一款基于PaddlePaddle实现的语音识别框架,PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。
2021-11-30 22:35:20 7206 35
原创 《PaddlePaddle从入门到炼丹》十五——把预测模型部署到Android手机上
现在越来越多的手机要使用到深度学习了,比如一些图像分类,目标检测,风格迁移等等,之前都是把数据提交给服务器完成的。但是提交给服务器有几点不好,首先是速度问题,图片上传到服务器需要时间,客户端接收结果也需要时间,这一来回就占用了一大半的时间,会使得整体的预测速度都变慢了,再且现在手机的性能不断提高,足以做深度学习的预测。
2019-02-23 21:38:16 6038 22
原创 《PaddlePaddle从入门到炼丹》十四——把预测模型部署在服务器
如果读者使用过百度等的一些图像识别的接口,比如百度的细粒度图像识别接口,应该了解这个过程,省略其他的安全方面的考虑。这个接口大体的流程是,我们把图像上传到百度的网站上,然后服务器把这些图像转换成功矢量数据,最后就是拿这些数据传给深度学习的预测接口,比如是PaddlePaddle的预测接口,获取到预测结果,返回给客户端。
2019-02-23 18:40:56 4162 11
原创 《PaddlePaddle从入门到炼丹》十三——自定义图像数生成
我们在第六章介绍了生成对抗网络,并使用生成对抗网络训练mnist数据集,生成手写数字图片。那么本章我们将使用对抗生成网络训练我们自己的图片数据集,并生成图片。在第六章中我们使用的黑白的单通道图片,在这一章中,我们使用的是3通道的彩色图。
2019-02-23 18:22:34 2086 5
原创 《PaddlePaddle从入门到炼丹》十二——自定义文本数据集分类
我们在第五章学习了循环神经网络,在第五章中我们使用循环神经网络实现了一个文本分类的模型,不过使用的数据集是PaddlePaddle自带的一个数据集,我们并没有了解到PaddlePaddle是如何使用读取文本数据集的,那么本章我们就来学习一下如何使用PaddlePaddle训练自己的文本数据集。我们将会从中文文本数据集的制作开始介绍,一步步讲解如何使用训练一个中文文本分类神经网络模型。
2019-02-23 18:10:32 4708 14
原创 《PaddlePaddle从入门到炼丹》十一——自定义图像数据集识别
本章将介绍如何使用PaddlePaddle训练自己的图片数据集,在之前的图像数据集中,我们都是使用PaddlePaddle自带的数据集,本章我们就来学习如何让PaddlePaddle训练我们自己的图片数据集。
2019-02-23 17:53:50 12100 71
原创 《PaddlePaddle从入门到炼丹》十——VisualDL 训练可视化
VisualDL是一个面向深度学习任务设计的可视化工具,包含了scalar、参数分布、模型结构、图像可视化等功能。可以这样说:“所见即所得”。我们可以借助VisualDL来观察我们训练的情况,方便我们对训练的模型进行分析,改善模型的收敛情况。
2019-01-17 23:10:01 6205 11
原创 《PaddlePaddle从入门到炼丹》九——迁移学习
前言在深度学习训练中,例如图像识别训练,每次从零开始训练都要消耗大量的时间和资源。而且当数据集比较少时,模型也难以拟合的情况。基于这种情况下,就出现了迁移学习,通过使用已经训练好的模型来初始化即将训练的网络,可以加快模型的收敛速度,而且还能提高模型的准确率。这个用于初始化训练网络的模型是使用大型数据集训练得到的一个模型,而且模型已经完全收敛。最好训练的模型和预训练的模型是同一个网络,这样可以最大限度地初始化全部层。
2019-01-17 22:59:58 5036 29
原创 《PaddlePaddle从入门到炼丹》八——模型的保存与使用
本系列教程中,前面介绍的都没有保存模型,训练之后也就结束了。那么本章就介绍如果在训练过程中保存模型,用于之后预测或者恢复训练,又或者由于其他数据集的预训练模型。本章会介绍三种保存模型和使用模型的方式。
2019-01-16 23:07:49 8963 27
原创 《PaddlePaddle从入门到炼丹》七——强化学习
本章介绍使用PaddlePaddle实现强化学习,通过自我学习,完成一个经典控制类的游戏,相关游戏介绍可以在Gym官网上了解。我们这次玩的是一个`CartPole-v1`游戏,操作就是通过控制滑块的左右移动,不让竖着的柱子掉下来。利用强化学习的方法,不断自我学习,通过在玩游戏的过程中获取到奖励或者惩罚,学习到一个模型。在王者荣耀中的超强人机使用的AI技术也类似这样。
2019-01-16 11:41:44 4073 11
原创 《PaddlePaddle从入门到炼丹》六——生成对抗网络
文章目录前沿定义网络定义训练程序训练并预测参考资料前沿我们上一章使用MNIST数据集进行训练,获得一个可以分类手写字体的模型。如果我们数据集的数量不够,不足于让模型收敛,最直接的是增加数据集。但是我们收集数据并进行标注是非常消耗时间了,而最近非常火的生成对抗网络就非常方便我们数据的收集。对抗生成网络可以根据之前的图片训练生成更多的图像,已达到以假乱真的目的。首先导入所需要的Python包,其...
2018-11-04 12:46:10 2846 5
原创 《PaddlePaddle从入门到炼丹》五——循环神经网络
文章目录前言训练模型预测数据参考资料前言除了卷积神经网络,深度学习中还有循环神经网络也是很常用的,循环神经网络更常用于自然语言处理任务上。我们在这一章中,我们就来学习如何使用PaddlePaddle来实现一个循环神经网络,并使用该网络完成情感分析的模型训练。训练模型首先导入Python库,fluid和numpy库我们在前几章都有使用过,这里就不重复了。这里主要结束是imdb库,这个是一个数...
2018-11-03 18:39:41 4731 35
原创 《PaddlePaddle从入门到炼丹》四——卷积神经网络
文章目录前言训练模型预测图像参考资料前言上一章我们通过学习线性回归例子入门了深度学习,同时也熟悉了PaddlePaddle的使用方式,那么我们在本章学习更有趣的知识点卷积神经网络。深度学习之所以那么流行,很大程度上是得益于它在计算机视觉上得到非常好的效果,而在深度学习上几乎是使用卷积神经网络来提取图像的特征的。在PaddlePaddle上如何定义一个卷积神经网络,并使用它来完成一个图像识别的任...
2018-10-29 23:00:52 10180 36
原创 《PaddlePaddle从入门到炼丹》三——线性回归
文章目录前言使用自定义数据使用房价数据集训练参考资料前言在第二章,我们已经学习了如何使用PaddlePaddle来进行加法计算,从这个小小的例子中,我们掌握了PaddlePaddle的使用方式。在本章中,我们将介绍使用PaddlePaddle完成一个深度学习非常常见的入门例子——线性回归,我们将分别使用自定义数据集和使用PaddlePaddle提供的数据集接口来训练一个线性回归模型。使用自定...
2018-10-29 23:00:20 7390 34
原创 《PaddlePaddle从入门到炼丹》二——计算1+1
在第一章介绍了百度AI Studio这个平台,接下来我们就使用这个平台来开发我们的PaddlePaddle。PaddlePaddle是百度在2016年9月27日开源的一个深度学习框架,也是目前国内唯一一个开源的深度学习框架。PaddlePaddle在0.11.0版本之后,开始推出Fluid版本,Fluid版本相对之前的V2版本,Fluid的代码结构更加清晰,使用起来更加方便。这本章中我们将会介绍如何使用PaddlePaddle来计算1+1,选择这个简单的例子主要是为了让读者了解PaddlePad
2018-10-29 22:59:48 6505 9
原创 《PaddlePaddle从入门到炼丹》一——新版本PaddlePaddle的安装
这一章我们介绍如何安装新版本的PaddlePaddle,这里说的新版本主要是说Fluid版本。Fluid 是设计用来让用户像Pytorch和Tensorflow Eager Execution一样执行程序。在这些系统中,不再有模型这个概念,应用也不再包含一个用于描述Operator图或者一系列层的符号描述,而是像通用程序那样描述训练或者预测的过程。也就是说PaddlePaddle从Fluid版本开始使用动态图机制,所以我们这个系列也是使用Fluid版本编写的教程。
2018-10-29 22:58:28 36894 27
原创 鸿蒙应用开发-录音并使用WebSocket实现实时语音识别
录音并实时获取RAW的音频格式数据,利用WebSocket上传数据到服务器,并实时获取语音识别结果,参考文档。是录音工具类,进行录音和获取录音数据。中添加,关于字段说明,也需要在各个的。添加所需要的权限,注意是在。还需要一些其他的工具函数。
2024-03-26 22:58:48 389
原创 鸿蒙应用开发-录音保存并播放音频
是录音工具类,进行录音和获取录音数据。格式的音频,然后播放该音频,参考文档。中添加,关于字段说明,也需要在各个的。添加所需要的权限,注意是在。
2024-03-26 22:56:48 278
原创 鸿蒙应用开发-仿微信聊天对话对话信息列表
编写的是对列表的操作,如添加数据、获取列表大小,通过操作这个对象,控制列表显示。仿微信聊天对话对话信息列表,显示发送文本和接收文本,参考文档。
2024-01-19 19:35:08 450
原创 鸿蒙应用开发-请求语音合成服务获取音频文件
请求语音合成服务,通过上传语音合成文本,返回音频数据,并保存到本地。这里要说明一下,由于`HttpResponse`接口给问题,服务的响应类型必须是`application/octet-stream`,才能正确获取音频数据并保存,接口文档:[HttpResponse]
2024-01-18 19:47:31 358
原创 轻松识别几个小时的长音视频文件
之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。而且识别结果中,可以包含每句话的开始时间和结束时间,可以用来做字幕等等。
2024-01-07 13:28:05 442
原创 语音指令控制坦克大战
本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序,用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。
2023-12-17 13:07:59 120
原创 一键运行大语言模型服务,搭建聊天应用
本文介绍一个可以快速搭建本地大语言模型的聊天服务,模型和代码已全部提供,不需要联网运行。项目使用的是Qwen-7B-Int4模型,只需要8G显存的显卡都能流畅运行,无论是Windows还是Linux系统都支持使用。
2023-10-23 20:46:29 225
原创 轻松快速搭建一个本地的语音合成服务
本文将介绍一个可以快速搭建本地语音合成的服务,模型和代码已全部提供,不需要联网运行。项目使用的是VITS模型结构,能够很轻松地启动服务。
2023-10-22 13:59:16 272
原创 识别准确率竟如此高,实时语音识别服务
本文将介绍一个准确率非常高的语音识别框架,那就是FunASR,这个框架的模型训练数据超过几万个小时,经过测试,准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别,一边说话一边出结果。
2023-10-21 21:56:04 698
原创 FunASR语音识别GUI界面应用
本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。
2023-10-08 18:46:12 693
原创 基于PaddlePaddle实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支
2023-08-20 23:08:54 1229
原创 基于Pytorch实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支
2023-08-20 23:05:12 2757 3
原创 微调Whisper语音识别模型和加速推理
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
2023-04-23 22:41:07 7278 7
原创 使用VAD将长语音分割的多段短语音
今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是的一个小功能,这个功能是基于深度学习实现的。
2022-11-23 20:30:00 2014
原创 基于PaddlePaddle训练中文标点符号模型
本想是基于[PaddleSpeech](https://github.com/paddlepaddle/PaddleSpeech)开发的中文标点符号模型,默认使用的预训练模型为`ernie-3.0-medium-zh`。该模型可以用于语音识别结果添加标点符号,使用案例[PPASR](https://github.com/yeyupiaoling/PPASR)。
2022-09-14 19:34:00 3044 5
原创 基于Pytorch实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。
2022-07-07 21:28:08 5435 12
原创 使用PaddlePaddle轻松实现语音合成
使用PaddlePaddle轻松实现语音合成,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
2022-07-06 21:04:43 2504 1
原创 使用PaddlePaddle搭建一个可以识别数千中动物
使用PaddlePaddle实现的数千种动物识别,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
2022-07-06 19:56:03 1083
原创 基于PaddlePaddle实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。
2022-07-06 18:00:46 1090 2
原创 基于Pytorch实现的EcapaTdnn声纹识别模型
前言本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。源码地址:VoiceprintRecognition-Pytorch使用
2022-05-04 15:56:46 5917 23
PPASR的V2版本Conformer训练超大数据集
2022-11-11
PPASR的V2版本DeepSpeech2模型文件
2022-11-08
PPASR的V2版本Conformer模型文件
2022-11-08
PaddlePaddle实现的EcapaTdnn声纹识别超大数据melspectrogram
2022-11-08
PaddlePaddle实现的EcapaTdnn声纹识别超大数据(spectrogram)
2022-11-08
Pytorch实现的EcapaTdnn声纹识别超大数据模型(melspectrogram)
2022-11-08
Pytorch训练EcapaTdnn声纹识别超大数据模型(spectrogram)
2022-11-08
三个标点符号的标点符号模型
2022-09-15
基于PaddlePaddle实现的语音合成工具
2022-06-27
基于深度学习框架ONNX的人脸识别系统
2022-06-24
基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-07
基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-06
基于Pytorch实现的EcapaTdnn声纹识别模型(spectrogram)
2022-05-04
基于Pytorch实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-05-03
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-02
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-01
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(spectrogram)
2022-04-26
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-04-25
MASR中文语音识别模型(数据集:Librispeech)
2022-03-22
PPASR流式与非流式语音识别模型(LibriSpeech数据集)
2022-01-26
对语音识别结果加上标点符号模型
2022-01-13
MASR中文语音识别模型(大数据集训练的)
2022-01-09
Pytorch实现的流式与非流式语音识别模型(数据集:free_st_chinese_mandarin_corpus)
2021-12-26
基于PaddlePaddle声纹识别模型全部模型参数文件
2023-08-28
基于Pytorch声纹识别模型全部模型参数文件
2023-08-28
基于PaddlePaddle声纹识别模型EcapaTdnn全部模型参数文件
2023-08-11
基于Pytorch声纹识别模型EcapaTdnn全部模型参数文件
2023-08-11
MASR的V2版本Conformer训练超大数据集
2023-01-29
3000+小时的中文普通话语音数据集
2022-11-14
自定义中文语料约2千万条数据
2022-11-14
基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-07
基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-06
基于Pytorch实现的EcapaTdnn声纹识别模型(spectrogram)
2022-05-04
基于Pytorch实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-05-03
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-02
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-01
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(spectrogram)
2022-04-26
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-04-25
MASR中文语音识别模型(大数据集训练的)
2022-01-09
WeNet中的Fbank有没有对齐的Python版本?
2021-11-29
请问wave.open读取的流怎把它转换为跟soundfile一样的numpy结果呢?
2021-10-29
中英文混合端到端语音识别模型
2021-10-17
在Android上如果对音频做快速傅里叶变换
2021-09-28
Android如何不预览从摄像头中获取视频帧?
2019-04-15
在paddlepaddle中的book里“识别数字”如何引用其他训练数据
2017-10-25
Android新版本模拟器要输入密码问题
2017-06-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人