智慧医疗探索者-CSDN博客

原创使用ffmpeg提取视频中的音频并保存为单声道wav

FFmpeg项目由 Fabrice Bellard在2000年创立。到目前为止，FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等多媒体开源项目有着广泛的重叠。Ffmpeg（FastForward Mpeg）是一款遵循GPL的开源软件，在音视频处理方面表现十分优秀，几乎囊括了现存所有的视音频格式的编码，解码、转码、混合、过滤及播放。

2024-03-08 17:52:04 1812

原创 AIGC:语音克隆模型Bert-VITS2-2.3部署与实战

本文提出VITS2，一种单阶段的文本到语音模型，通过改进之前工作的几个方面，有效地合成了更自然的语音。本文提出了改进的结构和训练机制，所提出的方法在提高多说话人模型中语音特征的自然度、相似性以及训练和推理效率方面是有效的。证明了所提出方法可以显著减少以前工作中对音素转换的强依赖，允许完全端到端单阶段方法。

2024-03-05 19:59:36 1819 2

原创使用ffmpeg实现视频片段截取并保持清晰度

Ffmpeg 应该是 FFmpeg 工具集中最核心的利器，支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库

2024-02-23 12:10:32 1425

MiniCPM 是一系列端侧语言大模型，主体语言模型 MiniCPM-2B 具有 2.4B 的非词嵌入参数量。在综合性榜单上与 Mistral-7B 相近（中文、数学、代码能力更优），整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。在当前最接近用户体感的榜单 MTBench 上，MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。

2024-02-04 14:29:23 1627

原创清华系2B模型杀出，性能吊打LLaMA-13B

2 月 1 日，面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM，主体语言模型 MiniCPM-2B 仅有 24 亿（2.4B）的非词嵌入参数量。在综合性榜单上与 Mistral-7B 相近，在中文、数学、代码能力表现更优，整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。

2024-02-04 14:07:30 1440

原创 AI数字人训练数据集汇总

唇读（Lip Reading），也称视觉语音识别（Visual Speech Recognition），通过说话者口型变化信息推断其所说的内容，旨在利用视觉信道信息补充听觉信道信息，在现实生活中有重要应用。例如，应用在医疗领域辅助听力受损的病人提高沟通交流能力，在军事领域提高情报获取和处理能力，在多媒体领域提高人机交互的多样性和鲁棒性等。随着深度学习技术的发展，以及数据集规模的不断完善，基于深度学习的框架方法已经逐渐取代传统方法，成为唇读的主流方法。

2024-02-02 20:15:57 1963

原创开源而强大的视频下载利器：youtube-dl

youtube-dl 是一款基于 Python 的小型命令行工具，允许从 YouTube、Dailymotion、Google Video、Photobucket、Facebook、Yahoo、Metacafe、Depositfiles、Bilibili 和类似网站下载视频。它是用 pygtk 编写的，需要 Python 解释器来运行，它不受平台限制，可以在任何 GNU/Linux、Windows 或 macOS 系统上运行。

2024-02-01 19:26:50 875

原创中国目前的人工智能在全球处于什么水平

中国目前的人工智能行业虽与发达国家有一定差距，但仍处在世界前列，但随着国家的大力发展，我也相信，中国的人工智能行业会发展越来越好，越来越快！

2024-01-26 16:48:10 1577

原创 Reading Notes：Human-Computer Interaction System: A Survey of Talking-Head Generation

由于人工智能的快速发展，虚拟人被广泛应用于各种行业，包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触，并在人机交互中增强用户体验。因此，我们设计了人机交互系统框架，包括语音识别、文本到语音、对话系统和虚拟人生成。接下来，我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时，我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势，强调了关键工作并总结了数据集。对于有关于Talking-Head Generation的方法，这是一

2024-01-26 16:12:27 1237

原创 conda环境下使用youtube_dl模块下载youtube视频异常解决方法

Conda是一个强大的工具，对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置，使得Python开发更加容易和高效。通过使用Conda，开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行，大大提高了项目的可移植性和可复现性。

2024-01-25 20:22:30 1425

原创使用自有数据集微调ChatGLM2-6B

P-Tuning v2的原理是通过对已训练好的大型语言模型进行参数剪枝，得到一个更加小巧、效率更高的轻量级模型。具体地，P-Tuning v2首先使用一种自适应的剪枝策略，对大型语言模型中的参数进行裁剪，去除其中不必要的冗余参数。然后，对于被剪枝的参数，P-Tuning v2使用了一种特殊的压缩方法，能够更加有效地压缩参数大小，并显著减少模型微调的总参数量。

2024-01-25 20:15:32 2228 1

原创人工智能之数据科学库sklearn

sklearn，全称scikit-learn，是python中的机器学习库，建立在numpy、scipy、matplotlib等数据科学包的基础之上，涵盖了机器学习中的样例数据、数据预处理、模型验证、特征选择、分类、回归、聚类、降维等几乎所有环节，功能十分强大

2024-01-24 18:15:58 1063

原创 VAD语音分割算法详解

Voice Activity Detection (VAD) 在语音信号处理中，例如语音增强，语音识别等领域有着非常重要的作用。它的作用是从一段语音（纯净或带噪）信号中标识出语音片段与非语音片段。VAD系统通常包括两个部分，特征提取和语音/非语音判决；

2024-01-24 11:58:01 1826 1

原创 conda环境下OSError: We couldn‘t connect to ‘https://huggingface.co‘问题解决

2024-01-23 14:57:11 1321

原创机器学习神器：Sklearn详解

什么是机器学习？字面上来讲就是 (人用) 计算机来学习。谈起机器学习就一定要提起汤姆米切尔 (Tom M.Mitchell)，就像谈起音乐就会提起贝多芬，谈起篮球就会提起迈克尔乔丹，谈起电影就会提起莱昂纳多迪卡普里奥。

2024-01-23 14:53:24 1622

原创基于扩散模型语音驱动人物头像说话模型：DreamTalk

DreamTalk：由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型让人物头像说话的框架。能够根据音频让人物头像照片说话、唱歌并保持嘴唇的同步和模仿表情变化。

2024-01-22 19:05:57 1987

原创使用ffmpeg调整视频中音频采样率及声道

2024-01-22 17:35:58 1745

原创视频处理关键知识

I帧或关键帧或帧内帧（I-frame or Key-Frame or Intra-frame）仅由帧内预测的宏块组成。I帧中的每个宏块只能在同一帧内匹配其他宏块，这意味着，它只能利用帧内“空间冗余”来进行压缩。空间冗余是一个术语，用来指单个帧的像素之间的相似性。I帧在不同的视频编解码器中以不同的形式出现，如IDR、CRA或者BLA。这些不同类型的I帧本质相同：都不存在时域预测。

2024-01-19 20:25:04 1335

原创 conda环境下wget: command not found解决方案

2024-01-19 11:08:45 1309

原创 conda环境下module ‘charset_normalizer‘ has no attribute ‘md__mypyc‘解决方法

charset-normalizer 是一个Python库，旨在帮助解决文本字符集编码的问题。它提供了对不同字符集编码的检测和规范化功能，使得在处理来自未知字符集编码的文本时更加方便。

2024-01-17 15:50:20 3105

原创音视频同步

声卡和显卡均是以一帧数据来作为播放单位，如果单纯依赖帧率及采样率来进行播放，在理想条件下，应该是同步的，不会出现偏差。但实际情况，往往不同步。

2024-01-17 15:49:50 1209

原创 conda环境下FutureWarning: Pass sr=16000, n_fft=800 as keyword args问题解决

2024-01-16 18:52:16 1043

原创 Python音频处理利器：pydub详解

pydub是Python的一个音频处理库，可以处理各种音频格式，如mp3、wav、flv等等。它是一个轻量级、快速且易于使用的库。silence库是pydub的一个扩展库，可以在音频文件中根据静默部分进行分割，非常方便。

2024-01-16 18:38:22 2135

原创使用ffmpeg进行视频截取

ffmpeg在使用-c:v copy对原视频码流进行直接截取时，并不是按照指定时间截取的，而是从指定时间附近的I帧开始截取和终止。

2024-01-15 17:46:15 1700

原创 conda环境下No module named ‘pytorch_lightning‘问题解决

2024-01-15 11:06:55 1342

原创 pytorch中的DataLoader

通常在训练时我们会将数据集分成若干小的、随机的批（batch），这个操作当然可以手动操作，但是pytorch里面为我们提供了API让我们方便地从dataset中获得batch，DataLoader就是来解决这个问题的。

2024-01-14 23:42:17 1165

原创 WeNet2.0：提高端到端ASR的生产力

全新的 WeNet 2.0 在各种语料库上比原来的 WeNet 实现了高达 10% 的相对识别性能提升，并提供了几个面向生产的重要特性。

2024-01-14 23:24:41 1019

原创 PYthon正则表达式

正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。

2024-01-13 22:58:08 932

原创 Whisper: openAI开源准确率最高的通用语言语音识别

我们研究了仅通过预测大量互联网音频录音的语音处理系统的能力。当扩大到68万小时的多语言和多任务监督时，生成的模型可以很好地泛化到标准基准，而且通常可以与之前的全监督结果相竞争，但在zero-shot识别设置中，无需进行任何微调。与人类相比，这些模型接近他们的准确性和鲁棒性。我们正在发布模型和推理代码，以便为进一步的鲁棒性语音处理工作提供基础。

2024-01-13 09:56:16 1279

原创 wav2lip中文语音驱动人脸训练

2020年，来自印度海德拉巴大学和英国巴斯大学的团队，在ACM MM2020发表了的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》，在文章中，他们提出一个叫做Wav2Lip的AI模型，只需要一段人物视频和一段目标语音，就能够让音频和视频合二为一，人物嘴型与音频完全匹配。

2024-01-12 00:35:36 3248

原创 conda环境下cannot write keep file问题解决

2024-01-12 00:35:03 1063

原创高效底座模型LLaMA

大型语言模型（Large Languages Models，LLMs）通过大规模文本数据的训练，展示了其根据文本指令或少量样本完成新任务的能力。这种少数示例的性质首次在规模足够大的模型中出现，导致了一系列聚焦于进一步扩大这些模型的工作。这些努力都是基于一个假设：模型参数越多，性能越好。然而，Hoffmann等人（2022）的近期研究显示，在给定的计算预算下，最佳的性能并非由最大的模型实现，而是由训练数据更多的较小模型实现。

2024-01-11 12:01:17 1534

原创使用ffmpeg实现音频静音修剪

Ffmpeg 应该是 FFmpeg 工具集中最核心的利器，支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库，结构图如下：

2024-01-11 11:50:33 1514

原创 centos下升级git版本

Git 和其它版本控制系统（包括 Subversion 和近似工具）的主要差别在于 Git 对待数据的方式。从概念上来说，其它大部分系统以文件变更列表的方式存储信息，这类系统（CVS、Subversion、Perforce 等等）将它们存储的信息看作是一组基本文件和每个文件随时间逐步累积的差异

2024-01-10 13:01:06 1625

原创 conda环境下Torch not compiled with CUDA enabled解决方法

2024-01-10 09:50:02 1328

原创使用ffmpeg对视频进行静音检测

2024-01-09 17:28:44 1892

原创 VALL-E X语音大模型，支持跨语言文本语音合成、语音克隆

本文提出了一种跨语言神经编解码器语言模型VALL-E X，用于跨语言语音合成。该模型可以通过使用源语言语音和目标语言文本作为提示来预测目标语言语音的声学令牌序列。实验结果表明，VALL-E X可以通过仅使用源语言语音作为提示来生成高质量的目标语言语音，同时保留未见过的说话者的声音、情感和声学环境。此外，VALL-E X有效地缓解了外语口音问题，可以通过语言ID进行控制。

2024-01-09 14:30:59 2002

原创大模型LLM训练的数据集

随着新型AI技术的快速发展，模型训练数据集的相关文档质量有所下降。模型内部到底有什么秘密？它们又是如何组建的？本文综合整理并分析了现代大型语言模型的训练数据集。

2024-01-07 23:40:03 1816

原创当大型语言模型（LLM）遇上知识图谱：两大技术优势互补

大型语言模型（LLM）已经很强了，但还可以更强。通过结合知识图谱，LLM 有望解决缺乏事实知识、幻觉和可解释性等诸多问题；而反过来 LLM 也能助益知识图谱，让其具备强大的文本和语言理解能力。而如果能将两者充分融合，我们也许还能得到更加全能的人工智能。

2024-01-07 23:18:18 1580 1

原创 PEFT: 在低资源硬件上对十亿规模模型进行参数高效微调

PETL是HuggingFace的一个高效微调模型的工具箱。参数高效微调 (PEFT) 方法可以使预先训练的语言模型 (PLM) 有效适应各种下游应用程序，而无需微调所有模型的参数。微调大模型的花费通常令人望而却步。在这方面，PEFT方法仅微调少量（额外）模型参数，从而大大降低了计算和存储成本。最近最先进的 PEFT 技术实现了与完全微调相当的性能。

2024-01-06 22:51:27 1013

AVSpeech视听语音数据集

AVSpeech 是一个新的、大规模的视听数据集，包括没有干扰的背景噪音的语音视频片段。这些片段的长度为 3-10 秒，在每个片段中，原声带中的听到的声音，属于视频中可看见的唯一在说话的人。该数据集包含大约 4700 小时的视频片段，来自 29 万个 YouTube 视频，涵盖了各种各样的人、语言和面部姿势。

2024-02-06

猫狗二分类数据集，用于计算机视觉分类训练

猫狗二分类数据集，用于计算机视觉分类训练，里面包含两个文件夹，train中包含25000张分类好的猫狗图片，valid中包含12500张未分类的猫狗图片。

2023-08-02

水果照片数据集02，用于水果识别模型的训练

水果照片数据集02，用于水果识别模型的训练，每个文件夹中包含一类水果的照片

2023-08-02

水果照片数据集01，用于水果识别模型的训练

水果照片数据集01，用于水果识别模型的训练，每个文件夹中包含一类水果的照片

2023-08-02

faceswap预训练模型

FaceSwap的作用就是使用深度学习来识别和交换图片和视频中的人脸的工具。Faceswap利用深度学习算法和人脸识别技术，可以将一个人的面部表情、眼睛、嘴巴等特征从一张照片或视频中提取出来，并将其与另一个人的面部特征进行匹配。

2023-06-29

基于bert的韵律预训练模型

基于bert的韵律预训练模型，用于中文语音生成，生成自然韵律的声音，听起来效果更加自然流畅

2023-06-27

Wav2Lip-HD预训练模型第二个包，包含GFPGAN模型等，用于数字人语音驱动面部及图像超分辨率生成

2023-06-20

Wav2Lip-HD预训练模型第一个包，包含人脸检测模型，语音驱动面部模型等

Wav2Lip-HD预训练模型第一个包，包含人脸检测模型，语音驱动面部模型等，用于数字人语音驱动面部及图像超分辨率

2023-06-20

Wav2lip预训练模型，包含人脸检测模型、面部表情生成模型、基于gan的面部表情生成模型、生成判别模型等

Wav2lip预训练模型，包含人脸检测模型、wav2lip生成模型、wav2lip_gan生成模型、wav2lip判别模型等，使用此模型通过音频驱动视频，生成最终的嘴型与语音的匹配

2023-06-16

VITS-fast-fine-tuning训练准备的样例数据，可以快速体验该模型的语音合成效果

VITS-fast-fine-tuning训练准备的样例数据，可以快速体验该模型的语音合成效果。内容包含预训练模型、配置文件、语音素材等。

2023-06-09

vits-chinese模型使用标贝男声数据，经过700K step训练后模型，新speaker可以在此模型上二次训练

vits_chinese模型使用标贝男声数据，经过700K step训练后模型，新speaker可以在此模型上二次训练，达到快速收敛的效果。

2023-06-08

vits训练音频结果展示

2023-05-27

标贝数据集标注数据，用于采用标贝数据进行基础模型训练，内容为10000条标注数据

标贝数据集标注数据，用于采用标贝数据进行基础模型训练，内容为10000条语音标注数据，数据文件对应的地址： https://download.csdn.net/download/lsb2002/87818023 https://download.csdn.net/download/lsb2002/87818053

2023-05-25

标贝男声数据集，用于人工智能语音合成训练，内容为10000条男声音频以及标注

标贝男声数据集，用于人工智能语音合成训练，音频采用频率22050，此数据为第二个分包，总共二个分包。第一个包地址为：https://download.csdn.net/download/lsb2002/87770781 标注数据地址为：https://download.csdn.net/download/lsb2002/87818104

2023-05-25

标贝男声数据集，用于人工智能语音合成训练，内容为10000条带标注的男声数据

标贝男声数据集，用于人工智能语音合成训练，音频采用频率22050，此数据为第一个分包，总共二个分包第一个包地址：https://download.csdn.net/download/lsb2002/87818053 标注数据地址：https://download.csdn.net/download/lsb2002/87818104

2023-05-25