BarbaraChow-CSDN博客

音频削波，是指在模拟或数字系统中，音频信号被放大到超出最大限制。通常也被称为“过载（Overdrive）”，就像同名的吉他单块一样，这对音质的影响极大，最终出现失真问题，同时，人耳对于这种现象十分敏感。下图展示了发生削波时的情况：比如：采样频率44.1KHz，精度16bit，双声道。用sony麦克风输入电平，衰减电平保持不变的情况下，将麦克风的采集音量分别调至55和100。RtAudio PCM 音量55RtAudio PCM 音量100。

2024-04-13 11:49:46 30

转载傅里叶变换到小波变换

傅立叶变换是最入门的，也是最先了解的，通过傅立叶变换，了解缺点，改进，慢慢的就成了小波变换。从傅立叶变换、短时傅立叶变换，小波变换等等，还有EMD变换。当然，其中会看到很多的名词，例如，内积，基，归一化正交，投影，Hilbert空间，多分辨率，父小波，母小波，这些不同的名词也是学习小波路上的标志牌。

2024-03-29 17:48:22 39

原创音频读取之wave和liborsa

wave库基本操作

2024-03-11 22:53:41 472

原创声强和能量及其praat操作

声强和能量及其praat操作

2024-03-07 20:15:26 1154

原创 Numpy中常用函数np.clip和np.finfo

Numpy中常用函数np.clip和np.finfo

2024-03-07 11:58:26 314

翻译数据操作之 Normalize / Standardize / Rescale

为什么用、怎么用、什么时候用 Should You Normalize / Standardize / Rescale Your Data?

2024-03-06 21:56:16 109

原创生成模型之扩散模型DDPM

Diffusion model

2023-12-20 19:39:09 1413

原创基频估计之DIO算法

DIO算法提取F0

2023-11-27 22:01:41 1190

原创音质和音色一样吗？

音质和音色

2023-11-10 18:05:03 368

原创实验语音学的基本概念

实验语音学

2023-11-09 11:30:33 843

转载相似度度量（Similarity Measurement）方法总结

相似性度量方法

2023-09-21 10:44:11 1171 1

转载最小相位、全通滤波器、群延迟、相位延迟

最小相位系统

2023-09-07 15:33:56 1466

原创谱包络之pysptk和pyworld

一个是mel广义谱表示，转换成MLSA声码器能够合成的语音参数，就能直接合成语音；一个是对语音频谱包络进行编码，需要再解码成普参数再合成语音。

2023-08-11 21:49:00 435

原创语音基石模型Speech Foundation Models

语音自监督学习模型。

2023-07-23 17:24:21 1051

转载内积inner product、外积outer product、哈达玛积element-wise product

内积inner product、外积outer product、哈达玛积element-wise product

2023-07-12 11:22:56 1479

原创通俗易懂生成对抗网络GAN原理（二）

GAN背后的理论

2023-07-05 17:30:44 847

转载浅析声音的数字化过程

音频数字化就是将模拟的(连续的)声音波形数字化(离散化)，以便利用数字计算机进行处理的过程，主要包参数括采样频率（Sample Rate）和采样数位/采样精度（Quantizing，也称量化级）两个方面，这二者决定了数字化音频的质量。采样频率是对声音波形每秒钟进采样的次数。根据这种采样方法，采样频率是能够再现声音频率的一倍。人耳听觉的频率上限在20kHz左右，为了保证声音不失真，采样频率应在40kHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.1kHz等。

2023-07-05 11:37:35 2610 1

原创语言的韵律(Prosody)

从感知层面，语言韵律就是音调和节奏的变化所产生的感知模式。

2023-06-28 11:47:20 1039

原创小波变换之pycwt (python)

PyCWT是用于连续小波谱分析的Python模块，它包括小波变换和FFT算法统计分析的常规操作的集合。此外，该模块还包括交叉小波变换、小波相干性测试和样例脚本。该模块需要NumPy和SciPy，matplotlib模块。

2023-06-16 12:15:33 2827 1

原创 HARVEST基音检测算法

Harvest的独特之处在于可以获得可靠的F0轮廓，减少了将浊音部分错误地识别为清音部分的错误。在第一步中，算法使用多个不同中心频率的带通滤波器提取基本分量，从滤波信号中得到基本F0候选值;然后利用瞬时频率对基本F0候选对象进行细化和评分，然后估计出每帧中的几个F0候选对象。由于基于基本成分提取的逐帧处理对时间局部噪声的鲁棒性较差，在第二步中使用了使用相邻f0的连接算法。这种连接利用了F0等高线在短时间内不会急剧变化的事实。

2023-06-06 21:02:00 682 1

转载离散余弦变换DCT

通过研究发现，DCT除了具有一般的正交变换性质外，其变换阵的基向量很近似于Toeplitz矩阵的特征向量，后者体现了人类的语言、图像信号的相关特性。因此，在对语音、图像信号变换的确定的变换矩阵正交变换中，DCT变换被认为是一种准最佳变换。在近年颁布的一系列视频压缩编码的国际标准建议中，都把 DCT 作为其中的一个基本处理模块。

2023-05-24 21:25:13 3767

转载矢量量化（Vector Quantization）

矢量量化技术

2023-05-24 16:32:51 1033

原创 MATLAB之采样函数resamlpe、decimate、downsample

resample函数主要通过有理因子改变采样率，可以实现抽取和内插。比如：y = resample(x,p,q)x是样本信号，p，q都是正整数，p为新的采样频率，q为原来的采样频率；例如：y=resample(x,100,200)这代表x信号原先的采样频率为200Hz，使用resample函数后采样率变为100Hz，则x信号的数据长度会变为原来的一半。反之，就是使x的采样频率升高了。x–时间序列p、q–正整数，指定重采样的长度的倍数。

2023-05-16 15:22:17 5264

原创 Matlab之round、fir1、fftfilt

该格式是利用基于FFT的重叠相加法对数据进行滤波，这种频域滤波技术只对FIR滤波器有效。该函数是通过向量b描述的滤波器对x数据进行滤波。语法形式只有1种：Y = round(X)，这里的X可以是数，向量，矩阵，输出对应。设计一个48阶FIR带通滤波器，通带为0.35π≤ω≤0.65π rad/ sample。数字角频率w、模拟角频率Ω之间的关系为 w=Ω/Fs,所以 w = 2。b是FIR滤波器的H(z）的分子多项式系数。Wn — 截止频率， 0≤Wn≤1，Wn=1 对应于采样频率的一半。

2023-05-16 14:40:04 555

原创基频建模方法总结

语音合成领域需要对基频进行建模，具体到文语转换TTS、语音转换VC、情感语音转换EVC领域等。

2023-05-03 22:36:02 725

原创基频微扰与振幅微扰Jitter and shimmer

之前只是听过这个词，但是什么是基频抖动，为什么要基频抖动，怎么抖动都还不是很了解，今天总结一下。

2023-04-21 11:50:32 1320

原创 Cheaptrick算法

2015年Morise发表在SPEECH COMMUNICATION期刊上的一篇文章。该算法目的是获得一个准确的、时间稳定的谱包络，采用基频(F0)，由F0自适应加窗、功率谱平滑和频率域频谱恢复三部分组成。

2023-04-11 21:50:43 525 2

转载什么是倍频程？

倍频程，又称倍波程，指在滤波特性曲线上，频率或波长之比为2或1/2的两个频率或波长之间的间隔。对于长波通滤波器，二分之一波长的截波点称倍波程；对于短波通滤波器,二倍波长的截波点称倍波程。倍波所对应的强度的对数与截波所对应的强度的对数之差的称滤波器陡度。对带通滤波器的波长特性曲线，两截波间的波长范围称波带。截波、陡度和波带是描述滤波器件性能常用的三个参数。看来很多领域学科都用到这个专业名词。上面说的是物理电磁波领域用到的。那我们主要关心声学领域的意义。

2023-04-10 11:33:04 4668

转载插值操作interp(MATLAB&python版）

插值法又称“内插法”，是利用函数f (x)在某区间中已知的若干点的函数值，作出适当的特定函数，在区间的其他点上用这特定函数的值作为函数f (x)的近似值，这种方法称为插值法。如果这特定函数是多项式，就称它为插值多项式。注意：所有的插值方法都要求x是单调的，并且xi不能够超过x的范围。

2023-04-06 16:50:43 5952

原创音段特征 VS 超音段特征

在语音领域常常见到这两个名词，今天学习一下，随时看到随时补充。

2023-03-30 21:14:11 2462 2

原创情感语音转换学习

如何描述和表示情感语音？情感可以用分类来描述或维度表示。对于表示情绪的标签，情绪类别方法是表示情绪最直接的方法。最著名的分类方法之一是Ekman的六种基本情绪理论，将情绪分为六个离散的类别，即愤怒、厌恶、恐惧、快乐、悲伤和惊讶，在许多情绪语音合成研究中被采用。然而，这种离散的表示并不寻求模拟人类情感中的微妙差异来控制渲染语音。另一种方法是模拟情绪表达的物理特性。一个例子是罗素的环状模型，由觉醒、效价和支配性定义。

2023-03-30 11:27:27 1204

原创 STRAIGHT之基频提取

基于两组滤波器输出瞬时频率的微分特性，提出了一种针对非平稳，类语音的基频估计方法。从滤波器中心频率映射到输出瞬时频率的特定类型的固定点提供了输入信号的组成正弦分量的频率。当滤波器由等距Gabor函数与基数b样条基函数卷积制成时，固定点的微分特性提供了相应分量的载波噪声比的实际估计值。这些估计值用于选择基本分量，并集成分布在其他谐波分量中的F0信息。

2023-03-23 11:33:42 361

原创 STRAIGHT之 MulticueF0v14算法

STRAIGHT中提出的一种新的使用多个F0线索的基频提取算法。文章发表在2005InterSpeech上新的F0提取器在处理表达性语音时特别有效，其中不规则的声带振动模式更容易被检测到。

2023-03-21 22:49:58 371

原创 MATLAB voicebox工具箱之基频估计

前面已有很多介绍基频的文章了，看我其他博客。今天主要学习voicebox工具箱之基频估计功能。只要安装了voicebox工具箱，调用很简单。

2023-03-15 19:37:26 244

原创 MELP声码器

这是一款比较老的声码器，是美国1998年指定的美国国防部DoD电信和系统标准，该算法由TI公司和ASP公司联合推出。

2023-03-14 13:53:01 1170

原创 Praat之基频分析

测量基频F0的方法具体方法就不展开讲了，看我的其他博客。下图我选了0.03s的浊音音频，可以看到是短时周期的，那么基频就是1s内有多少个这样的周期。比如这个正弦信号，1秒有2个相同波形，所以基频是2Hz。注：自相关的错误，还得后面三种方法再检查一下。

2023-03-06 17:28:20 2922

原创基频的后处理

基频为什么要归一化？为了消除人际随机差异，提取恒定参数，在语际变异中找到共性。

2023-03-04 17:03:16 830

原创基频检测算法详细总结

基音频率是语音信号的最重要的特征参数之一，基频的复杂之处在于不同的人发出的语音基频可能不同，同一个人说不同的字词时基频可能不同，同一个人在不同的时间说相同的字词时基频也可能不同。通常，基频与发音人声带的长短、薄厚、韧性、劲度和发音习惯等有关系，在很大程度上代表了个人的特征。此外，基频还随着人的性别、年龄不同而有所不同。基频也受说话人情绪，习惯，环境等的影响。一般来说，男性说话者的基音频率较低，而女性说话者和小孩的基音频率相对较高。可见，基频是随发音人、发音内容、发音时间等因素动态变化的。

2023-03-01 17:39:34 3557

空空如也

空空如也