机器灵-CSDN博客

原创 Python+OpenCV+HOG+SVM+行人检测

项目做得很多，机器学习，深度学习也搞了不少，对于图像的方面，现在就行人检测有关HOG+SVM这一块，做一下总结，当然也有车辆检测等等...这里就以行人检测为例做一个介绍：HOG：梯度直方图的缩写，涉及到Window大小，Block大小，Block的滑动步长，Cell大小和Bin大小（通常为9，360度等分9份），目的就是获取到Window中所有滑动后的block的cell的梯度直方图，组成特征...

2019-05-02 12:48:18 12094 14

原创 KMeans, KNN, Meanshift

这三个玩意，因为要么带K，要么带Mean，所以吗，放在一起介绍一下：Meanshift因为我本身是图像处理出身，最早接触的是Meanshift，其经常用于图像分割，目标跟踪等方面，下面首先说一下Meanshift:算法步骤：在未被标记的数据点中随机选择一个点作为起始中心点center；找出以center为中心半径为radius的区域中出现的所有数据点，认为这些点同属于一个聚类C...

2019-04-14 17:59:13 644

原创语音识别-LSTM

LSTM与RNN提起LSTM（长短期记忆神经网络），不得不先说一下RNN，RNN作为循环神经网络，具有记忆功能，在序列建模上具有重要的贡献。根据TensorFlow官方LSTM教程（colah’s Blog）：Understanding LSTM Networks (英文)做一些总结，首先看下面几张图：图1. 带循环的神经网络图2. 循环神经网络展开图3. 短依赖...

2019-04-14 13:06:07 5061

原创 SVM(支持向量机)--跌倒检测

前几天在清理电脑时，发现以前在项目中使用SVM进行跌倒检测判别的资料，Mark一下：对SVM的认识，想必学习机器学习的人都知道，主要作为一个二分类器使用，并且经常与逻辑斯特回归进行比较，其思想就是对正负样本划分超平面，离超平面最近的正负样本（支持向量）的间隔最大, 以达到分类的目的，下面对其做一些简要的介绍：SVM的性质：1. 监督学习，判别模型，凸二次规划；2. 损失函数自带L...

2019-04-14 08:47:52 4668 10

原创 Kaldi-yesno详解

在Kaldi的egs文件下有很多基于公共语音数据库的训练步骤及测试结果，其中也有中文的，本文就相对很简单的yesno样例结合脚本以及脚本运行结果进行详细的解析，以更好地理解语音识别的整体流程。总括我们先来看一下run.sh脚本cd ./egs/yesno/s5/vi run.sh=================================================...

2018-08-11 21:36:50 6161 2

原创语音识别-SRILM安装与使用

SRILM是一个应用比较广泛的统计和分析语言模型的工具，另外，还有 Kenlm，IRSTLM，MITLM等语言模型工具。本文就SRILM的安装和使用做简单的介绍。SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据（训练集）中得到一个模型，包括最大似然估计及相应的平滑算法；而评测则是从测试集中计算其困惑度。其最基础和最核心的模块是n-gram模块，这也是最早实现的模块，包括两个工具...

2018-07-23 17:17:41 8784 1

原创语音识别-kaldi下载与安装

Kaldi是为语音识别开发者提供的非常强大的工具库，其名字来自一个传说中发现咖啡树的牧羊人，由C++编码，目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别的模型的训练和预测。其现在和安装也很方便。下载：像所有GitHub上的开源项目一样，通过git clone完成对kaldi的下载，未安装git的情况下可以先安装git，当然也可以通过下载压缩包，解压后进行安装操作。...

2018-07-21 16:54:46 3305 1

原创 EOS钱包及代码分析

在开始讲解钱包之前，我们先看下面的两幅有关钱包与账户的之间关系的图片，从两幅图片中，可以得知，所谓钱包的作用就是存放密钥的，其密钥是为该账户下的各种需要加密服务的操作服务的，如交易，签名，出块等等。 wallet操作的所有子命令，主要有创建，打开，列出，加锁，解锁，导入key，显示public keys，显示private keys，如下图所示：创建：$ cleos wallet create...

2018-06-26 14:33:05 2509

原创 EOS整体架构分析

EOS优秀基因的背后是其底层的石墨烯软件架构所决定的。其实EOS不是最早采用石墨烯架构的区块链项目，其创始人Dan Larimer（绰号BM）早在BitShare、Steem等项目中已经采用该架构，并取得成功。那么到底什么是石墨烯架构？官网的解释如下：“The Graphene blockchain is not a monolithic application. It is compose...

2018-06-23 21:32:14 1910

原创 EOS环境搭建

MongoDB下载本篇教程适用于以下系统，但是不论你的电脑是 windows 还是 mac，都强烈建议安装一个虚拟机，在 Ubuntu 上搞，因为 Mac 上有很多坑。安装 Ubuntu 虚拟机有关教程大家可以在网上搜到。•Amazon 2017.09 and higher.•Centos 7.•Fedora 25 and higher (Fedora 27 recommended).•Min...

2018-06-07 17:55:58 2125

原创语音识别-字典

所谓字典，就是发音字典的意思，中文中就是拼音与汉字的对应，英文中就是音标与单词的对应，其目的是根据声学模型识别出来的音素，来找到对应的汉字（词）或者单词，用来在声学模型和语言模型建立桥梁，将两者联系起来。字典形式：字典的大小：字典的大小一般根据自己识别的方向，尽可能多的覆盖所有的字词，但也要尽可能多的抛弃不需要的字词，以提高检索效率和识别性能。字典的获得：...

2018-05-31 16:20:00 5022

原创语音识别-语言模型

1. 语言模型的目的提到语言模型，给一个大家最熟悉的使用场景就是输入法，智能拼音输入法，打出一串拼音，直接给出了合适的句子，即使不是你想要的，但确实是符合语法习惯的，例如，你的名字叫“福贵”你输入了“fugui”，出来的可能是“富贵”，但不会出来“抚跪”，这就是语言模型的功劳！~~~~一句话，语音识别中语言模型的目的就是根据声学模型输出的结果，给出概率最大的文字序列！~~~2. n-gram语言模...

2018-05-04 15:05:30 12501

原创语音识别-HMM

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以，隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可...

2018-04-26 16:03:06 2389 1

原创语音识别-GMM算法原理

GMM（高斯混合模型）是相对于单高斯模型来说的，是多个单高斯分布进行混合，理论上可以拟合出所有的分布曲线，主要应用于聚类算法。废话就不多说了，估计大家都知道高斯混合模型是个什么东西，下面直接列出单高斯模型和高斯混合模型的攻势以及示意图：单高斯模型分布高斯分布概率密度函数混合高斯模型图（两个component）混合高斯分布概率密度函数混合高斯分布主要有K个component组成，每个componen...

2018-04-22 17:34:35 7040

原创 EM算法

EM算法其实是最大似然估计的拓展，是为了解决最大似然估计无法解决的参数估计，最大似然估计通过简单的求导可以得到简单模型的参数，但是对于复杂的混合模型，含有隐含数据的情况下就力不从心了。例如，单高斯模型（GSM）可以通过最大似然估计进行参数估计，但是我们随后会学习混合高斯模型（GMM），是有好多个单高斯模型混合所得，就要使用EM算法进行参数估计，样本到底属于哪一个单高斯模型就是所谓的隐含数据，现在...

2018-03-27 15:44:52 409

原创最大似然估计（MLE）

在研究语音识别中的算法之前，需要做一些基础理论的介绍，以便更好地进行后面的算法学习！~~~本文主要研究极大似然估计的理论。下面由经典的贝叶斯分类决策来引入极大似然估计：贝叶斯公式：其中：p(w)：为先验概率，表示每种类别分布的概率；：类条件概率，表示在某种类别前提下，某事发生的概率；而为后验概率，表示某事发生了...

2018-03-20 12:59:20 4446

原创语音识别-声学模型（GMM-HMM）

本文主要讲解一下GMM-HMM算法声学模型的大概思路！~~~声学模型的目的是将经MFCC提取的所有帧的特征向量转化为有序的音素输出。概述如下：我们都知道HMM模型里面有隐含状态概念。我们需要弄明白音素HMM模型的隐含状态与一个音素之间的关系，通常一个音素含有3到5个状态，如果一个包含代表一个音素的HMM模型有3个状态（1,2,3,4,5），在对应一个音素的状态序列可以有1122333455（共10...

2018-03-12 10:55:45 9347 1

原创语音识别-MFCC特征提取

本文是在上一篇文章（语音识别-预处理）的基础上进行的。梅尔频率倒谱系数（MFCC）：梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。其主要过程为：1. 离散傅里叶变换离散傅里叶变DFT的输入是一帧帧加窗后的信号x[n]…x[m]，输出则是包含N...

2018-03-06 17:44:24 8550 2

原创语音识别-预处理

在进行特征提取之前，都要对原始序列做一系列的预处理，目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。常用的预处理方法有：端点检测其实就是找到语音信号的起始点和结束点。预加重目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音...

2018-02-25 16:30:40 11430 1

原创语音识别基本流程

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作，将需要分析的音频信号从原始信号中合适地提取出来；特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型...

2018-02-24 14:15:59 45513 6

nsh119的博客