• 等级
  • 57693 访问
  • 41 原创
  • 3 转发
  • 70168 排名
  • 2 评论
  • 4 获赞

让机器学会断句:基于词典的Bigram分词算法

目录概述从序列到图Unigram模型Bigram模型实现概述分词是NLP任务Pipeline中的重要步骤,一般来说都需要将句子切分成词之后,才能进一步把词进行向量化,最终输出各种各样的数学模型中,从而完成特定的NLP任务。中文不同于英文句子那样天然会用空格分割单词,所以中文句子切成独立的词相对困难,并且中文句子的词是上下文相关的,不同的分词方式会导致同一个句子出现不同含义。例如:研究所取...

2019-01-14 02:02:22

让机器读懂文章: pLSA模型推导及实现

让机器读懂文章:pLSA模型推导及实现概述pLSA模型pLSA的EM算法推导总结参考文献概述人类读懂文章是一个很自然的行为,当我们读完一篇《背影》的时候,我们就可以知道这篇文章在写些什么,也就是我们说获得了这篇文章的相关知识。有了这些知识,我们就可以回答一些问题,例如:问:这篇文章写的主要内容是什么呢?答:亲情、送别问:有类似《背影》这样的文章可以推荐的吗?答:龙应台-《送别》...

2018-12-30 21:59:47

Qt实现数字音频均衡器[文末附代码]

Qt实现数字音频均衡器在实现音频播放器的时候,我们常常需要一个均衡器来调节各个频段的增益,就是我们平常说的调重低音。一个数字均衡器的架构通常都如图所示:从图中可以看到,这里的数字均衡器实际上就是三个滤波器,各个滤波器分别负责不同频段的音频调节,这三个滤波器叫做滤波器组。当然一个数字滤波器组也不一定只有三个滤波器,理论上来说可以有任意多个滤波器,而且滤波器越多,能调整的也就越精细。从物理上来...

2018-12-16 22:49:31

SVM - 优化问题的导出

SVM-优化问题的导出svm的想法其实非常朴素:寻找一个超平面来将所有样本正确分开(条件1)并且保证超平面到两类样本的边界到超平面的距离和最大且相等(条件2)条件一其实就是线性可分的条件,条件二是为了保证鲁棒性,保证两类样本到超平面的距离最大,就相当于保留了判断时的裕量,这样即使数据有噪声,只要噪声不是太过于离谱,都不会产生误判,而保证两类样本边界到超平面距离相等则是为了不偏向...

2018-12-16 21:09:29

Mysql索引扫描排序

使用索引扫描来做排序生成有序结果Mysql有两种操作可以用来生成有序结果:+排序操作:将查找出来的结果使用排序算法进行排序+按索引顺序扫描:ORDERBY语句后跟着一个被索引的列,如此一来索引的顺序就是索引对应记录的顺序,这样直接顺着索引一直往下读取记录即可得到有序的结果。建立用于排序扫描的索引按照索引顺序扫描的好处是不言而喻的,因为查找出来的结果就是有序结果而无需执行额外的排序操

2016-09-02 17:30:57

Mysql 事务

Mysql事务Mysql事务一概述二事务的特征二事务隔离级别事务,一般是指要做的或所做的事情。在计算机术语中是指访问并可能更新数据库中各种数据项的一个程序执行单元(unit)。一、概述在数据库访问过程中,一系列相关的操作单元我们称之为事务。例如在一个论坛的管理系统中,当我们删除一个用户时,也要删除该用户的邮箱以及相关文章。下面是SQL语句:例1deletefromuse

2016-09-01 20:26:12

重构手法之重新组织函数

重构手法之重新组织函数在重构的手法中,很大的一部分是对函数进行整理,使函数能够恰当地包装代码(让代码自己说话而不是写更多的注释)。重新组织函数的驱动力,往往都是由于函数过长。因为函数过长就以为着包含了更多属性和逻辑,这样复杂的逻辑和诸多属性(如函数内部的局部变量或者静态变量等)会让代码变得难以维护,需要对其进行重新组织。提炼函数在冗长的函数中提炼出精小的函数,让每个短小函数负责的功能简洁,并

2016-08-05 13:54:42

MySQL知识点整理

MySQL零碎知识点在SQL标准中定义了四中隔离级别,每一种隔离级别都规定了一个失误中所做的修改,那些是在事物内和事物间课件的,通常低的隔离级别,可以支持更高的并发,系统的开销也更低。几种隔离级别如下:READUNCOMMITED(未提交读)在READUNCOMMITED级别,事务的修改即使尚未提交,也是对其他事物可见的。我们称之为脏读(dirtyread),实际上这个事务并没有做任何处

2016-06-16 21:45:04

MySQL缓冲

关于InnoDB和MyISAM的缓冲机制配置InnoDB的缓冲池缓冲块的管理InnoDB对于缓冲的管理是LRU算法InnoDB将所有的缓冲块都组织成一条链表,前一部分为新表,后一部分为旧表,当一块缓冲块被新加入的时候,就会插入新表与就表的交界处,也就是中间,新表的末尾,旧表的起始位置。当缓冲块被使用到的时候,就把该缓冲块移动到链表的头部。随着时间的推移,没有使用到的缓冲块就会向后移动,而末

2016-06-16 15:27:22

python中的metaclass

译注:这是一篇在Stackoverflow上很热的帖子。提问者自称已经掌握了有关PythonOOP编程中的各种概念,但始终觉得元类(metaclass)难以理解。他知道这肯定和自省有关,但仍然觉得不太明白,希望大家可以给出一些实际的例子和代码片段以帮助理解,以及在什么情况下需要进行元编程。于是e-satis同学给出了神一般的回复,该回复获得了985点的赞同点数,更有人评论说这段回复应该加入到P

2016-05-29 19:20:43

linux 进程与进程调度

linux进程与进程调度一、调度器设计与实现1.1调度器需要满足的需求满足交互式应用的需求。这种应用,这种应用着重于系统的响应速度。满足批处理应用的需求。这种应用要求的是平均速度即效率实时应用。这种应用不但考虑进程执行的平均速度,还要考虑即使速度。也就是考虑响应的速度,以及可预测性。1.2考虑的问题为了满足上述三种应用的需求,在设计调度器时需要考虑以下几个问题:调度的时机:什么情况下

2016-04-22 00:07:19

linux内核分析之文件系统

linux内核分析之文件系统linux内核分析之文件系统一文件系统的安装和卸载分析1文件系统的安装11总领提纲12代码分析13实例考察path_walk2文件系统的卸载21提纲22代码分析二问答归纳1问题2回答三文件的打开1打开文件的本质2打开文件的过程四文件创建1文件创建的过程2关于文件创建的理解一、文件系统的安装和卸载分析1.1文件系统的

2016-04-22 00:00:44

Linux 报文队列

Linux报文队列Linux报文队列一IPC概述二报文队列1报文队列简述2代码分析21msgget创建报文队列22msgsnd报文发送221相关数据结构222sys_msgsnd源码分析3msgrcv报文接收4msgctl报文控制与设置一、IPC概述早期的Unix系统进程件通信机制主要有管道和信号。管道开始只能在近亲之间通信,于是将pipe推广到

2016-04-21 23:47:57

linux内存管理之数据结构

linux内存管理之数据结构linux内存管理之数据结构一物理空间管理1页表项2物理页面管理对象page二内存分区1过去的分区2当下的分区情况三虚拟空间管理1进程虚存区域2进程地址空间3进程地址空间和进程虚存区域的关系一、物理空间管理1.1页表项[include/asm-i386/page.h:39]39#ifCONFIG_X86_PAE40t

2016-04-21 23:46:31

Linux信号机制

Linux信号机制Linux信号机制一管理层次及结构1数据结构11中断向量表的模拟12中断请求寄存器的模拟二信号的安装1概述2代码分析3其它函数三信号发送1kill函数和sigqueue2代码分析四响应信号一、管理层次及结构1.1数据结构信号机制是在软件层次上堆中断机制的一种模拟,也就是说信号是一种代码异步执行的方式。故而信号也有类似于中断管理的相关软件

2016-04-21 23:43:29

Linux 中断底半部机制

Linux中断底半部机制Linux中断底半部机制linux中断底半部过去的中断底半部实现机制bh_base关于bh_active和bh_mask新机制的出现软中断的分析机制的初始化总结linux中断底半部因为硬中断ISR是在关闭中断的情况下执行的,故而在硬中断ISR中停留时间过长会影响系统性能。为了能尽可能地缩短硬中断的时间,linux设置了中断底半部。也就是说,Linux的中

2016-04-21 23:41:09

C++设计模式之装饰模式

C++设计模式之装饰模式动态地给一个对象增加一些额外的职责,就增加对象的功能来说,装饰模式比生成子类更为灵活。装饰模式是一种对象结构模式。一、缘由我们常常通过继承的方式来对一个既有的类进行功能添加,但继承方式有显著的局限性,因为继承具有侵入性继承是一种isa的关系,具有强耦合性,难以复用代码。例如在窗口控件当中,要增加新的功能如增加滚动条,增加背景图片,通过继承的方式来增加新的功能,

2016-03-06 17:00:53

C++设计模式之组合模式

C++设计模式之组合模式组合模式,将对象组合成树形结构以表示“部分-整体”的层次结构,组合模式使得用户对单个对象和组合对象的使用具有一致性。C设计模式之组合模式一缘由二实现三实例代码一、缘由在自然界中常常存在着许多树形关系,例如公司的结构,有子公司,部门。又如文件系统的结构,目录下边有目录或者文件,而目录下的目录又有目录和文件,如此递归下去。而组合模式就是为了处理这种树形关系而存在的

2016-03-05 23:42:22

C++设计模式之桥接模式

C++设计模式之桥接模式将抽象部份与它的实现部份分离,使它们都可以独立地变化。C设计模式之桥接模式一缘由二实现三代码四总结一、缘由假设现在需要大、中、小、三种型号的画笔来绘制7种不同的颜色,如果使用蜡笔,就需要准备3*7=21支蜡笔。而如果使用毛笔,则只需要3支毛笔和7中颜料。显然使用毛笔的形式要比蜡笔简单许多,这其中缘由在于在蜡笔这个对象中型号和颜料两个不同维度的因素耦

2016-03-05 21:58:04

C++设计模式之适配器模式

C++设计模式之适配器模式将一个接口转换成客户希望的另一个接口使得接口不兼容的那些类可以一起工作C设计模式之适配器模式一缘由二实现三示例代码一、缘由适配器模式是我个人使用频率比较高的模式,十分简单实用。在许多情况下,我们自己的系统A,要使用既有对象B的接口,但无奈我们的既有系统A和B接口不兼容,这时候适配器可以帮我们解决这个问题。二、实现假设现在有一个函数staticvoidreq

2016-03-05 15:13:52

李兰溪

好奇并探索着
关注
  • 计算机软件/算法/后台开发/嵌入式
  • 中国
奖章
  • 专栏达人
  • 持之以恒