自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 收藏
  • 关注

转载 linux下使用g++编译cpp工程

本文转自:https://www.cnblogs.com/battlescars/p/cpp_linux_gcc.html原文地址:http://wiki.ubuntu.org.cn/Compiling_CppC++编程中相关文件后缀1.单个源文件生成可执行程序下面是一个保存在文件 helloworld.cpp 中一个简单的 C++ 程序的代码:/* helloworld.cpp */#incl...

2018-06-24 00:57:25 1916

原创 EM算法解析

本文介绍EM算法的相关推导过程,同时会介绍混合高斯模型。1.EM算法1.1 EM算法的推导观测数据(不完全数据)X关于参数θ\theta的对数似然函数为: L(θ)=logP(x|θ)=log∑zP(x,z|θ)=log∑z[q(z)P(x,z|θ)q(z)]≥∑zq(z)logP(x,z|θ)q(z)=∑zq(z)logP(x,z|θ)+∑zq(z)logq(z)\begin{a

2018-01-21 13:53:23 631

转载 机器学习中正则化项L1和L2的直观理解

正则化(Regularization)原文地址:http://blog.csdn.net/jinping_shi/article/details/52433975机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指

2018-01-16 14:02:53 383

原创 逐段输出多项式的计算结果

给定一个简单的四则运算的多项式,如果把多项式看作一个字符串,试编写程序,自左向右依次输出每个子字符串所对应的多项式的计算结果。例如给定多项式为:1+23*2+3*3,程序输出结果为:1 3 24 47 50 56key_list = [str(i) for i in range(1, 10)]def func(str_in): if len(str_in) == 0:

2018-01-09 22:16:35 309

原创 铺设地板问题--动态规划

有一条长度为N*1米的路,需要铺设地板,地板的规格为1*1米,1*2米,1*3米,各种地板的数量不限。各种规格的地板可以随意组合,试问:一共有多少种铺法?Python代码如下:def get_N(N): list_1 = [0] * N list_2 = [0] * N list_3 = [0] * N list_1[0] = 1 list_2[0] = 0 list_3

2018-01-08 09:43:16 1335

原创 GBK编码详细解析(附GBK码位分布图)

1.GBK码位分布图2.GBK码位说明    GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。全部编码分为三大部分:

2015-07-07 17:30:35 6733 1

转载 C语言文件操作函数小结

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-04-23 11:38:41 1576

转载 md/mdd/ml/mld/mt/mtd

转自:http://www.cnblogs.com/whiteyun/archive/2011/07/07/2099912.html1、VC编译选项多线程(/MT)多线程调试(/MTd)多线程 DLL (/MD)多线程调试 DLL (/MDd) 2、C 运行时库

2015-04-21 10:07:59 687

转载 Unicode编码的秘密

原文地址:http://blog.sina.com.cn/s/blog_6364576a0100gs7q.html概念上的澄清:如果有人问你知道不知道unicode呢?你可能会说,我知道,不就是“统一字符编码标准”嘛。对的,你回答的没错,但别人又问你,utf-8是什么呢?你可能会说,utf-8就是unicode。这个回答就不够准确了。Unicode和ASCII、GB2312一样

2015-03-11 15:15:54 1954

原创 用条件随机场CRF进行字标注中文分词(Python实现)

本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。        本文使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效果,在

2014-08-13 23:33:28 27041

原创 用最大熵模型进行字标注中文分词(Python实现)

同前面的那篇文章一样(参见:最大熵模型进行中文分词),本文运用字标注法进行中文分词,分别使用4-tag和6-tag对语料进行字标注,观察分词效果。前面的文章中使用了模型工具包中自带的一个样例进行4-tag中文分词,但由于其选取的特征是针对英文词性标注开发的,故准确率和召回率较低(召回率为83.7%,准确率为84.1%)。 PS:为什么用作词性标注的特征也可以用来做分词呢?这是因为最大熵模型处理

2014-08-09 17:35:18 8064

原创 最大熵模型(Maximum Entropy Models)详细分析

由于本篇文章公式较多,csdn博客不允许复制公式,如果将公式一一保存为图片在上传太繁琐了,就用word排好版后整页转为图片传上来了,如有错误之处,欢迎指正。

2014-08-08 11:38:17 3119

转载 Linux下./configure错误详解

说明:sudo apt-get install  package-name   更新你指定的软件包sudo apt-get update                           获取更新列表 sudo apt-get dist-upgrade                  开始更新./configure的问题错误: C compiler cannot c

2014-08-06 15:10:51 33480 2

原创 升级ubuntu中的gcc和g++版本

在利用张乐博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)和条件随机场的经典工具包CRF++(CRF++: Yet Another CRF toolkit)进行分词的时候,发现工具包不能正常安装,从报出的错误推测是gcc的版本较低,上述工具包发布于2011年,推测使用了较新的C++11标准。我们知道C++11标准开始支

2014-08-05 23:32:38 2783

转载 解决 Python.h:没有那个文件或目录 错误的方法

今天在ubuntu机子上安装最大熵模型模型工具包和条件随机场的经典工具包时,出现编译错误。错误如下:致命错误: Python.h:没有那个文件或目录编译中断。error: Setup script exited with error: command 'gcc' failed with exit status 1 解决方法是安装python-dev,这是Python的头

2014-08-05 23:30:39 6682 1

原创 VIM显示utf-8文档乱码解决方法

1.相关基础知识介绍        在Vim中,有四个与编码有关的选项,它们是:fileencodings、fileencoding、encoding和termencoding。在实际使用中,任何一个选项出现错误,都会导致出现乱码。因此,每一个Vim用户都应该明确这四个选项的含义。下面,我们详细介绍一下这四个选项的含义和作用。        (1)encoding

2014-08-01 16:29:23 26301 1

原创 二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比

第一部分 引言        关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两个假设的前提下解决各种各样的问题的。       对于第二个假设,我们不去讨论它。现在来看第一

2014-08-01 15:15:33 5319 3

转载 N元语法模型的数据稀疏问题解决方法之一:Good-Turing平滑

在统计语言模型章节中,我们谈到了N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据齐普夫(Zipf)法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多,本文将介绍众多算法中的佼佼者:古德-图灵(Good-Turing)平滑算法。        古德-图灵(Good-Turing)估计法是很多平滑技术的

2014-07-28 20:57:53 7311 2

原创 隐马尔科夫模型(HMM)分词研究

第一部分 模型简介        隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 ----具有一定状态数的隐马尔可夫链和显示随机函数集。自20 世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90

2014-07-28 20:05:24 3045 6

原创 最大概率法分词及性能测试

最大概率分词是一种最基本的统计方法分词。一个待分割的字符串有多种分词结果,最大概率分词的原则是将其中概率最大的那个作为该字符串的分词结果。第一部分 理论基础        如对一个字符串:        S:有意见分歧        分词结果1: w1:有/ 意见/ 分歧/        分词结果2: w2:有意/ 见/ 分歧/        最大概率分

2014-07-19 10:58:17 6582 1

原创 2014-7-18任务完成情况

1.最大概率法使分词结果中的交集型歧义数量降低,对组合型歧义和未登录词有什么影响?会不会使这些错误增多?   2.最大概率法中求每个词语的费用时,如果对词频都乘以一个惩罚系数,观察这个系数对整体准确率和召回率的影响,并分析原因。3.对于未登录词,调研主流的解决方法,并确定一种可行的方法进行实践。

2014-07-19 01:01:22 794

原创 最大概率法分词中词频惩罚因子的作用探究

在最大概率法分词的程序中,由于每个词出现的次数分布非常不均匀,而且我们要计算每个词出现的概率,对于出现次数比较少的词概率就很小,求句子中词的概率之积的时候,需要将好多非常小的数作乘法,可能会将超出计算机所能表示的数的最小范围。为了便于计算,常常要将每个词的概率求对数后在进行计算,但是由于对概率求对数后变为负值,因此要求对应的相反数。所以一个词出现的次数越多,最后求得对应的值越小,我们将这个值称为这

2014-07-19 00:53:09 2191

原创 正向(逆向)最大匹配和最大概率法分词的错误分析

1.基本情况    从语料中选取了200个句子作为样本,分别用三种不同的分词方式进行分词,观察他们产生的错误,从而得出其中的规律。将错误的结果过滤掉重复的内容之后,得到的错误结果如下所示:正向最大匹配切分错误数量:245交集型歧义:45个未登录词语:167个组合型歧义:33个逆向最大匹配切分错误数量:245交集型歧义:41个未登录词语:1

2014-07-18 17:06:42 3956

转载 将string转换成char*

原文地址http://blog.sina.com.cn/s/blog_786ce14d01014lpr.html

2014-07-16 21:13:06 522

转载 Linux下C获取文件的大小

获取文件大小这里有两种方法:方法一、范例:

2014-07-16 21:12:47 497

原创 2014-7-16任务完成情况

1.抽样300个错误case进行分析,并对错误归类;

2014-07-16 21:07:36 469

原创 用正向和逆向最大匹配算法进行中文分词(续)

本文是用正向和逆向最大匹配算法进行中文分词

2014-07-15 23:02:33 2802

原创 2014-7-15任务完成情况

正向和逆向最大匹配分词接下来的问题:(1)准确率为什么低于召回率;(2)逆向为什么高于正向;(3)错误分词的主要问题什么?主流的解决办法是什么?       以上问题答案参见:

2014-07-15 22:54:48 712

转载 深入理解LINUX中的字符编码

ubuntu 编码的修改 http://blog.csdn.net/wy0110/article/details/20611279 深入理解LINUX中的字符编码http://www.sxszjzx.com/~t096/phparticle/article.php/639 ubuntu 系统与vim 字符编码设置http://blog.sina.com.cn/s/blog_6c07f2b6

2014-07-14 22:25:21 559

原创 用正向和逆向最大匹配算法进行中文分词

1.概述        用正向和逆向最大匹配算法进行中文份额

2014-07-14 22:22:33 5514 1

原创 2014-7-14任务完成情况

1.对分词程序进行准确性验证,完成了准确率、召回率的计算程序。

2014-07-14 22:01:28 486

原创 2014-7-13任务完成情况

1.设置linux系统编码,使之支持中文。

2014-07-14 21:55:40 446

原创 2014-7-12任务完成情况

1.查阅了中文编码的相关知识,了解了中文GB

2014-07-14 21:28:26 445

原创 2011-7-11任务完成情况

了解了在

2014-07-14 21:26:00 475

原创 2014-6-28任务完成情况

完成了并查集的相关程序。参见:

2014-07-11 08:52:45 492

原创 用于不相交集合的数据操作——并查集

假定有一组词汇,构成一个集合

2014-06-28 22:38:56 700

原创 2014-6-27任务完成情况

(1)继续完成昨天的撤

2014-06-27 22:26:47 436

原创 2014-6-26任务完成情况

(1)用另一种方法完成

2014-06-27 22:24:36 481

原创 2014-6-25任务完成情况

(1)继续阅读C++ Primer。

2014-06-27 22:22:06 424

原创 利用Trie树求多个字符串编辑距离的进一步优化

1.引言        题目的意思应该是:在一个给定的字典中,求与给定的字符串的编辑距离不大于2的所有的单词。原先写过两片关于此问题的文章,那两片篇章文章给出两种解决思路:其一是暴力求解法,这种方法最容易想到。就是将词典中的词一一与给定的字符串计算编辑距离,不大于2的输出,大于2的舍弃,这种方法思路简单但是很费时间。其二根据词典中这些词之间的编辑距离建立一个以单词为节点的Trie树,遍历的

2014-06-27 22:14:37 1873

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除