樱夕夕-CSDN博客

原创 POS Tagging词性标签解析

CS | CS | 从属连词（例子：若，如果，如…）| C |vd |”副动词” VC |VC |系动词，“是” | AD 副形词 AD |AD |副词 |d |vn |名动词 NR |NR |专有名词 |...

2018-05-20 15:40:04 6220

原创 U盘拷贝linux服务器文件操作过程

fdisk -l cd /media/ mkdir temp cd .. mount -t auto /dev/sdc1 /media/temp cd /media/temp/…..cp xxx /media/tempcd /media umount /dev/sdc1

2018-05-12 16:00:17 1947

原创 Language Model perplexity by using tensorflow使用tensorflow RNN模型计算语言模型的困惑度

LM perplexity by using tensorflow1、Language model perplexity是衡量语言模型好坏的重要指标，其计算公式P(sentence)^-(1/N)2、tensorflow的RNN模型如何使用参考API文档：tf.contrib.legacy_seq2seq.sequence_loss_by_example，这个函数会返回一个大小为N的列...

2018-05-08 18:44:02 2365

原创用DecisionTree决策树来求取分类阈值

在二分类任务中，我们经常需要根据概率值来确定类别。通常的方法是设定0.5的中间阈值，但是在一些不平衡的任务中，我们并不知道阈值应该设定为多少，这时可以简单的利用决策树的方法，可视化的来求得最优阈值。当然你也可以用一个简单的神经网络来拟合这个阈值。下面就是python调用sklearn库来实现的阈值求解代码：from sklearn import treeX = []Y = []for line

2018-03-05 17:12:48 6640 2

原创如何将docker中的文件拷贝到宿主机

如何将docker中的文件拷贝到宿主机首先docker ps，查看container id CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES daa...

2018-03-05 14:58:02 2490

原创 python 查看文档编码格式-chardet

chardetchardet是Python社区提供了一个类库包，方便我们在代码中动态检测当前页面或者文件中的编码格式信息使用示例：检测txt文档的编码格式import chardetwith open("ace2005-test.txt","rb") as f: data = f.readline() print(chardet.detect(data)){'confidenc

2017-10-12 17:39:55 816

原创 Synonyms-Chinese Synonyms for Natural Language Processing and Understanding

Synonyms Chinese Synonyms for Natural Language Processing and Understanding.最近需要做一个基于知识图谱的检索，但是因为知识图谱中存储的都是标准关键词，所以需要对用户的输入进行标准关键词的匹配。于是采用了基于同义词库的方式，将《非标准表述》映射到《标准表述》，这就是Synonyms的起源。下面我们来仔细聊聊Synony

2017-10-12 09:39:17 720

原创 linux shell循环操作 + word2vec词向量训练／聚类的参数解释

比如我要执行： ./word2vec -train CGJJ_split.txt -output classes_X.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes X 一个操作。现在希望将上述命令的X作为变量，循环执行那么将X改为i变量，执行for循环，同时将原命令里的i用$

2017-08-30 09:38:16 846 2

原创知识图谱5-【继续看论文《Neural Relation Extraction with Selective Attention over Instances》】

Modeling Relational Data with Graph Convolutional Networks作者： Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, Maosong Sun 发表时间： 2016-06 论文链接： http://aclweb.org/anthology/P/P16/P16-1200v2.pdf要解决的问题

2017-07-11 17:05:35 1077 2

原创知识图谱4-【再看一篇论文《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》】

End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures作者： Makoto Miwa, Mohit Bansal 发表时间： 2016-01 论文链接： https://arxiv.org/pdf/1601.00770.pdf大概思路：作者用端到端的方式基于序列层和依赖树的结构信息对文本进行关系抽取简

2017-07-10 14:21:09 4260

原创知识图谱3-【看一篇论文《Graph-Based Wrong IsA Relation Detectionin a Large-Scale Lexical Taxonomy》】

Graph-Based Wrong IsA Relation Detectionin a Large-Scale Lexical Taxonomy作者： Jiaqing Liang, Yanghua Xiao, Yi Zhang, Seung-won Hwang, Haixun Wang 发表时间： 2017-03 论文链接： https://aaai.org/ocs/index.php/AAA

2017-07-09 11:12:17 1219 1

原创知识图谱2-【浅谈知识图谱的构建技术】

转变传统的文本信息抽取 =》现在的知识发现传统的文本 =》现在的海量数据源传统的预先指定抽取对象 =》现在的Open domain新的核心任务：与现有知识库的集成知识图谱的核心技术高价值信息检索知识链接开放抽取验证集成高价值信息检索：寻找概念定义句，多为模板匹配的方式知识链接：将自然语言中的信息和知识库的条目进行链接，这里同时也要进行冗余知识的过滤，消歧等。

2017-07-08 15:15:47 1716

原创知识图谱1-【什么是RDF？】

RDF（Resource Description Framework）定义资源描述框架，一种用于描述Web资源的标记语言。RDF是一个处理元数据的XML（标准通用标记语言的子集）应用，使用XML语法和RDF Schema（RDFS）来将元数据描述成为数据模型。一个RDF文件包含多个资源描述，而一个资源描述是由多个语句构成，一个语句是由资源、属性类型、属性值构成的三元组，表示资源具有的一个属性。

2017-07-08 11:47:25 14205

原创知识图谱系列-0【先看一个中文的知识图谱库-linked open schema】

**linked open schema【中文知识库】**论文链接 : On publishing Chinese Linked Open Schema这是东南大学做的一个知识库，基于50多个中文网站数据，包含数亿个关系对，及百万个实体。整体流程如下图：**解决思路：**问题的输入：一堆网页，网页由类别及标签组成。其中类别以层次的方式组织，并且当作是静态类别；标签以平坦排列的方式组织，由于标签可能

2017-07-08 10:16:50 2474

原创如何查看keras的默认backend

1 . 进入当前用户目录：cd ~2 . 查看当前目录下的文件：ls -a3 . 找到.keras目录并进入：cd .keras4 . 进入并查看keras.json文件：cat keras.json5 . 可能的显示如下： {“image_dim_ordering”:”tf”, “epsilon”: 1e-07, “floatx”: “float32”, “backend”: “tensorf

2017-06-19 22:04:07 2339

原创如何指定程序在某个GPU上运行

只需要添加如下两行代码：import os os.environ[“CUDA_VISIBLE_DEVICES”] = “1”注意，服务器看到的GPU序号和手动在Linux上查看的序号是相反的，比如那么我们指定os.environ[“CUDA_VISIBLE_DEVICES”] = “0”的话，你会发现在watch nvidia-smi指令下，2号GPU正在满负荷的运行！

2017-06-19 21:25:02 16885 24

原创关于QA的一些idea

1.《Dynamic Coattention Networks For Question Answering》提到一种对问题可能的解释方案是将其映射到文档空间。one possible interpretation for this is the mapping of question encoding into space of document encodings.这篇论文采用LSTM分别对QD

2017-05-16 17:19:02 547

原创重写gensim.word2vec的文本相似度匹配函数（wmdistance）

1.为什么要重写因为在D jango上莫名其妙的不能import gensim。从而不能from gensim.models import Word2Vec。不能load_model.word2vec_model.wmdistance（sentence1,sentence2）。因此根据原码更改了引入gensim包的部分内容。2.改写后的代码import pyemdfrom gensim

2017-05-11 20:05:55 5903

原创 selenium + phantomjs+python 外网动态爬虫

1.工具：pycharm selenium phantomjs python2.代码：# -*- coding: utf-8 -*-from selenium import webdriverdriver = webdriver.PhantomJS(executable_path='/Users/test/Downloads/phantomjs-2.1.1-macosx/bin/pha

2017-05-10 15:56:38 1227

原创多任务融合的模型

**1.Multi-task Learning with Weak Class Labels: Leveraging iEEG to Detect Cortical Lesions in Cryptogenic Epilepsy** 使用弱类标签的多任务学习：利用iEEG检测癫痫中的皮层病变论文的模型提出一个多任务的学习方式，它主要在于计算了标签的可靠性，并且根据这个值进行更好的多任务学习。采用了

2017-05-04 16:34:00 3373

原创未登录词处理优秀论文——Pointing the Unknown Words

论文：《Pointing the Unknown Words》作者： Caglar Gulcehre、Sungjin Ahn、Ramesh Nallapati、Bowen Zhou、Yoshua Bengio这篇论文主要是解决低频词和未出现（在测试集中）词的问题——统称“未登录词问题”。采用了注意力模型。本文的思想是在遇到未登录词时，不要简单的将其记作：UNK，而是将未登录词分作两种情

2017-05-03 10:36:02 3863

原创生成模型和判别模型的区别

1.监督学习分为生成模型和判别模型有监督机器学习方法可以分为生成方法和判别方法（常见的生成方法有混合高斯模型、朴素贝叶斯法和隐形马尔科夫模型等，常见的判别方法有SVM、LR等），生成方法学习出的是生成模型，判别方法学习出的是判别模型。2.生成模型生成模型主要是求解联合概率密度，比如我们有数据集：（C，X），其中（c,x）表示其中一个样本，c为类别，x为特征。那么对于生成模型来说我们需要求解p(x,c

2017-04-29 16:17:06 6496

原创机器学习——最小二乘法

整理了一个PPT形式的～如下：欢迎补充及批评指正！

2017-04-17 23:34:34 575

原创小白从头开始编写第一个Django的Hello World（Mac）

安装首先检查是否已经有python：Python 2.7.10 (default, Feb 6 2017, 23:53:20) [GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.34)] on darwinType "help", "copyright", "credits" or "license" for more informatio

2017-04-13 15:49:27 1029

原创深度学习各种优化函数详解

深度学习中有众多有效的优化函数，比如应用最广泛的SGD，Adam等等，而它们有什么区别，各有什么特征呢？下面就来详细解读一下一、先来看看有哪些优化函数BGD 批量梯度下降所谓的梯度下降方法是无约束条件中最常用的方法。假设f(x)是具有一阶连续偏导的函数，现在的目标是要求取最小的f(x) : min f(x)核心思想：负梯度方向是使函数值下降最快的方向，在迭代的每一步根据负梯度的方向更新x的值，从而求

2017-04-12 19:47:00 37149 3

转载 BatchNormalization 原理及代码实现

转载自：http://blog.csdn.net/elaine_bao/article/details/50890491原理讲解本次所讲的内容为Batch Normalization，简称BN，来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》，是一篇很好的

2017-04-09 11:58:59 5397 1

原创 python 读取带BOM的utf-8格式文件

**UTF有哪些分类？**UTF-8分为两种，一种是不带BOM的，一种是带BOM的。其中第一种不带BOM的是标准形式，第二种带BOM的主要是微软的习惯。**为什么有BOM的UTF-8？** 微软在UTF-8中使用BOM（Byte order mark）是因为这样可以将UTF-8和ASCII等编码明确区分开。 windows对于utf-8格式的文件存储默认是带有BOM的格式**为什么BO

2017-03-27 14:20:02 15195 2

转载深度学习优化问题

Learning Rate学习速率应通过训练成本来确定，如果训练成本一直在降低，且降得比较快，那么可适当调大学习速率。否则，应该取较小的学习速率避免“步长太大，越过谷底”。因为学习速率仅仅影响着最终的准确率，所以没必要选择验证集。Hidden Units/Layers隐藏层层数、隐藏节点个数等超参数应当通过验证集准确率来判断。因为这些超参数都是为了在测试集合上有一个好的表现，而验证集合是某种意义上在

2017-03-22 09:27:24 613

原创 ubuntu + nohup

想要让python程序在后台执行（默认python文件名为xxx）： nohup python xxx.py & 此时文件输出被追加到nohup.out文件中。如果已经存在nohup.out文件，则建议先将其备份删掉，再执行命令。想要清空nohup.out文件 cat /dev/null > nohup.out 或者 cp /dev/null nohup.out想要复制一份nohup.ou

2017-03-16 12:06:36 1735

原创卷积神经网络（CNN）应用于自然语言处理（NLP）

说到CNN，大家自然想到图像处理。说到NLP，大家自然想到LSTM，RNN。但是，去年的斯坦福论文表明，CNN照样可以应用于NLP，并且效果可能更好。博主做了实验，爬取了各类新闻并对新闻进行分类。这样的分类问题，RNN和CNN都可以达到99%左右的效果，但是，CNN几乎比RNN快了5倍。于是，博主主要针对CNN对于NLP处理中的细节展开讨论。1.CNN为什么可以处理NLP 随着词向量的发展

2017-03-15 10:21:20 7625 1

原创 windows10安装ubuntu教程+tensorflow（文字简版）

最开始折腾win10+tensorflow，试过各种途径，都阵亡。虽说最新版的tensorflow已经支持windows了，但是只兼容python3.5。于是，还是装了双系统。据说win10安装ubuntu很多坑，于是我就试了试。1.最开始用虚拟机安装。挺简单。 vmware + ubuntu iso(厦门大学镜像) 最后发现——慢。弃2.双系统首先，准备U盘做启动盘。然后，

2017-03-15 10:09:05 783

原创 Python---Numpy

为什么要有Numpy? 标准的python使用list来保存一组值，用来当作数组使用，但此时里面存放的是指针，则重结构用于做数值运算比较浪费内存和CPU计算时间。此外python还有一个array模块，它直接保存数值，但不支持多维也没有各种运算函数，因此也不适合做数值运算。 Numpy由此诞生，它提供了两种基本对象：narray(N-dimensional array object)和ufu

2016-10-23 11:38:57 484

原创各种开源NLP自然语言处理工具集锦

各种开源NLP自然语言处理工具简介

2016-07-19 17:05:28 3318

原创 Python入门语法要点

博主学习的Python入门语法要点，总结出来和大家分享一下~不定期更新唷

2016-07-19 14:25:31 616 1

qq_21460525的博客