自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

飞虹舞毓的博客

自然语言处理小白

  • 博客(50)
  • 资源 (5)
  • 收藏
  • 关注

原创 并不简单的二分查找

并不简单的二分查找1、什么是二分查找2、复杂度分析3、习题讲解4、使用二分查找注意的点5、参考资料文章同步发表于,知乎专栏和掘金社区算法与数据结构1、什么是二分查找二分查找是一种非常有效的查找方式,我们日常生活中也经常用到。简单来说就是在有序的集合中查找目标值。注意这里有个前提的条件就是有序。下面是二分查找中常见的一些术语目标 Target —— 你要查找的值 索引 Index ——...

2019-12-18 23:53:13 234

原创 分类器常见的评价指标

CTR评价指标logloss查准率、查全率与F1ROC二分类问题AUCCTRCTR又称广告点击率,英文名(click through rate) 计算公式为: CTR=click次数impression次数CTR=click次数impression次数CTR=\frac{click次数}{impression次数} CTR预估的最终目标就是epcm...

2016-08-19 11:12:06 9846

原创 linux测试命令ab

文章目录ab命令常见参数说明结果说明ab命令ab----apache bench是apache下的一个工具,主要用于对web站点做压力测试,它可以测试安装Web服务器每秒种处理的HTTP请求常见参数说明参数说明-n请求次数-c每次的并发-p发送POST请求时需要上传的文件,此外还必须设置-T参数-TContent-Type请求头信息例如–app...

2019-01-03 21:49:57 780

原创 CRF++使用

这里写自定义目录标题安装最近开始搞实体识别,CRF++一直是工业上搞实体识别的利器,过来研究一下安装非root用户安装CRF++,首先在官网下载,然后解压。 1官方下载地址 ./configure --prefix=/home/xxx/crfmakemake install官网地址 ↩︎...

2018-12-19 11:16:54 689

原创 Pytorch入坑

文章目录常见入坑1、model.eval() 与torch.no_grad()的区别常见入坑1、model.eval() 与torch.no_grad()的区别model.eval() — 将通知你所有的图层你处于评估模式,这样,batchnorm或dropout图层将在eval模型而不是训练模式下工作torch.no_grad() — 影响autograd引擎并停用它。它将减少内存使用并...

2018-11-30 18:42:49 726 1

原创 SpaceVim使用

SpaceVim使用笔记最近发现这个vim,感觉特别好用在这写一些相关的心得1、安装curl -sLf https://spacevim.org/cn/install.sh | bash2、终端设置支持真色查看终端是否支持真色$ tput colors8$ echo $TERMxterm然后在.bashrc中填加下面这段if [ "$TERM" == "xterm" ];...

2018-11-14 11:08:33 4611

原创 非root用户安装CUDA和CuDNN

这里写自定义目录标题Linux驱动程序安装CUDACuDNNLinux驱动程序安装最近一直在机器上跑pytorch,无奈公司的机器没有root权限,一直有版本不匹配的情况,所以自己又重新安装了一下CUDA和CuDNN的版本,这次以CUDA8.0和CuDNN7.0为例CUDA下载安装包cuda_8.0.61_375.26_linux.run然后运行sh cuda_8.0.61_375.2...

2018-11-13 10:42:07 4218 3

原创 Linux常见操作

1、dirname $0$0 表示当前Shell程序的文件名dirname $0,获取当前Shell程序的路径cd `dirname $0` 进入当前程序所在的文件夹

2018-11-05 17:05:27 161 1

翻译 使用Python3爬取人名

文章目录安装 requests-html爬取相关网站安装 requests-html本文主要参考requests-html官方文档,详细资料可见参考文献pipenv install requests-html#need python 3.6 above爬取相关网站可以将下面的网站,替换成人名比较多的网站,比如xx大全等,这里就不细说,可自行百度 from requests_html...

2018-10-25 16:56:00 2830

原创 CS20 Class_1 Operations

文章目录OperationsBasic operations使用特定的设备创建不同的图Operations数据流图,TensorFlow将计算的定义与其执行分开,通过GraphsGraphsGraphs和SessionSessionSession来完成。先定义一个GraphsGraphsGraphs,然后使用SessionSessionSession中的相关的操作Basic operati...

2018-10-13 13:00:35 164

原创 远程服务器资源上传与下载

文章目录远程服务器资源上传与下载资源下载使用SecureCRT开启一个http服务资源上传远程服务器资源上传与下载我们经常使用跳板机远程连接服务器,这时候经常用到文件的上传与下载的操作,这里我们使用SecureCRT进行连接,之前尝试使用Winscp进行连接,但是由于跳转机的存在连接失败,可能是因为端口问题导致的访问失败。所以改用最简单的SecureCRT连接。资源下载使用SecureCR...

2018-10-12 17:04:43 643

原创 Spark SQL

Spark SQLSpark SQL1、下载匹配版本2、Spark安装3、SparkSQL4、示例程序1、下载匹配版本Hive 地址下载https://mirrors.tuna.tsinghua.edu.cn/apache/hive/spark地址下载http://spark.apache.org/downloads.htmlhadoop下载...

2018-09-10 15:32:33 195

原创 Efficient Large-Scale Neural Domain Classification with Personalized Attention 论文笔记

4 Model Architecture4 Model Architecture我们的模型是由一个层次的LSTM共享编码网络构成,输出送入到一组特定领域的分类层次训练使每个输出标签二进制决策。 我们的主要贡献是使用个性化的注意力机制扩展这个架构。个性化的注意力机制使用注意力机制致力于记忆用户选择的特定领域,允许系统学习各个领域的语义表示通过领域的词嵌入。我们将展示,结合个...

2018-08-10 15:39:16 348

原创 AliMe Assist: An Intelligent Assistant for Creating an Innovative E-commerce Experience论文笔记

ABSTRACTKEYWORDS1 INTRODUCTION2 SYSTEM OVERVIEWABSTRACT我们提出的阿里小蜜助手,是一个旨在电子商务领域创造一个创新的网上购物体验的智能助理。基于问答,阿里小蜜助手提供辅助服务、客户服务和聊天服务。它能够进行语音和文本输入,将上下文结合到QA,并支持多轮交互。目前,它每天提供数以百万计的客户问题,并且能够解决其中85%问...

2018-08-06 12:30:50 519

原创 FastText文本分类以及生成词向量

1、安装2、文本分类FasttextFasttextFasttext是FacebookFacebookFacebook开源的文本分类工具。最近工作上用到了这个包,感觉又快又好用,在这里简单的做一下记录,这里使用的PythonPythonPython的相关接口1、安装在linux下安装比较方便,直接使用pip进行安装pip install fasttext2...

2018-07-20 17:56:39 7553 6

原创 使用python提取中文数字和英文

因为训练word2vec模型,需要处理数据集发现其中有很多特殊符号,所以使用python3python3python3进行了数据预处理,去除了预料中的特殊符号,这里使用unicode加正则表示式来进行相关的匹配。import restring = "12345464我不是药神123456abcdefgABCVDFF?/ ,。,.:;:''';'''[]{}()()《》"print(stri...

2018-07-05 14:12:38 15035 1

原创 Character-level Convolutional Networks for Text Classification论文笔记

1、introduce本篇主要讲的是基于字符级别的CNN模型,本篇博客简要的记录一下这篇论文的笔记。1、introduce首先,文本分类是一个自然语言处理的经典主题,到目前为止,几乎所有的文本分类的技术都是基于词的,通过其中简单的统计,一些有序词的组合通常表现的比较好。 另一方面,许多研究者发现卷积网络在从原始信息中提取信息非常有效,从计算机视觉到语音识别或者其他的应用。...

2018-07-04 16:07:16 884

原创 MNIST 全连接网络实现

全连接网络相关函数说明codeTrick全连接网络最近在编写tensorflow的相关代码,实现了一下全连接网络实现mnist的代码,具体代码如下相关函数说明tf.argmax(y,1)#返回数组y中最大值的索引,如果y是多维数组,只在当前数组中比较,按行比较tf.argmax(y,0)如果是0,比较当前列,也就是多个数组的相同位置,按列比较co...

2018-06-19 14:24:45 1057

原创 非root用户安装CMake

安装过程首先从网站上下载,https://cmake.org/download/,下载源码包cmake-3.11.1.tar.gz 然后放到服务器的某个位置进行解压,tar -zvxf cmake-3.11.1.tar.gzcd cmake-3.11.1./bootstrap./configure --prefix=/home/xxx/xxx ---自己用户名下的目录make...

2018-05-11 20:20:21 7058 4

原创 Python参数传递

参数传递今天在看Python代码的时候发现的python参数传递的一个问题 在Python中参数传递分为两种情况,一种是传递可变的对象,比如列表,另一种是不可变的对象比如字符串时,这两种情况是不一样的,通过查阅相关资料有了如下了解 当传入的是可变对象列表的时候,就类似于C语言中的指针传递def add_list(a): a.append(10)a = [1]add_li...

2018-05-10 20:29:44 175

原创 机器学习之最大熵模型

声明: 1、本文仅为学习笔记,不得商用 2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我 3、如果内容有错误或者不准确的地方请大家指正最大熵模型基础知识联合熵拉格朗日乘子法KL距离对数线性模型最大熵原理最大熵模型最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型,逻辑回归和最大熵...

2018-05-07 21:43:12 321

原创 机器学习之决策树

声明: 1、本文仅为自己相关的学习笔记 2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我 3、如果内容有错误或者不准确的地方请大家指正决策树决策树算法的优点基础知识熵条件熵决策树生成算法ID3C4.5CART决策树决策树是一种基本的分类于回归方法,这里主要讨论分类的决策树,分类的决...

2018-05-03 12:59:19 196

原创 Tmux的常见操作

Tmux常见操作Session中的相关的管理Window中的相关管理Pane中的相关操作Tmuxtmux 是一个优秀的终端复用器类自由软件。 最近使用了一下,感觉非常的好用,在这记录一下相关的操作。常见操作层次等级为Session — Window — Pane 一个Session有多个WIndow,一个Window可以有多个Pane 在Wi...

2018-04-26 18:32:21 593

原创 pytorch 源码安装

安装过程之前尝试过各种安装方式,最后都失败了,没办法只能采用源码进行安装,系统是ubuntu 16.04 1 下载源码安装torchgit clone https://github.com/pytorch/pytorch.gitgit clone https://github.com/pytorch/vision.gitcd pytorch/#如果是安装CPU版本的话在加一个声...

2018-04-21 21:18:06 2822

原创 tensorflow Linux CPU 版安装

常见问题下载tensorflow-1.6.0-cp36-cp36m-linux_x86_64.whl 使用如下命令进行安装pip install tensorflow-1.6.0-cp36-cp36m-linux_x86_64.whl 出现错误tensorflow-1.6.0-cp36-cp36m-linux_x86_64.whl is not a supported whee...

2018-04-21 15:49:33 820

原创 第一章 、概率论的基本概念

概率论的基本概念随机事件古典概型概率论的基本概念随机事件如果一个实验能够事先知道所有实验可能的结果,在每一次观察中不能事先准确的预言哪一个基本结果会发生,并且在相同的条件下能够重复进行,则成为此实验为随机实验。 随机实验的每一个基本结果被称为一个样本点,记做ωω\omega,全体基本结果构成的集合称为样本空间,记做ΩΩ\Omega 样本空间可以是有限的,...

2018-04-19 23:30:34 235

原创 机器学习面试

1、L1正则和L2正则的区别? L1正则:可以产生稀疏的模型,可以实现特征的自动选择 L2正则:可以防止过拟合,提升模型的泛化能力 2、什么方法可以防止过拟合问题的发生? 可以增加样本,可以增加正则项

2016-09-04 22:45:52 587

原创 CTR预估特征工程

特征工程项目数据格式CTR预估的流程模型和特征的关系数据预处理数据特征数据特征处理方法One Hot Encoding离散化等值离散等量离散特征组合特征工程项目数据格式CTR预估的流程数据—>预处理—>特征提取—>模型训练—>后处理模型和特征的关系一句话概括这个问题,特征决定了上界,而模型决定了接近上界的程度。数据预处理首先要进行的是label匹配,由于我们拿到的数据为展示日志

2016-08-29 11:23:35 6254 1

原创 机器学习之逻辑回归

逻辑回归的应用背景为什么要用sigmoid函数逻辑回归损失函数梯度下降法逻辑回归的应用背景主要解决问题:分类问题—二分类问题 如果需要解决多分类问题—softmax回归 什么是分类? 分类是监督学习的一个核心问题,在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以是离散的,也可以是连续的。监督学习从数据中学习一个分...

2016-08-18 16:55:52 593

原创 堆排序

堆的定义堆排序算法代码堆的定义堆是具有下列性质的完全二叉树:每个结点的值都大于或等于其左右孩子节点的值,称为大顶堆,反之则称为小顶堆。想升序的话就是用大顶堆,想降序就是用小顶堆。堆排序算法堆排序就是利用堆进行排序,基本思想是将待排序的系列构造成一个大顶堆。此时,整个序列的最大值就是堆顶的根结点。将它移走(其实就是将其与堆数组的末尾元素交换,此时末尾元素就是最大值),然后将剩余n−1n-1个序列重

2016-08-17 10:53:19 518

原创 极大似然估计

贝叶斯公式极大似然估计极大似然估计具体实践极大似然估计实例正太分布的极大似然估计贝叶斯公式P(A|D)=P(D|A)P(A)P(D)P(A|D)=\frac{P(D|A)P(A)}{P(D)} 给定某些样本D,在这些样本中计算某结论A1A_{1}、A2A_{2}…AnA_{n}出现的概率,即P(Ai|D)P(A_{i}|D) 在给定样本的情况下,哪一组参数出现的概率最大,我们就认为哪组参

2016-08-14 23:06:56 749

原创 期望和方差

期望离散型连续型意义性质无条件成立XX和YY相互独立例题方差定义意义性质无条件成立X和Y相互独立期望离散型E(x)=∑ixipiE(x)=\sum_{i}{}x_{i}p_{i} 连续型E(x)=∫+∞−∞xf(x)dxE(x)=\int_{-\infty}^{+\infty}{}xf(x)dx 意思就是概率下的加权值,加和和积分在本质上可以看成一样的。意义 在概率

2016-08-09 16:53:13 8639

原创 二分查找

二分查找主要思想代码进阶二分查找主要思想前提:线性表中的记录必须是关键码有序,而且是从小到大,线性表必须采取顺序存储 折半查找的主要思想是:在有序表中,取中间值作为比较对象,若给定值与中间记录的关键字相等,则查找成功,若给定的值小于中间记录的关键字,则在中间记录的左半区继续查找,否则在右半区继续查找,若所有区域没有记录,则查找失败。代码class Solution { /**

2016-07-24 10:43:35 579

原创 常见问题

1、进程与线程的区别 线程是进程的一部分,进程是由线程所组成的,简而言之,一个程序至少有一个进程,一个进程至少有一个线程

2016-07-23 10:27:53 222

原创 归并排序

基本思想代码实现数据交换示意图代码优化基本思想是利用归并的思想进行排序的放法,它的原理是假设初始序列含有n个记录,则可以看成n个有序的子序列,每个子序列的长度为1,然后两两归并,得到n/2n/2个长度为2或者1的有序子序列,然后在两两归并,直到得到一个长度为n的有序序列为止。 排序方法 平均情况 最好情况 最坏情况 辅助空间 稳定性 归并排序 O(nlogn)O(

2016-07-22 16:06:32 412

原创 机器学习之k近邻法

声明: 1、本文仅为学习笔记,不得商用 2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我 3、如果内容有错误或者不准确的地方请大家指正k 近邻算法简述k近邻模型模型距离度量k值的选择分类决策规则kd tree构建kd treek 近邻算法简述k近邻算法是一种基本的分类与回归的方法,k近邻法假设给定一个训练集,其中的实例

2016-07-22 10:31:31 715

原创 leetcode-53:Maximum Subarray

声明: 1、本文仅为学习笔记,不得商用 2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我 3、如果内容有错误或者不准确的地方请大家指正题目网址题目大意解题思路枚举法分治法动态规划递推式初值复杂度空间优化代码优化后的代码题目网址https://leetcode.com/problems/maximum-subar

2016-07-22 00:26:20 402

原创 leetcode-64:Minimum Path Sum

声明: 1、本文仅为学习笔记,不得商用 2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我 3、如果内容有错误或者不准确的地方请大家指正题目网址题目大意解题思路枚举法动态规划代码实现代码优化题目网址https://leetcode.com/problems/minimum-path-sum/题目大意一个m行n列的二维数组

2016-07-21 10:06:57 306

原创 机器学习之线性回归

声明: 1、本文仅为学习笔记,不得商用 2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我 3、如果内容有错误或者不准确的地方请大家指正什么是回归损失函数线性回归线性回归的损失函数损失函数的推到损失函数的求解常规方程法梯度下降法批处理的梯度下降随机梯度下降什么是回归 回归分析:是一...

2016-07-20 16:26:31 483

原创 共轭分布

共轭分布预备知识学派分类贝叶斯公式的密度形式共轭分布预备知识统计学中的两个学派:频率学派和贝叶斯学派。 为了区分这个两个学派,我们从统计推断中的三个信息说起,说到三个信息也要说一下三大基本任务:抽样分布、参数估计和假设检验。 总体信息:即总体分布或总体所属的分布族给我们的信息。 样本信息:即样本给我们的信息,最“新鲜的”信息,越多越好 先验信息:抽样之前有关统计的一些信息,一般先验信息

2016-07-19 16:38:06 533

串口调试助手超级终端-安装版

本人亲自测试绝对可用,没有任何问题,串口调试超级终端

2013-05-19

18B20程序解读

18B20的完美解读,自我感觉讲的非常不错,初学者一看就明白

2012-07-27

DEVC++简明教程

DEVC++的简明教程,适合于刚接触DEVC++的人群,DEVC++适合于刚开始学习C++的人群,入门很轻松

2011-11-27

二级公共基础知识

全国计算机等级考试基础知识,集结了近几年的计算机二级公共基础知识,是同学们考二级的必备手册。

2011-11-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除