自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 收藏
  • 关注

转载 逗逼日记_学习方法

本文转自知乎:白诗诗的文章1.了解:学习的最初20小时明确初学阶段会有不适感和挫败感,熬过就能得到一个新的领域    启示:正视这种挫败感2.了解:在学习一门新的知识短时间集中注意力并不难,但过一段时间后做不到很好的放松,效率就会下降    启示:做到放松3.方法:如何保持高效呢?【1】学习仪式感。         目的:强烈的暗示使自己的专注能力、反应能力、运动能力迅速提升。...

2017-10-09 18:56:48 298

转载 FM/FMM算法笔记

原文链接 FM\\FMM优点:特征稀疏时保持良好性能 FM原理: onehot的编码后特征极度稀疏,特征空间大(升维双刃剑:线性可分、过拟合维度爆炸--效果为王) 通过多项式交叉后,交叉特征含有更多的特征值为零样本。但是为了训练权重,让不同的特征权重区分化更多的依赖于该特征下非零的样本 采用一种矩阵分解的思路。求得的n*k维矩阵v为描述特征的因子 优点:训练的参数变少了;对于vi...

2018-10-17 16:23:29 5211

原创 C++_Linux环境下编译

make:gcc用来编译一个复杂的程序其实并不简单,每个主程序和子程序均需要编译命令和链接程序,很复杂 make用来解决这个问题,当前目录下搜索Makefile...

2018-09-20 14:50:05 231

转载 awk_强大功能:字符串长度/切割/正则匹配/大小写转化

【1】https://blog.csdn.net/xibeichengf/article/details/51346632

2018-08-29 10:57:12 6751

原创 Python_独特语法/strip

is  和  ==Python中万物皆对象,每个对象有3个属性。id-对象地址,type-对象类型,value-值 is:比较对象地址是否相同。而==:比较value是否相同not 的用法判断 if not 5,类似!= 注意 if not x  和 if x is None 并不等价。在python中,空[],空{},等均为假值。但是None 不等于空{}等。 https://blo...

2018-08-22 14:43:26 269

原创 意图识别_Query特征提取

【1】背景/术语:Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Query、Title、如果用户在Session期间变换了查询词,后续的搜索和点击均会被记录,直到脱离搜索。理解:一个样本即Query和点击的Title【2】Query的意图识别和传统的文本分类问题有如下区别:类别不完全互斥,即多标签。eg:极品飞车属于游戏、电影类 样本分布不均衡:一、类别方面不...

2018-08-16 11:21:12 3071

原创 数学_样本方差_分母为n-1的理解

【1】背景:一直对样本方法的分母为n-1很困惑。原因:方差就是n个样本减去均值平方项的平均值。既然是平均值,那么分母必须是n。如果为n-1的话怎么能成为方差呢?【2】解决:https://www.zhihu.com/question/20099757因为样本方差中的平均值并不是准确的平均值,是估计得到的平均值。所以,样本方差公式的本质并不是方差公式,而是由方差公式推导而来的...

2018-08-10 16:35:37 399

原创 Python_删除指定字符串

replace('abc','') #将abc删除  

2018-08-08 14:22:23 6532 2

原创 Linux_去除重复的行并显示重复次数

【1】sort 后 uniq 。注意:uniq 不会检查重复的行,除非它们是相邻的行。如果您想先对输入排序,使用sort -u。 uniq中有参数,可以实现重复次数的输出 http://man.linuxde.net/uniq【2】用awk数组   awk '{x[$0]+=1}END{for( i in x){print i,x[i]}}'...

2018-08-08 14:17:32 3003

原创 Python_write写文件失败

【1】背景:文件中存在ouput.write;执行程序后,ctrl z终止。发现write失败。【2】原因:文件通过write方法写入文件时,并不是及时的写入系统磁盘,而是首先写入到自己的缓存区[内存],当缓存区满了的时候才会异步写入到磁盘进行落地,否则永远不会写入真实磁盘文件 ...

2018-08-07 19:26:16 1877

原创 剑指offer_感悟

【1】参数检验【2】循环思想循环前:变量的初始化。指标分为指示变量和统计变量。 循环中:变量的改变 循环后(截止语句):指示变量的检验      注意:如果统计变量也需要检验,注意可能会发生越界。所以最好将统计变量的检验放在循环内,只检验指示变量。【3】栈和队列栈:正向存储,反向输出(有点自底向上的意思);本质为递归;【4】分治思想第一种:将问题拆分,拆分后的小问题与原...

2018-08-06 17:32:31 192

原创 意图识别_总结

【1】意图识别的难点:输入不规范 多意图。eg:仙剑奇侠传  游戏?电视剧?小说? 结果的可靠性。 实效性: iPhone5 7月1日上市销售                 6月30日的查询意图:新闻90%,百科10%                 7月1日的查询意图:新闻70%,购买25%,百科5%                 8月1日的查询意图:购买50%,资讯40%,...

2018-08-06 16:32:06 2203

原创 Hive_随机取样

【1】利用Hive中的rand简单随机取样order by rand(12345) limit 10000;【2】其他的取样方式见:https://www.jianshu.com/p/2b73e7c53355

2018-08-05 20:19:26 1858

原创 Linux_脱机管理/ps

【1】背景:如果你以远程连接的方式连接Linux主机,且以&的方式放到后台。那么你脱机了,工作就会停止【2】nohup 可以让你在脱机后,仍可以让工作继续进行。nohup filename.sh &【3】再次登录的话。可以 ps -l 查看进程。会发现工作还在执行中【4】信息的输出会定向到 ./nohup.out中。但要注意如果程序运行错误,会将错误也输出到noh...

2018-08-01 11:27:42 365

原创 Linux_shell脚本语法

【1】命令结果赋值给变量:用 ` `,会先运行双反引号内的内容【2】

2018-07-31 11:57:45 108

原创 python_与或非逻辑/真假值事例

【1】Python的与或非与C++一样两种:逻辑运算/位运算【2】Python的逻辑运算和C++的不同,为:and、or、not【3】一些常见的假值"spam" True "" False [] False {} False 1 True 0.0 False None False ...

2018-07-28 17:27:13 13990

原创 Linux_查看linux日志/查看日志的命令 more/less/tail/sed

【1】原来linux上是有日志的,鸟哥私房 P576页【2】more:类似cat,但是会以一页一页的显示。空白下翻,b(back)上翻。【3】less:类似more。但是功能更方便。pagedown/pageup实现翻页【4】tail尾部几行:类似head【5】sed:好像很强大的工具(替换/查找/删除)用到再来总结...

2018-07-27 20:18:49 983

原创 Python_异常处理try

name = ['rr','ww']try: print(name[2]) print("继续")except : print('下标越界')else: print('下表未越界')【1】可能出错的代码放到try内,有错会直接退出try【2】若try内出错,执行except:【3】若try内不出错,执行else:【4】注意:try和excep...

2018-07-26 15:17:57 130

原创 Python_打包py文件

【1】创建一个virtualenv环境:virtualenv也就是虚拟环境。可以在同一个计算机中隔离多个python版本,比如python2,python3;mkdir SandwichApp   cd SandwichApp# Use virtualenv to create an isolated environmentvirtualenv 环境名source venv/...

2018-07-25 19:42:55 589

原创 Hadoop_知识点

【1】拿到数据包时,什么集群已经设置好了,尴尬【2】运行:mapreducer的运行方式已经写好脚本放到bin里了,只需将tool/hadoop-client/hadoop放置到.bashrc设置里即可。【3】getmerge:hadoop fs -getmerge <src> <localdst> [addnl]重点可以讲将源目录中所有的文件连接成本地目标文件。a...

2018-07-25 17:19:23 134

原创 Python_print()/文件读写open()/str.find()/与或逻辑/取索引/while/python无double/map

【1】print 可以输出好多数据类型。包括:str、int、list【2】f=open(filename,mode)。f.read()将文本全部取出;f.readlines()是一个迭代器,for line in f.readlines 使用【3】str.find() 不是找不到会返回null,你真傻。0/none都会是假值,0代表找到在第一位。所以找不到会返回-1。【4】与c++不...

2018-07-25 11:14:47 603

原创 GitHub_知识点

【1】当你克隆代码库时,会将所有的层级结构都下载下来。但是对线上库影响对文件只有对应对那个。在该文件夹之上对任何文件操作都不会产生影响【2】直接用git status  查看状态。方便【3】commit时,备注很重要。会建立一个卡片来提供额外信息以方便管理。而备注会自动链接到这个卡片【4】git pull origin master:取回主机对分支对本地对master合并。【5】g...

2018-07-25 10:51:55 131

原创 NLP_中文分词有向无环图:DAG

【1】DAG:可以用来记录句子不同切分状态的集合,“向”即句子开始到结束的地方。假定句子的开始字符为 s,以“他们有意见分歧”这个句子为例,可以得到如下的有向无环图:...

2018-07-24 10:08:43 2070

原创 NLP_中文分词/jieba分词原理

【1】基于词典分词方法:将待分析的汉字串与词典进行匹配。若在词典中找到某个词,则分出一个词。主要有正向最大匹配;逆向最大匹配;最少切分;基于索引树等。 改进:一、将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法;二、改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些 带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错...

2018-07-23 20:56:25 906

原创 NLP_语言理解

【1】入门参考:http://bit.baidu.com/news/detail/id/24.html依存句法分析技术:找到句子的各个组成成分。比如:“给我推荐一家可以听到蛙声的餐馆”。分析:推荐和餐馆是主要意图,而听见和蛙声是修饰成分,对用户的意图进行了修饰和限定。 基于语义理解技术:基于深度学习来计算query和文本语义的关联。eg:一个query包括用户点击的正例和未点击的负例。框架是...

2018-07-23 20:22:36 340

原创 NLP_deepQA初探

【1】deepQA实质是基于知识库的问答系统【2】会从问题中提取需要特殊处理的字符,比如:一词多义、句法、语义等【3】会对问题进行分类等【4】资料:https://www.guokr.com/article/17295/...

2018-07-23 16:04:58 1065

原创 机器学习_基本术语:ASR

【1】ASR:Automatic Speech Recognition 语音识别 

2018-07-23 10:59:25 373

原创 Linux_set/export/单双双反引号/dirname/diff/dos2unix/可执行文件执行方式

【1】set:可以设置shell的执行方式。         -e 若指令传回值不等于0,退出shell。shell也是程序,执行正确也会return 0。用法待学习         -x 执行命令时,会显示该命令。         -o pipefail :包含管道命令的语句的返回值,会变成最后一个返回非零的管道命令的返回值。eg 如果一个管道命令最后一个是echo,那他将可能一直返...

2018-07-20 15:53:30 609

原创 Python2_模块已经安装缺无法调用的情况/#!/usr/bin/env python与#!/usr/bin/python的区别

【1】问题产生:已经安装了jieba模块,但是在调用时报错:模块不存在【2】问题解决:第一行由#!/usr/bin/python改为#!/usr/bin/env python【3】理由:脚本语言的第一行,目的就是指出,你想要你的这个文件中的代码用什么可执行程序去运行它,就这么简#!/usr/bin/python是告诉操作系统执行这个脚本的时候,调用/usr/bin下的python解释器...

2018-07-19 15:22:32 1143

原创 Python_列表/元组

【1】列表类似与数组,用[ ]框起。而元组因为带了圆字,用圆括号( )框起。【2】元组是不可变的,这一点就造成元组可作为字典key。很方便【3】所以说一般结构性(eg点坐标)可以定义为元组,集合性的定义为列表...

2018-07-18 16:33:54 110

原创 Linux_grep—多个条件

【1】多个条件,-E可能代表either,表任意grep -E '123|abc' filename // 找出文件(filename)中包含123或者包含abc的行 

2018-07-18 13:56:06 2013

原创 NLP_词性分析

【1】问题产生:为了识别query的意图,采用了人工配模版的方法。第一步:分析query结构。第二步:在每一个结构下可能出现的词。这样当一个query出现的时候就会严格根据模版、模版下的词来匹配。匹配成功即对应模版的意图。这样每一次都需要人工太low了。【2】解决方法一:分析句子结构能否利用词性标注来完成;结构下的词可否利用词性/词义聚类来实现...

2018-07-18 10:04:27 2696

原创 Python_python之list操作

【1】两个list连接【2】list内元素以某符号连接为字串

2018-07-17 16:20:45 266

原创 Python_Python2的编码问题详解

【0】str指编码为utf8,ascii等,所以解码编码实质为str到unicode的转换【1】python2默认以ascii码编码,因为ascii中并没有对汉字进行编码,所以如果你的源代码中出现汉字的话,导致无法编码,会报错。所以要换一种编码方式:utf-8#-*- coding:utf-8 -*-【2】现在汉字可以被编码了,但是编码完成就能正确运行了吗??不能,因为print是打...

2018-07-17 15:37:57 201

原创 Python_Python2利用urllib2抓取中文网页乱码的问题

今天想用urllib2抓去网页源码,出现了问题,print打印显示乱码。代码一:response=urllib2.urlopen('http://caipiao.163.com/award/').read()打印之后出现乱码问题。【1】分析:首先怀疑是编码问题,于是看了网页源代码,发现是utf-8编码,编码是正确的。<!DOCTYPE HTML><htm...

2018-07-17 14:18:40 670

原创 算法_八数码问题启发式搜索(C++)

#include<iostream>#include<vector>#include<string>#include<queue>using namespace std;int fac[] = { 1, 1, 2, 6, 24, 120, 720, 5040, 40320, 362880 };//康拖展开判重// 0!1!2...

2018-05-31 17:05:47 1765

转载 C++_报错:Stack around the variable XX was corrupted

【1】https://blog.csdn.net/gamesdev/article/details/6505270

2018-05-30 19:15:24 547

转载 ubuntu_搜狗输入法安装

【1】https://jingyan.baidu.com/article/a3aad71aa1abe7b1fa009641.html亲测有效

2018-05-23 22:00:41 149

转载 Ubuntu_Linux 环境下使用g++编译C++

【1】https://blog.csdn.net/m0_38034312【2】gcc编译时需要加lstdc++选项原因:gcc不会自动连接c++标准库。

2018-05-23 11:25:52 322

转载 Ubuntu_shell的含义

【一】 shell的含义:首先shell的英文含义是“壳”;它是相对于内核来说的,因为它是建议在核的基础上,面向于用户的一种表现形式,比如我们看到一个球,见到的是它的壳,而非核。Linux中的shell,是指一个面向用户的命令接口,表现形式就是一个可以由用户录入的界面,这个界面也可以反馈运行信息;【二】shell在Linux中的存在形式:由于Linux不同于Windows,Linux是内核与界面分...

2018-05-22 20:16:41 706

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除