风风雨雨中寻觅-CSDN博客

原创使用tensorflow预测时间序列：TFTS库

Tensorflow1.3版本中引入tensorflow time series模块，简称TFTS，专门设计一套针对时间序列预测问题的API，提供AR、anomaly mixture AR和LSTM三种预测模型#项目地址https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/timeseries#代码...

2019-06-08 12:05:06 1622

原创相关性分析与余弦距离

1.pearson相关系数两个连续变量间呈线性相关时(两变量需服从正态分布)，使用pearson积差相关系数，不满足积差相关分析适用条件时，使用spearman秩相关系数描述2.spearman秩相关系数spearman相关系数又称秩相关系数，是利用两变量秩次大小作线性相关分析(依据两列成对等级等级数之差来计算，所以又称等级差数法)，对原始变量分布不作要求属非参数统计方法，适用范围...

2019-03-26 20:36:48 1841

原创 R语言中的并行计算汇总

上一篇博文：R语言中的代码运算性能提升R语言运行在CPU单核单线程上，使用并行计算原因是程序运行时间太长。大部分程序都可以进行并行化改造以提高运算性能1.lapply只需要一个参数(list\vector\array\matrix\data.frame)，和一个以该参数为输入的函数，函数返回列表listlapply(1:3/3, round, digits=3);[[1]] ...

2019-02-26 21:02:02 6287

原创 R重写mahout中user-based协同过滤算法-注释篇

声明：本篇是基于张丹《R的极客思想》书本中的内容，但张丹在代码中并未添加过多注释，本人最近在研究推荐系统，并将张丹的代码做了一些改动和详细注释贴上来供大家学习交流#user-based 协同过滤推荐，3个近邻，2个推荐结果#1.构建数据模型FileDataModel<-function(file_name){ user=unique(file_name$buyer_member...

2019-01-15 20:36:37 786 2

原创 HTTPS加密原理

1.HTTPS对称加密服务器每次发送真实数据前，会先生成一把密钥传输(以明文方式传输密钥容易被劫持)给客户端，服务器给客户端发送的真实数据会先用这把密钥进行加密，客户端收到加密数据后再用密钥进行解密(客户端给服务器发送数据同理)2.HTTPS非对称加密客户端和服务器都有两把密钥，一把公钥一把私钥(公钥加密的数据只有私钥才能解密，私钥加密的数据只有公钥才能解密)，服务器在给客户端发送...

2019-01-02 16:16:35 6418 4

原创 GBDT梯度提升决策树-理清每个细节-附Python代码

2019-01-14修改部分文字内容，增强理解 2019-01-17修改章节4.提升树算法与负梯度拟合，章节5.梯度提升回归树算法，更改公式、加注释使其更加容易理解增加章节2.GBDT优缺点，6.梯度提升分类树算法1.GBDT概念以决策树为基学习器的集成学习算法具有预测精度高的优势，树的集成算法主要有随机森林和GBDT。随机森林具有很好的抗过...

2018-12-25 20:25:45 8209

原创 SQL ON Hadoop-Hive（二）-DDL数据定义语言

一.创建数据库Hive中的数据库本质上仅仅是个表的目录或命名空间，在生产环境，如果表非常多，一般会用数据库将生产表组织成逻辑组。Hive中默认使用的数据库是default数据库名+数据库所在的目录位置不能修改--创建数据库(包含数据库键值对属性信息)create database if not exists testcomment 'this is laotian'with ...

2018-11-30 20:59:19 244

原创腾讯文智自然语言处理介绍与情感分析API调用

一.产品概述文智中文语义开放平台是基于并行计算系统和分布式爬虫平台，结合独特的语义分析技术，一站式满足用户NLP、转码、抽取、全网数据抓取等中文语义分析需求的开放平台。用户能够基于平台对外提供的OpenAPI实现搜索、推荐、舆情、挖掘等语义分析应用腾讯云文智中文语义平台以SDK模块方式提供服务，支持多种编程语言二.产品功能Action id查询:https://cloud.tenc...

2018-11-05 18:30:01 5373 6

原创 Tencent AI Lab Embedding Corpus使用-提取目标词汇词向量+余弦相似度计算

Tencent AI Lab Embedding Corpus for Chinese Words and Phrases为超过800万个中文单词和词语(包括标点符号)提供200维矢量表示，这些向量捕捉了中文单词和词语的语义含义，可广泛应用于许多中下游的中文处理任务。Tencent_AILab_ChineseEmbedding.txt(开源下载文件)第一行显示嵌入总数和尺寸大小，下面每一行(第一列...

2018-11-01 20:19:10 6041

原创 R语言完成中国裁判文书网最新爬虫

2018-10-10脚本可用。估计没有人用R来写【中国裁判文书网】的爬虫程序，那我就吃螃蟹啦传送：Python与R协同完成【中国裁判文书网】文书内容爬取，该网站的爬虫分析过程参考我7月初写的博文反爬措施对比：1.JavaScript library更新；2.限制返回条数；3.模拟的浏览器报头信息必须有Cookie；4.文书ID加密，需要解密出明文才能拼接download url；5.翻页时...

2018-09-03 10:44:35 3219 9

原创 HIVE中join连接全解析

续写：SQL ON Hadoop-Hive（二）-DDL数据定义语言1.多表joinselect * from table1 t1 join table2 t2 on t1.id=t2.id join table3 t3 on t1.id=t3.id --第一个作业的输出与表3的连接操作--目前hive只支持等值join,不支持非等值的连接(很难转化成map/reduce任务)...

2019-06-01 16:22:40 2637

原创 windows10中使用jupyter lab

1.jupyter lab简介jupyter notebook是一种Web应用能将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中，可直接在代码旁写叙述性文档而不是另外编写单独的文档。jupyter是它要服务的三种语言缩写：Julia，Python和R。jupyter Notebook可让数据分析师集中精力向用户解释整个分析过程，可通过jupyter notebook写出学习...

2019-04-29 21:20:43 3102

原创方差分析

将要检验的对象称为因素或因子，因素或因子的不同表现称为水平，每个因子水平下得到的样本数据称为观测值。方差分析关注的是三个或更多总体的均值是否相等的问题基本假设：1.正态假设(W检验)，因素每个水平的观测值样本都来自正态总体；2.方差齐性假设(多样本bartlett检验)，各个总体分布的方差相同；3.独立假设，观测值之间相互独立bartlett.test(x,g,...)#x-数据向...

2019-04-17 10:04:55 1934

原创 Python中深拷贝与浅拷贝详解

所有Python对象都有三个属性：身份、类型、值name='a'id(name) #id-身份唯一标识type(name) #对象类型1.可变对象列表、字典、集合，指可变对象的值可变，身份不变2.不可变对象数字、字符串、元组对象身份和值都不可变。新创建对象被关联到原来变量名，旧对象被丢弃，垃圾回收器会在适当时机回收这些对象3.引用Python程序中每个对象都会在...

2019-03-31 22:12:48 165

原创哑变量与鲁棒性的理解

若名义变量是有序的，则哑变量编码替代方法是给类别编号并应用min-max标准化。使用该方法注意点：只有确信类别间步长相等时，才能应用。如果有证据证明类别间步长不相等，那么哑变量编码是一种更保险方法鲁棒性即算法稳定性，即被测数据出现“震动”(受到干扰)时，算法得到结论是否相对稳定。具体在评价边缘检测算法稳定性时，可以对边缘图像加噪声，也可对边缘图像做模糊处理(锐化处理的反处理)，还可降低图像辉度...

2019-03-17 22:36:39 296

原创随机森林模型详解

1.定义决策树+bagging=随机森林，随机森林是一种比较新的机器学习模型(非线性基于树的模型)集成学习方法。上世纪八十年代Breiman等人发明分类树算法，通过反复二分数据进行分类或回归，计算量大大降低，2001年Breiman把分类树组合成随机森林，即在变量(列)的使用和数据(行)的使用上进行随机化，生成很多分类树，再汇总分类树结果。随机森林在运算量没有显著提高前提下提高了预测精度，随机...

2019-03-17 21:43:57 83570 8

原创 k折交叉验证概述-附R语言实现

因需要拿出部分数据作为测试，故总有部分数据不能用于构建模型，一种更好选择是交叉验证(简称CV)。k折交叉验证是交叉验证方法中的一种(是进行模型比较的有效方法)，将整体数据集分为k份(每份近似相等)，其中k-1份作为训练数据，另外一份作为验证数据集，并计算预测误差平方和。用验证集来验证所得分类器或模型的错误率，循环以上实验k次，直到所有k份数据都被选择一遍为止。选择小一点的k容易高方差，大一点的k容...

2019-03-02 23:09:55 7783 2

原创 RFM模型浅析

RFM模型在客户管理中常被用来衡量客户价值和客户创新能力，主要考量三个指标：最近一次消费-Recency、消费频率-Frequency、消费金额-Monetary。根据以上三个维度对客户做细分，假定每个维度划分五个等级，得到客户R值(1-5)，F值(1-5)，M值(1-5)。那么客户就被分作125个细分群，就可根据客户交易行为差异针对不同群体做不同推荐。或进一步针对不同业务场景，对R、F、M赋予不...

2019-03-02 15:37:07 2749

原创中文分词工具Rwordseg

Rwordseg是一个R环境下的中文分词工具，引用Ansj包(使得Ansj可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域)支持行业词典、用户自定义词典，Ansj是开源的java中文分词工具，基于中科院ictclas中文分词算法，采用隐马尔科夫模型(HMM)。Rwordseg特点有三，一是分词准确，二是分词速度超快，三是可以导入自定义词库，也可导入搜狗输入法的细胞...

2019-02-20 20:00:32 841

原创 TF-IDF算法

计算机提取一篇文章关键词涉及文字处理、信息检索、数据挖掘等很多计算机领域。从词频角度统计出现次数最多的“的”、“是”、“在”这一类最常用的词称为停用词(表示对找到结果毫无帮助，必须过滤掉的词)衡量一个词是不是常用词，如果某个词比较少见，但是在文章中多次出现，那么这个词很可能反映文章特性，故需要在词频统计基础上引入重要性调整系数(逆文档概率IDF，大小与一个词的常见程度成反比)。有了词频和逆文档...

2019-02-20 18:16:52 435

原创词袋模型

1.概述bag of words词袋模型是信息检索领域常见的文档表示方法，BOW模型假定对于一个文档，忽略其单词顺序、语法、句法等要素，仅看做是若干词汇组合(文档中每个单词的出现都是相对独立的，不依赖于其他单词是否出现)，近年来BoW模型广泛应用于计算机视觉领域1.词频做向量值John likes to watch movies. Mary likes too.John also ...

2019-02-20 17:47:50 432

原创规则学习算法

规则学习（独立而治之）决策树会给任务带来一组特定的偏差，而规则学习可通过直接识别规则而避免偏差。规则学习通常应用于以名义特征为主或全部是名义特征的问题，规则学习擅长识别偶发事件，即使偶发事件只是因为特征之间非常特殊的相互作用才发生的决策树必须从上至下的应用，而规则是单独存在的事实。根据相同数据建立的模型，规则学习的结果往往比决策树的结果更加简洁、直观、容易理解。规则学习算法数据的利用基于先...

2019-02-17 17:35:54 1661

原创 R语言中的代码运算性能提升

时间与空间的权衡，为了让程序更快运行可能需要更多的内存空间，另一方面为节省内存或许需编写运行速度稍慢的代码。一个R会话中的所有对象都保存在内存中，即R的内存地址空间中，R语言已可以支持2^31字节以上的向量1.通过向量化的方式优化R代码2.使用字节码编译3.将R代码中最消耗CPU的部分用编译型语言编码，如C/C++4.将R代码用并行方式编写5.其他的一些方法1.循环很慢...

2019-02-14 23:18:11 931

原创词向量与句向量概述

比较常见的词向量表示方式：glove、fasttext、wordRank、tfidf-BOW、word2vec词向量一般看作是文档特征，不同词向量有不同用法，主要有四类词向量：1.hash算法及衍生；2.BOW算法延伸；3.word2vec延伸；4.LDA主题延伸一个词一列向量-----> hash算法--->word2vec(考虑上下文语境) 一个词一个向量...

2019-01-22 11:05:07 3990

原创 IV及WOE值详解-附R源码实现

1.IV值用途IV全称Information Value即信息价值或信息量。在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如有200个候选自变量，通常情况下不会直接把200个变量直接放到模型中去进行拟合训练，而会用一些方法从200个自变量中挑选一些放进模型，形成入模变量列表。挑选入模变量过程需要考虑的因素有很多，比如变量预测能力、变量间相关性、变量简单性(容易生成使...

2019-01-16 20:51:22 3312

原创熵值法解析-附R代码

熵的概念源于热力学，是对系统状态不确定性的一种度量。在信息论中，信息是系统有序程度的一种度量，而熵是系统无序程度的一种度量，两者绝对值相等，但符号相反。根据此性质可利用评价中各方案的固有信息，通过熵值法得到各个指标信息熵，熵值越小-无序程度越低-指标权重越小熵是不确定性的度量(可用于判断一个事件的随机性+无序程度)，如果用表示第j个信息的不确定性程度，则整个信息(设有n个)的不确定性度量可以...

2019-01-15 17:41:51 10580 7

原创协同过滤-Collaborative filtering

一、协同过滤协同过滤一般是在海量用户中发掘出一部分与目标用户特征比较类似的，在协同过滤中，这些用户与目标用户成为邻居，然后依据他们喜欢的其他东西组织成一个排序的目录推荐给目标用户协同过滤要考虑：1.如何确定一个用户和目标用户相似；2.如何将邻居的喜好组织成一个排序目录收集用户偏好：可通过用户行为判断偏好，如评分(传统星级评分制)、投票、转发、评论(用户情感)、点击、购买；同时也可对每个...

2019-01-10 19:30:10 335

转载今日头条的个性化推荐

一、今日头条个性化推荐流程服务器1000台，代码实现爬虫功能，在其他传媒网站和门户上抓取各种信息，如果在网站上抓取到纸媒内容，则优先从纸媒门户上抓取信息；抓取信息后，对有价值信息进行分析归类；推送到有感兴趣的头条客户端；用户注册或登录时，通过数据挖掘分析，推荐感兴趣的信息；推送后根据用户体验(阅读时间、评论)判断信息是否符合客户需求，再进一步调整推送信息内容；敏感信息审查；页面转码(对纸媒或网...

2019-01-10 18:00:11 2105

转载美团推荐算法实践

2019-01-10 更新，对部分文字进行解释便于理解互联网的深入发展产生了严重的信息过载，如果不采取一定手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载：1.搜索，用户有明确的信息需求意图，将意图转换成几个简短的词或词语的组合(query)-提交给搜索引擎-海量信息库检索出与query相关的信息返回；2.推荐，用户意图不明确或很难用清晰的语义表达，甚至用户自己都不清楚需求...

2019-01-09 17:48:30 3008

原创 XPath表达式

XPath表达式是查询标记语言的方法(是选取XML或HTML中节点node的方法，节点通常是指XML/HTML中元素)，XPath通过路径表达式(Path Expression)来选择节点信息，跟文件系统路径一样用/符号来分割路径同一个节点有绝对路径与相对路径两种写法;1.绝对路径必须以/起首，后面紧跟根节点/step/step/...；2.相对路径step/step/.... 当...

2019-01-04 11:22:43 944

原创 XML基础

XML(extensible Markup Language)全称可扩展标记语言，首先它与HTML一样是标记语言，那就具有标记语言全部特征。同时XML是被设计用来传输与存储数据，这和HTML用来显示数据大不一样，所以XML又有网络数据交换最流行格式的美誉编写XML文档需自行定义标签，XML被设计为具有自我描述性。作为一种纯文本格式，任何有处理纯文本能力的软件都可以用来处理XML语法规则...

2019-01-04 10:42:22 130

原创 HTML基础

网络前端最核心三大技术HTML、CSS、JavaScript。HTML全称超文本标记语言(hyper text Markup language)是一种在网页上展示内容的语言(非编程语言，是一种描述内容并定义其表征的标记语言)。HTML是树状结构，从内容上就是标签、元素、属性，需注意HTML注释方式，保留字符和文档定义1.标签、元素和属性标签指的是会指定其中包装的文本作为在浏览器分页的标题栏...

2019-01-03 20:46:35 119

原创 URL编码、解码

url标准中只允许一部分ASCII字符，如英文字母、数字字符、部分符号等。其他字符如-*汉字等，应被编码为%+两位的十六进制表示，任何单字节字符都可被编码(多字节是逐字节编码)。保留字符(! $ & ' ( ) * + , ; = : / ? @ # [ ])是否编码1.R语言实现#repeated-已经编码过的url是否被再次编码URLencode(URL,reserved=...

2019-01-03 19:52:20 240

原创模型评估方法-K-S值-附R实现代码

2019-01-18修改，新增ks值的R语言实现风控模型中计算K-S值方法：K-S值主要验证风控模型对违约对象的区分能力，通常是在风控模型预测完全体样本的风控评分后，将全体样本按是否违约分为两部分，然后用K-S值检验两组样本的风控评分是否有显著差异将全体样本按风控评分从低到高排序均分成十组，分别计算每组的实际好样本数、实际坏样本数、累计好样本数、累计坏样本数、累计好样本数占比(总好样本...

2019-01-02 18:55:57 2579 1

原创 Python条件、循环和其他语句概述

1.序列解包当函数或方法返回元组(或其他序列或可迭代对象时)，可使用该特性#分别赋值x,y,z=1,2,3x,y=[1,2]x,y=(1,2)x,y={'ti':2,'an':4} #x:'ti' y:'an',只返回键#交换变量值x,y=y,xprint(x,y,z) #2 1 3#定义字典并随机弹出键值对,序列解包给m,nx=dict()x[12]=['...

2019-01-01 18:07:23 145

原创关系型数据库与SQL简介

一、SQL简介1.是用于组织、管理与检索由计算机数据库所存储数据的工具，是用于与数据库进行交互的计算机语言；是集数据操作、数据定义、数据控制功能于一体的关系数据语言2.SQL是非结构化语言，非过程化语言；所有SQL语句接受集合作为输入，返回集合作为输出，使用的是查询优化器3.oracle支持多用户、大事物量的事务处理；数据安全性和完整性控制；支持分布式数据处理；可移植性4.数据库服...

2018-12-26 18:49:13 378

原创 Python基本语法概述

1.数字与表达式#变量名可以包括字母/数字/下划线,但不能以数字开头// 整除运算符\ 转义字符串% 取模(对浮点数也适用)** 幂次运算,或者使用pow(x,y)= 赋值符号int(x) 浮点数转换成整数(向下取整)float(x) 将字符串或数字转换成浮点数#复数求平方根(Python中没有单独的虚数类型-即实部等于0的复数)import cmathcma...

2018-12-23 16:21:54 130

原创决策树算法-理清每个细节-附R+Python代码

2018-12-20更新，新增内容2019-01-14更新，对信息熵-信息增益章节中部分文字进行修订一.决策树概念在计算机科学中，树是一种重要数据结构，比如二叉查找树、红黑树等，通过引入“树”数据结构，可以很快缩小数据规模，实现高效查找。一般情况面对的样本通常具有很多特征，对事务的判断不能只从一个角度出发，决策树的思想是先从一个特征入手，通过这次分类使问题规模缩小，同时分类后的子集相比...

2018-12-19 20:53:20 5045 2

原创 SQL ON Hadoop-Hive（六）-字符串函数+行列转换

一.hive常用字符串函数1.字符串反转函数reverse(string A) --返回值类型string select reverse('gian') from iteblog; --'naig'2.带分隔符字符串连接函数concat_ws(string sep,string a,string b,...) --返回值类型stringselect concat_ws('.',...

2018-12-01 22:42:01 922

原创电话号码的正则表达式

1.正则匹配中国电信手机号码段:电信分别有:133,153,180,181,189,177总共六个号段。第一位为数字1，第二位分别是3,5,7,8，第三位分别是0,1,3,7,9所以前三位的正则如下：1[3578][01379]\d{8}其中1匹配本身,[3578]可以匹配方括号中的任意一位,[01379]可以匹配方括号中的任意一位,\d{8}可以匹配8位数字,每一位数字可以是0到9的...

2018-12-01 21:32:22 2052

JS混淆解密并美化过的getkey

getkey JS文件

base64 JS文件

空空如也