自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (12)
  • 收藏
  • 关注

原创 关于文章说明

csdn的博客类型只有三种选择:原创、转载、翻译。标注原创的文章绝不是转载和翻译的,但也不能完全算是原创。姑且认为半原创了,文中的图和语句直接摘录别人的有不少。基本上直接给出了参考URL地址。技术是不断更新的,但是他人的文章可能发表了好几年,一路做下来也出现了不少问题。我写的文章更多的记录了学习历程和出现的问题。最后,本人一直有做学习笔记习惯,但是没有发博客的习惯(近期才开始把原来

2015-11-16 16:02:34 646

原创 时间序列相似性度量-DTW

1. 背景最近项目中遇到求解时间序列相似性问题,这里序列也可以看成向量。在传统算法中,可以用余弦相似度和pearson相关系数来描述两个序列的相似度。但是时间序列比较特殊,可能存在两个问题:两段时间序列长度不同。如何求相似度?一个序列是另一个序列平移之后得到的。如何求相似距离?第一个问题,导致了根本不能用余弦相似度和pearson相关系数来求解相似。第二个问题,导致了也不能基于欧式距离...

2019-01-25 16:44:59 37673 28

原创 Flink Stream Windows Join

Flink Stream Windows Join1. 说明参考Flink Stream Joining。不过就我实践下来,感觉这官方文档写的也不全面,所以我就来填填坑的。文中给出Windows Join的代码一般形式如下:stream.join(otherStream) .where(<KeySelector>) .equalTo(<KeySelector...

2018-09-17 22:41:26 7652 1

原创 Flink countWindow 使用

1. 说明countWindows 包括滚动窗口类型和滑动窗口类型。以下通过代码和输出来说明 countWindows()逻辑。数据源代码: public static class StreamDataSource extends RichParallelSourceFunction<Tuple2<String, String>> { pr...

2018-09-16 16:55:21 9620 1

原创 Flink 静态 Session Windows 使用

1. 介绍参考Session Windows。此外也可阅读Flink 原理与实现:Session Window。以下是正文:会话窗口分配器按活动会话对元素进行分组。与翻滚窗口和滑动窗口相比,会话窗口不重叠并且没有固定的开始和结束时间。当会话窗口在一段时间内没有接收到元素时,即当发生不活动的间隙时,会话窗口关闭。会话窗口分配器可以设置静态会话间隙和动态会话间隙。一共有四种形式的 Sess...

2018-09-15 22:03:59 4785

原创 Flink DataSet Kafka Sink

1. 说明Flink 一般都是用于realtime 计算的,不过其中的 DataSet 也提供了batch API。本人在项目中也好奇试用了下,其中遇到一个需求就是把DataSet的数据Sink到 Kafka。需要注意的是Flink 官方的DataSet是不提供Kafka Sink API的,需要自己实现。当然也分 DataSet 数据量的大小,有不同的实现方式。2. 小数据量这个...

2018-09-08 21:39:24 3926

原创 Flink 中 timeWindow 滚动窗口边界和数据延迟问题调研

1. 说明好久不写 CSDN blog,早转战Gitbook的。这次记录文章同时,顺带刷下存在感。下面进入正题:本文主要关于Flink timeWindow 窗口边界和以及延时数据处理的调研。读这篇文章需要对Flink Eventtime + WaterMark + Windows 机制有个基础了解。其次最好先阅读Flink流计算编程–watermark(水位线)简介 这篇文章。本文是在阅...

2018-09-05 10:18:36 15153 8

原创 ElasticSearch 搜索相关

前言精力有限,最后写一篇文章总结下自己对ES的学习和使用经验,然后这方面的学习先告一段落了。期间一直在想,把文章写成什么样的才有意义。其实ES官网手册有专门的中文翻译版本,写的非常详细:https://www.gitbook.com/book/looly/elasticsearch-the-definitive-guide-cn/details,同时这本书也是我学ES的主要资料之一。

2017-06-14 18:52:14 915

原创 词语向量化-word2vec简介和使用

前言最初听闻word2vec还在读研了。当时挺感兴趣的,不过一直忙于毕业事项,没好好研究下,对word2vec也只是概念上的了解,直到这两天有空才能专门学习下这方面的知识。知识不经过整理很容易忘记,尤其像这种算法类的,一次性理解透彻~~至少对我这水平的来说还是比较困难,必须经过多个阶段学习才行,每个阶段都做好总结,这样有利于下个阶段的学习。本文主要从我的学习经历介绍下word2vec,还是以实践为主

2017-06-09 02:39:47 31069 6

原创 文本向量化

前言文本向量化,就是把文本转化为向量形式。这里用两种方式实现本文向量,一种是TF方式,一种是TF-IDF方式,且这里向量的长度就是字典的长度。TF就是词频、TF-IDF就是词频-逆频率。关于这两者的介绍已经满大街了,对于这两概念如有不懂,自行百度。本文基于python 实现,输入两篇短文本,输出文本向量,并用余弦相似度方式,计算两篇文档的相关性。

2017-06-09 01:50:26 7652

原创 ElasticSearch scan和scroll功能 python 实现

前言search 我们经常使用,默认一次返回10条数据,并且可以通过 from 和 size 参数修改返回条数并执行分页操作。但是有时需要返回大量数据,就必须通过scan和scroll实现。两者一起使用来从Elasticsearch里高效地取回巨大数量的结果而不需要付出深分页的代价。 详情参考:https://es.xiaoleilu.com/060_Distributed_Search/20_S

2017-06-06 11:57:05 25673 12

原创 ElasticSearch IK中文分词使用详解

前言对于ES IK分词插件在中文检索中非常常用,本人也使用了挺久的。但知识细节一直很碎片化,一直没有做详细的整理。过一段时间用的话,也是依然各种找资料,也因此会降低开发效率。因此在有空的时候好好整理下相关资料。也希望本文对使用 ElasticSearch 和 IK分词插件的开发者有所帮助。希望能少走点弯路。本文包括前言、IK分词介绍、分词效果对比、自定义词典使用、索引设置和字段设置、查询测试

2017-06-03 18:07:05 39393 5

原创 ElasticSearch 数据增删改实现

前言 本文介绍 ElasticSearch 增加、删除、修改数据的使用示例。通过Restful 接口和 Python 实现。详细可参考官网资料:https://www.elastic.co/guide/en/elasticsearch/reference/current/docs.html

2017-06-03 03:09:53 51135 5

原创 缺失数据处理-插值法

在数据挖掘中,原始海量的数据中存在着大量不完整、不一致、有异常、偏离点的数据。这些问题数据轻则影响数据挖掘执行效率,重则影响执行结果。因此数据预处理工作必不可少,而其中常见工作的就是数据集的缺失值处理。数据缺失值处理可分两类。一类是删除缺失数据,一类是进行数据插补。本文是对数据插补的介绍。

2017-06-01 14:48:59 58401 3

原创 Linux 学习笔记1

前言Linux Shell 命令,知识点汇总Linux 命令知识点

2017-05-16 23:36:27 880

原创 Python 日期操作

python 日期操作包括时间戳转换、日期格式转换、日期排序、相对时间加减等。开发中发现这部分工作经常涉及,代码重复利用率高。所以基于python time包、datetime包、dateuitl包、还有其他实现的代码,总结一些关于日期的常用操作,也希望对其他同学有帮助。

2017-05-14 23:32:47 2814

原创 Python 学习笔记2

1、前言Python 学习笔记,记录平时易忘和零碎的细节。本文为代码块的整理

2017-05-14 22:56:29 902

原创 Python 学习笔记1

Python 学习笔记,记录平时易忘和零碎的细节。本文为知识点的整理~

2017-05-14 22:02:58 682

原创 异常值检测-滑动均值实现智能告警

当前的分析对象是一段 timestamp-value 的时间序列,该时间序列可能是cpu使用率、磁盘使用率等数据。我们在计算前,首先需要判断的是什么样的值是异常值。基于移动平均的方法,其朴素思想是在直观上来看图形,认为近一段时间内的数据值,有着相似的走向趋势。因此判断一个值是否是异常值,可通过判断该值是否对数据趋势造成了破坏,来得出结论。

2017-05-11 15:52:57 7335

原创 OpenTSDB 查询示例

OpenTSDB 聚合和查询学习心得和小结!!

2017-03-27 22:12:13 19700 2

原创 OpenTSDB 查询介绍

OpenTSDB 数据读取和查询方式.

2017-03-25 17:21:37 18211 2

原创 Python 发送邮件

python 使用 163 邮箱发送邮件,基于 email 和 smtplib 两个包实现。

2017-03-19 17:10:55 833

原创 Python 正则替换字符串

说明需求: 1. 替换给定字符串中符合正则匹配的子串。 2. 使用者配置增加、删减替换规则方便。 3. 基于装饰器模式实现。实现基于re包和装饰器模式实现。

2017-03-18 09:33:00 2792

原创 OpenTSDB 定时批量写入示例

前言需求如下满足1、2任意一个条件就向OpenTSDB写入数据,3是额外需求: 1. 堆积数据,攒够 100 条后批量发送 2. 另新起线程,每 5 秒强制发送和清空当前等待队列 3. 考虑多线程情况,在同一个时间戳,有多个客户端同时写数据到opentsdb(策略:同个时间戳如果有多个数据值,则把相同时间戳的数据值进行累加)实现:基于python socket、threading包实现代码开

2017-03-16 11:18:11 3918

原创 OpenTSDB HTTP 写入示例

opentsdb http写入示例、基于Python request包实现。

2017-03-15 11:20:31 8903

原创 OpenTSDB 写入介绍

OpenTSDB支持几种写入方式。包括Telnet API、HTTP API、import方式、客户端采集器(tcollector/telegraf)。Telnet适合测试用,tcollector/telegraf是日志采集客户端可用于流式加载日志,import方式适合批量导入数据。当然,最后还有一种方式就是直接写入Hbase(官网不推荐),这样OpenTSDB也可以直接展示数据。

2016-12-26 03:02:37 8495 3

原创 Hadoop MapReduce 读写Elasticsearch

最近需要调研hadoop MR和ES进行交互。自然就用到了ES官方的Elasticsearch-Hadoop插件。然而官方的资料,尤其是实现部分,写的感觉不太详细。跳了点坑,然后总结了这篇文章,本文很大程度上是官网资料的具体代码实现。

2016-12-19 21:10:52 11404 5

原创 基于Java实现K-means算法

K-means java版代码实现

2016-12-02 15:56:48 4851

转载 数学之美番外篇:关于称球问题

看到一篇大牛博客,我觉得非常不过。写这篇文章就当学习记录了,纯属转载性质。先记录博客地址:http://mindhacks.cn/2008/06/13/why-is-quicksort-so-quick/ 这里特别记录的是称球问题。另外,那篇博客中关于排序效率的解析,也是非常值得一看的。现在,先从猜数字开始引入。

2016-11-25 23:38:33 783 1

原创 Hive压缩说明

Hive压缩使用

2016-11-13 21:50:18 8511 3

原创 sqlalchemy 介绍和使用示例

背景1. 关于本文项目中Python需要与mysql进行交互,很自然地想到了用sqlalchemy包。本文是我自己操作中的一些理解,用的是ORM方式进行操作,重在代码实践。 我认为不管学什么,最难的就是入门了!所以我只想写一点在工程上,可以把初学者领进门的东西!我相信人对某个知识点一旦有初步理解之后,剩下条条框框细节的学习,通过时间积累即可!因此,我把能忽略的尽量忽略,概念性地知识可以参照其他文章

2016-11-13 17:44:31 6197 1

原创 spark 学习-基础篇

背景最近被分配一条任务,给组里小伙伴介绍下spark基础,然后做了个ppt,现把这ppt共享下!有需要的小伙伴也可以直接在这ppt上进行修改。 因个人也是初学者,ppt所写内容若有不当之处,欢迎各路大神批评指正。

2016-11-13 15:57:16 451 3

原创 Mac下搭建hadoop伪分布式及eclipse开发环境

本文分三个部分,首先是mac下搭建hadoop伪分布式集群,然后搭建eclispe下hadoop调试环境,最后配置hadoop源码,便于学习。Mac下Hadoop伪分布式搭建1. Hadoop下载源码包和编译后的包都要下载。这里我用的是hadoop-2.6.4,下载地址如下: https://archive.apache.org/dist/hadoop/common/hadoop-2.6.4/

2016-11-13 13:42:33 3700 3

原创 ElasticSearch 安装使用

使用ES也有一段时间了,补上一篇之前就应该写好的博客。介绍Elasticsearch是一款分布式搜索引擎,支持在大数据环境中进行实时数据分析。它基于Apache Lucene文本搜索引擎,内部功能通过REST API暴露给外部。除了通过HTTP直接访问Elasticsearch,还可以通过支持Java、JavaScript、Python及更多语言的客户端库来访问。

2016-10-14 13:42:10 2318

原创 ElasticSearch 中文同义词实现

ElasticSearch 中文同义词处理及详解

2016-10-13 14:11:32 13649 2

原创 mongodb 中max、min、sum、avg等函数用法

mongodb max、min、sum、avg用法

2016-09-29 11:02:30 41045 5

原创 ElasticSearch 自动补全实现

介绍elasticsearch的suggester共有四类(term suggester, phrase suggester, completion suggester, context suggester), 其中completion suggester作为搜索框中的自动补齐功能,尤为常用。实现一个完整的completion suggester功能,需要三个步骤:创建映射,插入索引数据,搜索数据。

2016-09-26 10:11:58 17369

原创 pymongo 介绍和使用示例

背景最近项目中用到了mongodb,并且用python的pymongo包操作。本文就把目前遇到的问题和学习经历做个小结,方便日后查询。

2016-09-17 21:17:51 23877

原创 hive 学习笔记

学习笔记

2016-08-27 14:51:47 2118

原创 spark 本地调试运行WordCount(java版local模式)

spark java版本地(local模式)运行词频统计,WordCount

2016-08-14 12:29:18 22542 5

大数据处理与Spark计算框架.pptx

spark 基础讲解

2016-12-26

spark 基础讲解ppt

2016-11-13

spark local下 WordCount运行示例

spark local下 WordCount运行示例,maven项目,直接导入eclipse即可

2016-08-14

基于NLPIR的lucene analyzar简单实现

基于NLPIR的lucene analyzar简单实现,可能的问题就是nlpir可能会过期,参考:http://www.07net01.com/2015/08/890598.html

2015-11-29

机器学习-实用案例解析 第三章 代码和数据

机器学习-实用案例解析 第三章 代码和数据

2014-05-29

机器学习-实用案例解析 第二章 代码和数据

机器学习-实用案例解析 第二章 代码和数据

2014-05-29

R语言编程艺术

R语言编程艺术,一本很不错的书,可以看看

2014-04-02

数学之美(第二版) 吴军

数学之美(第二版) 吴军

2014-04-02

机器学习-实用案例解析 第一章 代码和数据

机器学习-实用案例解析 第一章 代码和数据

2014-03-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除