宇毅-CSDN博客

原创关于文章说明

csdn的博客类型只有三种选择：原创、转载、翻译。标注原创的文章绝不是转载和翻译的，但也不能完全算是原创。姑且认为半原创了，文中的图和语句直接摘录别人的有不少。基本上直接给出了参考URL地址。技术是不断更新的，但是他人的文章可能发表了好几年，一路做下来也出现了不少问题。我写的文章更多的记录了学习历程和出现的问题。最后，本人一直有做学习笔记习惯，但是没有发博客的习惯（近期才开始把原来

2015-11-16 16:02:34 646

原创时间序列相似性度量-DTW

1. 背景最近项目中遇到求解时间序列相似性问题，这里序列也可以看成向量。在传统算法中，可以用余弦相似度和pearson相关系数来描述两个序列的相似度。但是时间序列比较特殊，可能存在两个问题：两段时间序列长度不同。如何求相似度？一个序列是另一个序列平移之后得到的。如何求相似距离？第一个问题，导致了根本不能用余弦相似度和pearson相关系数来求解相似。第二个问题，导致了也不能基于欧式距离...

2019-01-25 16:44:59 37673 28

Flink Stream Windows Join1. 说明参考Flink Stream Joining。不过就我实践下来，感觉这官方文档写的也不全面，所以我就来填填坑的。文中给出Windows Join的代码一般形式如下：stream.join(otherStream) .where(&amp;lt;KeySelector&amp;gt;) .equalTo(&amp;lt;KeySelector...

2018-09-17 22:41:26 7652 1

原创 Flink countWindow 使用

1. 说明countWindows 包括滚动窗口类型和滑动窗口类型。以下通过代码和输出来说明 countWindows()逻辑。数据源代码： public static class StreamDataSource extends RichParallelSourceFunction&lt;Tuple2&lt;String, String&gt;&gt; { pr...

2018-09-16 16:55:21 9620 1

原创 Flink 静态 Session Windows 使用

1. 介绍参考Session Windows。此外也可阅读Flink 原理与实现：Session Window。以下是正文：会话窗口分配器按活动会话对元素进行分组。与翻滚窗口和滑动窗口相比，会话窗口不重叠并且没有固定的开始和结束时间。当会话窗口在一段时间内没有接收到元素时，即当发生不活动的间隙时，会话窗口关闭。会话窗口分配器可以设置静态会话间隙和动态会话间隙。一共有四种形式的 Sess...

2018-09-15 22:03:59 4785

原创 Flink DataSet Kafka Sink

1. 说明Flink 一般都是用于realtime 计算的，不过其中的 DataSet 也提供了batch API。本人在项目中也好奇试用了下，其中遇到一个需求就是把DataSet的数据Sink到 Kafka。需要注意的是Flink 官方的DataSet是不提供Kafka Sink API的，需要自己实现。当然也分 DataSet 数据量的大小，有不同的实现方式。2. 小数据量这个...

2018-09-08 21:39:24 3926

原创 Flink 中 timeWindow 滚动窗口边界和数据延迟问题调研

1. 说明好久不写 CSDN blog，早转战Gitbook的。这次记录文章同时，顺带刷下存在感。下面进入正题：本文主要关于Flink timeWindow 窗口边界和以及延时数据处理的调研。读这篇文章需要对Flink Eventtime + WaterMark + Windows 机制有个基础了解。其次最好先阅读Flink流计算编程–watermark（水位线）简介这篇文章。本文是在阅...

2018-09-05 10:18:36 15153 8

原创 ElasticSearch 搜索相关

前言精力有限，最后写一篇文章总结下自己对ES的学习和使用经验，然后这方面的学习先告一段落了。期间一直在想，把文章写成什么样的才有意义。其实ES官网手册有专门的中文翻译版本，写的非常详细：https://www.gitbook.com/book/looly/elasticsearch-the-definitive-guide-cn/details，同时这本书也是我学ES的主要资料之一。

2017-06-14 18:52:14 915

原创词语向量化-word2vec简介和使用

前言最初听闻word2vec还在读研了。当时挺感兴趣的，不过一直忙于毕业事项，没好好研究下，对word2vec也只是概念上的了解，直到这两天有空才能专门学习下这方面的知识。知识不经过整理很容易忘记，尤其像这种算法类的，一次性理解透彻~~至少对我这水平的来说还是比较困难，必须经过多个阶段学习才行，每个阶段都做好总结，这样有利于下个阶段的学习。本文主要从我的学习经历介绍下word2vec，还是以实践为主

2017-06-09 02:39:47 31069 6

原创文本向量化

前言文本向量化，就是把文本转化为向量形式。这里用两种方式实现本文向量，一种是TF方式，一种是TF-IDF方式，且这里向量的长度就是字典的长度。TF就是词频、TF-IDF就是词频-逆频率。关于这两者的介绍已经满大街了，对于这两概念如有不懂，自行百度。本文基于python 实现，输入两篇短文本，输出文本向量，并用余弦相似度方式，计算两篇文档的相关性。

2017-06-09 01:50:26 7652

原创 ElasticSearch scan和scroll功能 python 实现

前言search 我们经常使用，默认一次返回10条数据，并且可以通过 from 和 size 参数修改返回条数并执行分页操作。但是有时需要返回大量数据，就必须通过scan和scroll实现。两者一起使用来从Elasticsearch里高效地取回巨大数量的结果而不需要付出深分页的代价。详情参考：https://es.xiaoleilu.com/060_Distributed_Search/20_S

2017-06-06 11:57:05 25673 12

原创 ElasticSearch IK中文分词使用详解

前言对于ES IK分词插件在中文检索中非常常用，本人也使用了挺久的。但知识细节一直很碎片化，一直没有做详细的整理。过一段时间用的话，也是依然各种找资料，也因此会降低开发效率。因此在有空的时候好好整理下相关资料。也希望本文对使用 ElasticSearch 和 IK分词插件的开发者有所帮助。希望能少走点弯路。本文包括前言、IK分词介绍、分词效果对比、自定义词典使用、索引设置和字段设置、查询测试

2017-06-03 18:07:05 39393 5

原创 ElasticSearch 数据增删改实现

前言本文介绍 ElasticSearch 增加、删除、修改数据的使用示例。通过Restful 接口和 Python 实现。详细可参考官网资料：https://www.elastic.co/guide/en/elasticsearch/reference/current/docs.html

2017-06-03 03:09:53 51135 5

原创缺失数据处理-插值法

在数据挖掘中，原始海量的数据中存在着大量不完整、不一致、有异常、偏离点的数据。这些问题数据轻则影响数据挖掘执行效率，重则影响执行结果。因此数据预处理工作必不可少，而其中常见工作的就是数据集的缺失值处理。数据缺失值处理可分两类。一类是删除缺失数据，一类是进行数据插补。本文是对数据插补的介绍。

2017-06-01 14:48:59 58401 3

原创 Linux 学习笔记1

前言Linux Shell 命令，知识点汇总Linux 命令知识点

2017-05-16 23:36:27 880

原创 Python 日期操作

python 日期操作包括时间戳转换、日期格式转换、日期排序、相对时间加减等。开发中发现这部分工作经常涉及，代码重复利用率高。所以基于python time包、datetime包、dateuitl包、还有其他实现的代码，总结一些关于日期的常用操作，也希望对其他同学有帮助。

2017-05-14 23:32:47 2814

原创 Python 学习笔记2

1、前言Python 学习笔记，记录平时易忘和零碎的细节。本文为代码块的整理

2017-05-14 22:56:29 902

原创 Python 学习笔记1

Python 学习笔记，记录平时易忘和零碎的细节。本文为知识点的整理~

2017-05-14 22:02:58 682

原创异常值检测-滑动均值实现智能告警

当前的分析对象是一段 timestamp-value 的时间序列，该时间序列可能是cpu使用率、磁盘使用率等数据。我们在计算前，首先需要判断的是什么样的值是异常值。基于移动平均的方法，其朴素思想是在直观上来看图形，认为近一段时间内的数据值，有着相似的走向趋势。因此判断一个值是否是异常值，可通过判断该值是否对数据趋势造成了破坏，来得出结论。

2017-05-11 15:52:57 7335

原创 OpenTSDB 查询示例

OpenTSDB 聚合和查询学习心得和小结！！

2017-03-27 22:12:13 19700 2

原创 OpenTSDB 查询介绍

OpenTSDB 数据读取和查询方式.

2017-03-25 17:21:37 18211 2

原创 Python 发送邮件

python 使用 163 邮箱发送邮件，基于 email 和 smtplib 两个包实现。

2017-03-19 17:10:55 833

原创 Python 正则替换字符串

说明需求： 1. 替换给定字符串中符合正则匹配的子串。 2. 使用者配置增加、删减替换规则方便。 3. 基于装饰器模式实现。实现基于re包和装饰器模式实现。

2017-03-18 09:33:00 2792

原创 OpenTSDB 定时批量写入示例

前言需求如下满足1、2任意一个条件就向OpenTSDB写入数据，3是额外需求： 1. 堆积数据，攒够 100 条后批量发送 2. 另新起线程，每 5 秒强制发送和清空当前等待队列 3. 考虑多线程情况，在同一个时间戳，有多个客户端同时写数据到opentsdb（策略：同个时间戳如果有多个数据值，则把相同时间戳的数据值进行累加）实现：基于python socket、threading包实现代码开

2017-03-16 11:18:11 3918

原创 OpenTSDB HTTP 写入示例

opentsdb http写入示例、基于Python request包实现。

2017-03-15 11:20:31 8903

原创 OpenTSDB 写入介绍

OpenTSDB支持几种写入方式。包括Telnet API、HTTP API、import方式、客户端采集器(tcollector/telegraf)。Telnet适合测试用，tcollector/telegraf是日志采集客户端可用于流式加载日志，import方式适合批量导入数据。当然，最后还有一种方式就是直接写入Hbase（官网不推荐），这样OpenTSDB也可以直接展示数据。

2016-12-26 03:02:37 8495 3

原创 Hadoop MapReduce 读写Elasticsearch

最近需要调研hadoop MR和ES进行交互。自然就用到了ES官方的Elasticsearch-Hadoop插件。然而官方的资料，尤其是实现部分，写的感觉不太详细。跳了点坑，然后总结了这篇文章，本文很大程度上是官网资料的具体代码实现。

2016-12-19 21:10:52 11404 5

原创基于Java实现K-means算法

K-means java版代码实现

2016-12-02 15:56:48 4851

转载数学之美番外篇：关于称球问题

看到一篇大牛博客，我觉得非常不过。写这篇文章就当学习记录了，纯属转载性质。先记录博客地址：http://mindhacks.cn/2008/06/13/why-is-quicksort-so-quick/ 这里特别记录的是称球问题。另外，那篇博客中关于排序效率的解析，也是非常值得一看的。现在，先从猜数字开始引入。

2016-11-25 23:38:33 783 1

原创 Hive压缩说明

Hive压缩使用

2016-11-13 21:50:18 8511 3

原创 sqlalchemy 介绍和使用示例

背景1. 关于本文项目中Python需要与mysql进行交互，很自然地想到了用sqlalchemy包。本文是我自己操作中的一些理解，用的是ORM方式进行操作，重在代码实践。我认为不管学什么，最难的就是入门了！所以我只想写一点在工程上，可以把初学者领进门的东西！我相信人对某个知识点一旦有初步理解之后，剩下条条框框细节的学习，通过时间积累即可！因此，我把能忽略的尽量忽略，概念性地知识可以参照其他文章

2016-11-13 17:44:31 6197 1

原创 spark 学习-基础篇

背景最近被分配一条任务，给组里小伙伴介绍下spark基础，然后做了个ppt，现把这ppt共享下！有需要的小伙伴也可以直接在这ppt上进行修改。因个人也是初学者，ppt所写内容若有不当之处，欢迎各路大神批评指正。

2016-11-13 15:57:16 451 3

原创 Mac下搭建hadoop伪分布式及eclipse开发环境

本文分三个部分，首先是mac下搭建hadoop伪分布式集群，然后搭建eclispe下hadoop调试环境，最后配置hadoop源码，便于学习。Mac下Hadoop伪分布式搭建1. Hadoop下载源码包和编译后的包都要下载。这里我用的是hadoop-2.6.4，下载地址如下： https://archive.apache.org/dist/hadoop/common/hadoop-2.6.4/

2016-11-13 13:42:33 3700 3

原创 ElasticSearch 安装使用

使用ES也有一段时间了，补上一篇之前就应该写好的博客。介绍Elasticsearch是一款分布式搜索引擎，支持在大数据环境中进行实时数据分析。它基于Apache Lucene文本搜索引擎，内部功能通过REST API暴露给外部。除了通过HTTP直接访问Elasticsearch，还可以通过支持Java、JavaScript、Python及更多语言的客户端库来访问。

2016-10-14 13:42:10 2318

原创 ElasticSearch 中文同义词实现

ElasticSearch 中文同义词处理及详解

2016-10-13 14:11:32 13649 2

原创 mongodb 中max、min、sum、avg等函数用法

mongodb max、min、sum、avg用法

2016-09-29 11:02:30 41045 5

原创 ElasticSearch 自动补全实现

介绍elasticsearch的suggester共有四类(term suggester, phrase suggester, completion suggester, context suggester), 其中completion suggester作为搜索框中的自动补齐功能，尤为常用。实现一个完整的completion suggester功能，需要三个步骤：创建映射，插入索引数据，搜索数据。

2016-09-26 10:11:58 17369