珊瑚海的世界-CSDN博客

原创 Eclipse常用快捷键

Eclipse的编辑功能非常强大，掌握了Eclipse快捷键功能，能够大大提高开发效率。Eclipse中有如下一些和编辑相关的快捷键。 1. 【ALT+/】此快捷键为用户编辑的好帮手，能为用户提供内容的辅助，不要为记不全方法和属性名称犯愁，当记不全类、方法和属性的名字时，多体验一下【ALT+/】快捷键带来的好处吧。 2. 【Ctrl+O】显示类中方法和属

2016-07-16 15:39:49 524

翻译 ElasticSearch（十三）-全文搜索（精度控制）

全文（full-text）检索如果一个date或int字段，被认为日期或整数。如果检索not_analyzed字段，他们会把整个查询作为一个短语。如果检索一个全文字段，查询会先用解析器解析查询语句，产生需要查询的短语列表，对每个短语进行低级查询，合并结果。 1.匹配查询match query2.多词查询提高精度： GET /my_index/my_typ

2016-05-19 17:26:18 1593

翻译 ElasticSearch（十二）-结构化搜索

结构化不关心文档的相关性或分数，只是简单的包含或排除。1.查找准确值（1）过滤器查找匹配文档（2）创建字节集[1,0,0,0] （3）字节集存在内存中，我们能跳过1和2，能提升性能。 2.组合过滤 Must、must_not、should 3.查询多个准确值 Terms格式如: { "terms" : { "pri

2016-05-19 17:23:27 659

翻译 ElasticSearch（十一）-深入分片

1.文本搜索倒排索引存储写入磁盘的倒排索引是不可改变的：（1）不需要锁（2）一旦写入内存，因为不需改变，所以一直在那，有助性能（3）压缩数据，减少IO和内存大小占用 2.动态索引？？段是不可改变的，文档不能从旧的段中删除，每个文档被删除只是.del文件中被标记删除，依然可以匹配查询，只是最终返回前被移除结果集中。更新就是先删除后插入 3.近实时搜索

2016-05-19 17:20:02 718

翻译 ElasticSearch（十）-索引管理

1.创建删除创建：put /myidnex{ “setting”:{}, “mapping”:{}}防止自动创建：可以在elasticsearch.yml中添加action.anto.create_index：false删除：delete /myindex1,myindex2delete /_all2.索引设置 number_of_shards主分片数，默认5

2016-05-19 17:03:07 612

翻译 ElasticSearch（九）-分布式搜索

搜索的执行过程分为两个阶段：查询后取回1.查询阶段查询被向索引中每个分片副本广播，每个分片在本地执行搜索并建立匹配文档的优先队列。GET /_search{ "from": 90, "size": 10}这个优先队列的能容纳100个文档查询分为三步：如图可视化：（1）客户端发送一个search搜索请求给请求体node3，node3创建

2016-05-19 16:58:55 747

翻译 ElasticSearch（八）-排序（相关性算法）

1.排序 Sort排序，如果是date，会转化成毫秒数；如果强制计算其相关性，可以设置track_scores为true 默认排序：字段默认顺序排序，_score默认倒序 GET /_search?sort=date:desc&sort=_score&q=search "sort": { "dates": { "order": "asc",

2016-05-19 16:53:08 12983

翻译 ElasticSearch（七）-结构化查询

1.请求体查询要点：GET /_search{ "from": 30, "size": 10}进行分页 2.DSL应该单独学习；3.查询与过滤一个查询语句会计算每个文档与查询语句的相关性，会给出一个相关评分_score；一般情况下：经过花村的过滤查询要远胜一条查询语句的执行效率 4.重要的查询过滤语句 term过滤：精

2016-05-19 16:50:21 905

翻译 ElasticSearch（六）-映射和分析过程

1.数据类型差异不同类型的索引方式是不一样的，导致查询结果不一样；2.确切值和全文确切值是确定的，比如foo和Foo不同全文文本常常被称为高度结构化数据，而不是非结构化的数据 @为了方便全文文本字段中进行搜索查询，ES首先对文本进行分析，然后使用结果建立一个倒排索引。 3.倒排索引倒排索引inverted index进行快速的全文检索；

2016-05-19 16:40:27 807 1

翻译 ElasticSearch（五）-搜索

ES可以结构化查询，也可以进行全文检索需要理解三个概念：Mapping、Analysis、Query DSL 1.空搜索 GET /_search响应：{ "hits" : { "total" : 14, "hits" : [ { "_index": "us", "_

2016-05-19 16:33:26 603

翻译 ElasticSearch（四）-分布式文档存储

1.路由文档存储在分片的算法shard =hash(routing) % number_of_primary_shardsrouting值是一个任意字符串，默认为_id，可以自定义；从这可以看出，主分片的数量不能改变，假如改变文档的路由将全部失效。2.分片交互当我们发送请求，最好的做法是循环通过所有节点请求，这样可以平衡负载。3.新建和索引和删除文档

2016-05-19 16:13:16 867

翻译 ElasticSearch（三）-数据

数据吞吐存储的格式为json格式文档； ES中每个字段的数据是默认被索引的；有一点需要注意，索引数据的操作只会发生在主分片(primary shard)上，而不会发生在分片副本(Replica)上。如果索引数据的请求发送到的节点没有合适的分片或者分片是副本，那么请求会被转发到含有主分片的节点。 1. 文档在ES中特指被序列化成json格式的数据其中一个文档

2016-05-19 16:04:38 531

翻译 ElasticSearch（二）-分布式集群

1.空集群一个节点就是es实例，具有相同的clustername；多个节点协同工作，分享数据，平衡负载，自动感应节点并平衡数据。主节点被自主选出，且不参与文档级别的变更与搜索。 2.集群监控GET/_cluster/health其中status字段颜色意义green所有主要分片和复制分片都可用

2016-05-19 15:52:09 571

原创 linux各种解压命令

列出各种常用解压命令 1、*.tar 用 tar –xvf 解压 2、*.gz 用 gzip -d或者gunzip 解压 3、*.tar.gz和*.tgz 用 tar –xzf 解压 4、*.bz2 用 bzip2 -d或者用bunzip2 解压 5、*.tar.bz2用tar –xjf 解压 6、*.Z 用 uncompress 解压 7、*.tar.Z 用tar –

2016-05-19 15:28:43 385

原创 ElasticSearch之常用插件安装命令

#head监控安装，推荐bin/plugin -install mobz/elasticsearch-head#bigdesk集群状态，推荐bin/plugin -install lukas-vlcek/bigdesk#marvel监控安装bin/plugin -i elasticsearch/marvel/latest#es-sql安装,网页内有详细说明https://git

2016-05-19 11:27:50 3348

原创 ElasticSearch之动态mapping模板

如果我们每天都要新建索引，而mapping需要提前设置，这个时候就需要用到动态模板；每日凌晨新建索引时，匹配template的索引即可自动创建mapping。下面有个模板的例子，供大家参考：（只要匹配news_wordcloud*的索引即可自动创建type为cms的mapping）#模板curl -XPUT localhost:9200/_template/template_news

2016-05-18 18:22:53 4442

原创前端之实现缩略图展示网页

有的时候，我们想对我们项目下的网页进行缩略图的展示，如下效果：如果要实现上面的展示网页，需要三个步骤：1. 生成网页的快照；2. 把网页快照生成合适大小的缩略图；3. 根据上面缩略图生成展示网页。Ps：常见安装错误，请见本文档最后。一、生成网页的快照所谓生成网页的快照，就是对网页进行截图，我们这里用phantomjs来实现。

2016-05-18 17:18:28 18764

原创 Logstash之关系型数据库（mysql或oracle）数据入ElasticSearch

有的时候我们想把mysql或oracle中的数据导入到es中，有很多种方式，这里介绍一种很简单的方式，利用Logstash的jdbc-input插件可以实现。官方文档链接查看：https://www.elastic.co/guide/en/logstash/2.1/plugins-inputs-jdbc.html 譬如我们想把mysql中某一张表导入到ES中，Logstash的conf

2016-05-17 16:15:28 6320 2

原创 Logstash之时区问题的建议和修改

大家在用Logstash收集日志时，发现@timestamp的时间比本地早8个小时，这是正常的，因为这个时间是UTC时间，日志应统一采用这个时间。原则上建议大家不要修改这个时间戳：时区问题的解释很多中国用户经常提一个问题：为什么 @timestamp 比我们早了 8 个小时？怎么修改成北京时间？+其实，Elasticsearch 内部，对时间类型字段，是统一采用 UTC 时间

2016-05-11 16:20:50 18270 2

转载程序猿，千万别说你不了解Docker！

1dotCloud到Docker：低调奢华有内涵　　写在前面：放在两年前，你不认识Docker情有可原。但如果现在你还这么说，不好意思，我只能说你OUT了。你最好马上get起来，因为有可能你们公司很快就会引入Docker。今天就和大家讨论讨论这个备受好评的应用，让我们来揭开他的真面目！　　点击下载报告　　【一】从dotCloud到Docker--

2016-05-10 14:15:56 995

原创 Shell之实现多线程

shell实现多线程可以大大提高程序效率#!/bin/bash# thread test#线程数thread_num=10#管道文件名称，这里使用随机数加pidfifo_file="/tmp/$RANDOM$$.fifo"mkfifo "$fifo_file"#定义文件描述符指向这个管道文件exec 9<>"$fifo_file"rm -fr "$fifo_file"#

2016-05-10 11:53:17 765

原创 Logstash之日志多行合一行（日志错行）

我们在用Logstash收集日志的时候会碰到日志会错行，这个时候我们需要把错的行归并到上一行，使某条数据完整；也防止因为错行导致其他字段的不正确。在Logstash-filter插件中，multiline插件可以解决这个问题，举个例子如下：假如我们的日志形式如下：2016-04-05 13:39:52.534 1.28.253.193 20160311090433074f5b47c04

2016-05-09 16:13:07 8794 2

原创 Logstash之kafka数据入ElasticSearch

kafka里面的数据都是自定义拼接的字符串需要在logstash中filter做分割；如果是json格式，则会被自动解析，无需分割。下面样例：input{ kafka { zk_connect => "bdc41.hexun.com:2181,bdc40.hexun.com:2181,bdc46.hexun.com:2181,bdc54.hexun.com:

2016-05-09 15:43:00 3053

原创 ElasticSearch之定时删除数据

有的时候我们在使用ES时，由于资源有限或业务需求，我们只想保存最近一段时间的数据，所以有如下脚本可以定时删除数据delete_es_by_day.sh#!/bin/sh# example: sh delete_es_by_day.sh logstash-kettle-log logsdate 30index_name=$1daycolumn=$2savedays=$3form

2016-05-09 13:22:16 12582 1

原创 logstash服务检测与拉起

检测logstash的conf脚本check_logstash_serve.sh#!bin/bash# check logstash running ? if not,start it# example: sh check_logstash_serve.sh flumelck /opt/modules/logstash/exec_sh/lck/lck_start.sh#传入脚本名

2016-05-06 15:27:35 2006

原创 logstash日志收集展示与邮件报警

有时候我们需要对一些服务器日志进行分析，并对其中错误的日志进行报警，在这里我们采用logstash来收集这些日志，和采用自己开发的邮件发送系统来发送错误日志数据。例如我们有几个文件需要监控（BI日志）我们可以通过配置logstash来收集这些文件日志input{ file{ path=> "/diskb/bidir/smartbi

2016-05-06 14:48:48 9323

原创网页迁移方案

网页迁移最大的问题在于：如果直接迁走，老用户依然在使用老的网址，结果就是打不开或网页错误，用户体验不好；当然可以每回更新时，更新老的网址网页，这是很麻烦的。为了应对上述问题，我们采用在老的网页跳转至新网址的方法，这样老的网址依然可用，而且只需更新新网址网页即可，方便维护。例子：原来js监控日志网页为http://bdc.hexun.com/bdcTrace/home.

2016-05-06 14:21:07 843

原创 ElasticSearch数据导入Hive

从ES往hive中导入数据其实有很多方式，最基本的方法就是用es-java-api获取数据然后导入到hdfs中，就完了。但这种方式太过复杂，且通用性不高。下面介绍一种方便的导入方式：需要用到ES-hadoop插件：第一次需要安装插件：下载地址：https://github.com/elasticsearch/elasticsearch-hadoop#readmeadd上面的

2016-05-06 14:17:32 9699

转载安装logstash

下载logstashtar –xf logstashmv logstash /opt/ ln -s /opt/logstash-1.4.2 /usr/local/logstash测试logstashbin/logstash-e 'input { stdin { } }output { stdout {} }'配置logstash创建配置文件目录：mkdir-p /

2016-05-06 14:15:29 436

转载 shell之sed命令大全

SED单行脚本快速参考英文标题：USEFUL ONE-LINE SCRIPTS FOR SED (Unix stream editor)原标题：HANDY ONE-LINERS FOR SED (Unix stream editor)整理：Eric Pement - 电邮：pemente[at]northpark[dot]edu 版

2016-05-06 14:10:47 781

转载 ElasticSearch中文分词IK安装

elasticsearch-analysis-ik是一款中文的分词插件，支持自定义词库。安装步骤：1、到github网站下载源代码，网站地址为：https://github.com/medcl/elasticsearch-analysis-ik右侧下方有一个按钮“Download ZIP"，点击下载源代码elasticsearch-analysis-ik-master.zip。2、

2016-05-06 13:22:28 677

原创 ElasticSearch（一）-安装

一、环境介绍与安装准备 1、环境说明 3台虚拟机，ip分别为xxx.xxx.3.102、xxx.xxx.3.103和xxx.xxx.3.104。 2、安装准备 ElasticSearch（简称ES）由java语言实现，运行环境依赖java。ES 1.x版本，官方推荐至少使用jdk1.6的环境，建议使用oracle java，可以去官网下载，本

2016-05-06 13:11:09 485

珊瑚海的博客