自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 Eclipse常用快捷键

Eclipse的编辑功能非常强大,掌握了Eclipse快捷键功能,能够大大提高开发效率。Eclipse中有如下一些和编辑相关的快捷键。  1. 【ALT+/】  此快捷键为用户编辑的好帮手,能为用户提供内容的辅助,不要为记不全方法和属性名称犯愁,当记不全类、方法和属性的名字时,多体验一下【ALT+/】快捷键带来的好处吧。  2. 【Ctrl+O】  显示类中方法和属

2016-07-16 15:39:49 524

翻译 ElasticSearch(十三)-全文搜索(精度控制)

全文(full-text)检索如果一个date或int字段,被认为日期或整数。如果检索not_analyzed字段,他们会把整个查询作为一个短语。如果检索一个全文字段,查询会先用解析器解析查询语句,产生需要查询的短语列表,对每个短语进行低级查询,合并结果。 1.匹配查询match query2.多词查询  提高精度: GET /my_index/my_typ

2016-05-19 17:26:18 1593

翻译 ElasticSearch(十二)-结构化搜索

结构化不关心文档的相关性或分数,只是简单的包含或排除。1.查找准确值  (1)过滤器查找匹配文档(2)创建字节集[1,0,0,0] (3)字节集存在内存中,我们能跳过1和2,能提升性能。 2.组合过滤 Must、must_not、should 3.查询多个准确值  Terms格式如:  { "terms" : { "pri

2016-05-19 17:23:27 659

翻译 ElasticSearch(十一)-深入分片

1.文本搜索  倒排索引存储写入磁盘的倒排索引是不可改变的:(1)不需要锁(2)一旦写入内存,因为不需改变,所以一直在那,有助性能(3)压缩数据,减少IO和内存大小占用 2.动态索引??段是不可改变的,文档不能从旧的段中删除,每个文档被删除只是.del文件中被标记删除,依然可以匹配查询,只是最终返回前被移除结果集中。更新就是先删除后插入 3.近实时搜索

2016-05-19 17:20:02 718

翻译 ElasticSearch(十)-索引管理

1.创建删除创建:put /myidnex{ “setting”:{}, “mapping”:{}}防止自动创建:可以在elasticsearch.yml中添加action.anto.create_index:false删除:delete /myindex1,myindex2delete /_all2.索引设置  number_of_shards主分片数,默认5

2016-05-19 17:03:07 612

翻译 ElasticSearch(九)-分布式搜索

搜索的执行过程分为两个阶段:查询后取回1.查询阶段    查询被向索引中每个分片副本广播,每个分片在本地执行搜索并建立匹配文档的优先队列。GET /_search{ "from": 90, "size": 10}这个优先队列的能容纳100个文档查询分为三步:如图可视化:(1)客户端发送一个search搜索请求给请求体node3,node3创建

2016-05-19 16:58:55 747

翻译 ElasticSearch(八)-排序(相关性算法)

1.排序  Sort排序,如果是date,会转化成毫秒数;  如果强制计算其相关性,可以设置track_scores为true  默认排序:字段默认顺序排序,_score默认倒序 GET /_search?sort=date:desc&sort=_score&q=search "sort": { "dates": { "order": "asc",

2016-05-19 16:53:08 12983

翻译 ElasticSearch(七)-结构化查询

1.请求体查询  要点:GET /_search{ "from": 30, "size": 10}进行分页 2.DSL应该单独学习;3.查询与过滤  一个查询语句会计算每个文档与查询语句的相关性,会给出一个相关评分_score; 一般情况下:经过花村的过滤查询要远胜一条查询语句的执行效率 4.重要的查询过滤语句  term过滤:精

2016-05-19 16:50:21 905

翻译 ElasticSearch(六)-映射和分析过程

1.数据类型差异    不同类型的索引方式是不一样的,导致查询结果不一样;2.确切值和全文  确切值是确定的,比如foo和Foo不同  全文文本常常被称为高度结构化数据,而不是非结构化的数据  @为了方便全文文本字段中进行搜索查询,ES首先对文本进行分析,然后使用结果建立一个倒排索引。 3.倒排索引  倒排索引inverted index进行快速的全文检索;

2016-05-19 16:40:27 807 1

翻译 ElasticSearch(五)-搜索

ES可以结构化查询,也可以进行全文检索需要理解三个概念:Mapping、Analysis、Query DSL 1.空搜索   GET /_search响应:{ "hits" : { "total" : 14, "hits" : [ { "_index": "us", "_

2016-05-19 16:33:26 603

翻译 ElasticSearch(四)-分布式文档存储

1.路由文档存储在分片的算法shard =hash(routing) % number_of_primary_shardsrouting值是一个任意字符串,默认为_id,可以自定义;从这可以看出,主分片的数量不能改变,假如改变文档的路由将全部失效。2.分片交互当我们发送请求,最好的做法是循环通过所有节点请求,这样可以平衡负载。3.新建和索引和删除文档

2016-05-19 16:13:16 867

翻译 ElasticSearch(三)-数据

数据吞吐 存储的格式为json格式文档; ES中每个字段的数据是默认被索引的;有一点需要注意,索引数据的操作只会发生在主分片(primary shard)上,而不会发生在分片副本(Replica)上。如果索引数据的请求发送到的节点没有合适的分片或者分片是副本,那么请求会被转发到含有主分片的节点。 1.   文档在ES中特指被序列化成json格式的数据其中一个文档

2016-05-19 16:04:38 531

翻译 ElasticSearch(二)-分布式集群

1.空集群   一个节点就是es实例,具有相同的clustername;多个节点协同工作,分享数据,平衡负载,自动感应节点并平衡数据。主节点被自主选出,且不参与文档级别的变更与搜索。 2.集群监控GET/_cluster/health其中status字段颜色意义green所有主要分片和复制分片都可用

2016-05-19 15:52:09 571

原创 linux各种解压命令

列出各种常用解压命令 1、*.tar 用 tar –xvf 解压 2、*.gz 用 gzip -d或者gunzip 解压 3、*.tar.gz和*.tgz 用 tar –xzf 解压 4、*.bz2 用 bzip2 -d或者用bunzip2 解压 5、*.tar.bz2用tar –xjf 解压 6、*.Z 用 uncompress 解压 7、*.tar.Z 用tar –

2016-05-19 15:28:43 385

原创 ElasticSearch之常用插件安装命令

#head监控安装,推荐bin/plugin -install mobz/elasticsearch-head#bigdesk集群状态,推荐bin/plugin -install lukas-vlcek/bigdesk#marvel监控安装bin/plugin -i elasticsearch/marvel/latest#es-sql安装,网页内有详细说明https://git

2016-05-19 11:27:50 3348

原创 ElasticSearch之动态mapping模板

如果我们每天都要新建索引,而mapping需要提前设置,这个时候就需要用到动态模板;每日凌晨新建索引时,匹配template的索引即可自动创建mapping。下面有个模板的例子,供大家参考:(只要匹配news_wordcloud*的索引即可自动创建type为cms的mapping)#模板curl -XPUT localhost:9200/_template/template_news

2016-05-18 18:22:53 4442

原创 前端之实现缩略图展示网页

有的时候,我们想对我们项目下的网页进行缩略图的展示,如下效果: 如果要实现上面的展示网页,需要三个步骤:1.      生成网页的快照;2.      把网页快照生成合适大小的缩略图;3.      根据上面缩略图生成展示网页。Ps:常见安装错误,请见本文档最后。一、生成网页的快照所谓生成网页的快照,就是对网页进行截图,我们这里用phantomjs来实现。

2016-05-18 17:18:28 18764

原创 Logstash之关系型数据库(mysql或oracle)数据入ElasticSearch

有的时候我们想把mysql或oracle中的数据导入到es中,有很多种方式,这里介绍一种很简单的方式,利用Logstash的jdbc-input插件可以实现。官方文档链接查看:https://www.elastic.co/guide/en/logstash/2.1/plugins-inputs-jdbc.html 譬如我们想把mysql中某一张表导入到ES中,Logstash的conf

2016-05-17 16:15:28 6320 2

原创 Logstash之时区问题的建议和修改

大家在用Logstash收集日志时,发现@timestamp的时间比本地早8个小时,这是正常的,因为这个时间是UTC时间,日志应统一采用这个时间。原则上建议大家不要修改这个时间戳:时区问题的解释很多中国用户经常提一个问题:为什么 @timestamp 比我们早了 8 个小时?怎么修改成北京时间?+其实,Elasticsearch 内部,对时间类型字段,是统一采用 UTC 时间

2016-05-11 16:20:50 18270 2

转载 程序猿,千万别说你不了解Docker!

1dotCloud到Docker:低调奢华有内涵  写在前面:放在两年前,你不认识Docker情有可原。但如果现在你还这么说,不好意思,我只能说你OUT了。你最好马上get起来,因为有可能你们公司很快就会引入Docker。今天就和大家讨论讨论这个备受好评的应用,让我们来揭开他的真面目!  点击下载报告  【一】从dotCloud到Docker--

2016-05-10 14:15:56 995

原创 Shell之实现多线程

shell实现多线程可以大大提高程序效率#!/bin/bash# thread test#线程数thread_num=10#管道文件名称,这里使用随机数加pidfifo_file="/tmp/$RANDOM$$.fifo"mkfifo "$fifo_file"#定义文件描述符指向这个管道文件exec 9<>"$fifo_file"rm -fr "$fifo_file"#

2016-05-10 11:53:17 765

原创 Logstash之日志多行合一行(日志错行)

我们在用Logstash收集日志的时候会碰到日志会错行,这个时候我们需要把错的行归并到上一行,使某条数据完整;也防止因为错行导致其他字段的不正确。在Logstash-filter插件中,multiline插件可以解决这个问题,举个例子如下:假如我们的日志形式如下:2016-04-05 13:39:52.534 1.28.253.193 20160311090433074f5b47c04

2016-05-09 16:13:07 8794 2

原创 Logstash之kafka数据入ElasticSearch

kafka里面的数据都是自定义拼接的字符串需要在logstash中filter做分割;如果是json格式,则会被自动解析,无需分割。下面样例:input{ kafka { zk_connect => "bdc41.hexun.com:2181,bdc40.hexun.com:2181,bdc46.hexun.com:2181,bdc54.hexun.com:

2016-05-09 15:43:00 3053

原创 ElasticSearch之定时删除数据

有的时候我们在使用ES时,由于资源有限或业务需求,我们只想保存最近一段时间的数据,所以有如下脚本可以定时删除数据delete_es_by_day.sh#!/bin/sh# example: sh delete_es_by_day.sh logstash-kettle-log logsdate 30index_name=$1daycolumn=$2savedays=$3form

2016-05-09 13:22:16 12582 1

原创 logstash服务检测与拉起

检测logstash的conf脚本check_logstash_serve.sh#!bin/bash# check logstash running ? if not,start it# example: sh check_logstash_serve.sh flumelck /opt/modules/logstash/exec_sh/lck/lck_start.sh#传入脚本名

2016-05-06 15:27:35 2006

原创 logstash日志收集展示与邮件报警

有时候我们需要对一些服务器日志进行分析,并对其中错误的日志进行报警,在这里我们采用logstash来收集这些日志,和采用自己开发的邮件发送系统来发送错误日志数据。     例如我们有几个文件需要监控(BI日志)我们可以通过配置logstash来收集这些文件日志input{     file{        path=> "/diskb/bidir/smartbi

2016-05-06 14:48:48 9323

原创 网页迁移方案

网页迁移最大的问题在于:如果直接迁走,老用户依然在使用老的网址,结果就是打不开或网页错误,用户体验不好;当然可以每回更新时,更新老的网址网页,这是很麻烦的。 为了应对上述问题,我们采用在老的网页跳转至新网址的方法,这样老的网址依然可用,而且只需更新新网址网页即可,方便维护。  例子:原来js监控日志网页为http://bdc.hexun.com/bdcTrace/home.

2016-05-06 14:21:07 843

原创 ElasticSearch数据导入Hive

从ES往hive中导入数据其实有很多方式,最基本的方法就是用es-java-api获取数据然后导入到hdfs中,就完了。但这种方式太过复杂,且通用性不高。下面介绍一种方便的导入方式:需要用到ES-hadoop插件:第一次需要安装插件:  下载地址:https://github.com/elasticsearch/elasticsearch-hadoop#readmeadd上面的

2016-05-06 14:17:32 9699

转载 安装logstash

下载logstashtar –xf  logstashmv logstash /opt/ ln -s /opt/logstash-1.4.2 /usr/local/logstash测试logstashbin/logstash-e 'input { stdin { } }output { stdout {} }'配置logstash创建配置文件目录:mkdir-p /

2016-05-06 14:15:29 436

转载 shell之sed命令大全

SED单行脚本快速参考 英文标题:USEFUL ONE-LINE SCRIPTS FOR SED (Unix stream editor)原标题:HANDY ONE-LINERS FOR SED (Unix stream editor)整理:Eric Pement - 电邮:pemente[at]northpark[dot]edu 版

2016-05-06 14:10:47 781

转载 ElasticSearch中文分词IK安装

elasticsearch-analysis-ik是一款中文的分词插件,支持自定义词库。安装步骤:1、到github网站下载源代码,网站地址为:https://github.com/medcl/elasticsearch-analysis-ik右侧下方有一个按钮“Download ZIP",点击下载源代码elasticsearch-analysis-ik-master.zip。2、

2016-05-06 13:22:28 677

原创 ElasticSearch(一)-安装

一、环境介绍与安装准备    1、环境说明        3台虚拟机,ip分别为xxx.xxx.3.102、xxx.xxx.3.103和xxx.xxx.3.104。    2、安装准备        ElasticSearch(简称ES)由java语言实现,运行环境依赖java。ES 1.x版本,官方推荐至少使用jdk1.6的环境,建议使用oracle java,可以去官网下载,本

2016-05-06 13:11:09 485

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除