自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zkf541076398的博客

数据小白

  • 博客(85)
  • 收藏
  • 关注

转载 53.刨根问底 | Elasticsearch 5.X集群多节点角色配置(Elasticsearch项目实战)

1、问题引出ES5.X节点类型多了ingest节点类型。 针对3个节点、5个节点或更多节点的集群,如何配置节点角色才能使得系统性能最优呢? 2、ES2.X及之前版本节点角色概述3、ES5.X节点角色清单 由于其他几种类型节点和用途都很好理解,无非主节点、数据节点、路由节点。Ingest的用途: 1)Ingest节点和集群中的其他节点一样,但是它能够创建多个处理器管道,用以修改传入文档。类似 最常用...

2018-06-09 14:58:01 353

转载 52.Elasticsearch大文件检索性能提升20倍实践(Elasticsearch项目实战)

少废话,直接开始。1、大文件是多大?ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。项目中,有时候需要将一些扫描件、PDF文档、Word、Excel、PPT等文档内容导入Elasticsearch。比如:将《深入理解Elasticsearch》这边书导入ES,而这边书的全文内容被识别后的大小可能为3MB——5MB以上的字节。存入ES后是一个content字段,对这个co...

2018-06-09 14:57:47 1560

转载 51.Elasticsearch全文检索系统实现深入详解(Elasticsearch项目实战)

题记学习ES的童鞋,都有一个开发一个类似百度的搜索引擎的想法。当然功能不一定是百度、360、谷歌传统的搜索引擎那么强大。但是,能实现基本的全文检索、指定类型的检索、评分高低优先级排序等等。那么问题来了,该如何实现?需要什么技术呢?1、Elasticsearch全文检索系统效果图注:这张图是从网上down的,我已经实现了上述功能。  (不能截图,原因:你懂的!)2、Elasticsearch全文检索...

2018-06-09 14:57:10 1500

转载 50.干货 |《深入理解Elasticsearch》读书笔记

题记由于之前已经梳理过Elasticsearch基础概念且在项目中实战过Elasticsearch的增删改查、聚类、排序等相关操作,对ES算是有了一定的认知。但是,仍然对于一些底层的原理认知模糊,特买来《深入理解Elasticsearch》过了一遍,将书中一些细节知识点结合官网文档梳理如下。1——4章偏应用,跟着敲一遍代码基本就能理解原理。 5——9章偏理论一些。 第5章 分布式索引架构1、如何选...

2018-06-09 14:57:02 234

转载 49.Elasticsearch实战——全文检索架构设计

1、题记近几年,Elasticsearch(以下简称ES)作为开源的搜索引擎已经在国内得到越来越多的应用推广,在日志分析领域应用场景尤为广泛。传统的数据库Mysql、Oracle或者非关系型数据库Mongo作为基础存储的企业要想实现业务数据的全文检索,该如何实现呢?本文给出架构设计和实现原理。2、理清楚使用ES的初衷2.1 大数据背景下数据量的积累与数据应用疲软矛盾一直存在。大数据的风已经刮了几年...

2018-06-09 14:56:53 370

转载 48.lasticsearch全文检索实战小结——复盘我带的第二个项目(Elasticsearch实战篇)

一、项目概述这是一个被我称之为“没有枪、没有炮,硬着头皮自己造”的项目。项目是和其它公司合作的三个核心模块开发。 使用ES的目的是: 1)、采集数据、网站数据清洗后存入ES; 2)、对外提供精确检索、通配符检索、模糊检索、分词检索、全文检索接口等二次封装接口。二、项目架构 如上图所示,ES作为中间层,一方面存储数据清洗后存储的数据,另一方面对外提供插入、更新、删除、检索接口的。三、ES使用小结3....

2018-06-09 14:56:43 1619

转载 47.Elasticsearch的使用场景深入详解(Elasticsearch实战篇)

了解了ES的使用场景,ES的研究、使用、推广才更有价值和意义。1、场景—:使用Elasticsearch作为主要的后端传统项目中,搜索引擎是部署在成熟的数据存储的顶部,以提供快速且相关的搜索能力。这是因为早期的搜索引擎不能提供耐用的​​存储或其他经常需要的功能,如统计。  Elasticsearch是提供持久存储、统计等多项功能的现代搜索引擎。 如果你开始一个新项目,我们建议您考虑使用Elasti...

2018-06-09 14:56:14 852

转载 46.Elasticsearch6.2.2 X-Pack部署及使用详解

X-Pack已经开源,预计Elasticsearch6.3版本会全面集成,不再收费。 赶紧体验一下强大的X-pack吧!1、 X-Pack 概览X-Pack 简介 1)利用 X-Pack 拓展可能性。 X-Pack 是集成了多种便捷功能的单个插件 — security、alerting、monitoring、reporting、graph 探索和 machine learning — 您可以在 E...

2018-06-09 14:56:07 1549

转载 45.elasticsearch性能测试工具rally

题记elasticsearch性能测试研究了很久,自己想过通过批量导入数据,然后记录时间,统计CPU、内存等变化,计算得出某个性能指标。但显然,数据量起伏不定,非常不准确。 研究发现,github上提供了rally作为elasticsearch的性能测试工具,较好的解决了es性能测试问题。1、esrally功能:es的性能测试工具。esrally不支持windows版本,目前只支持Linux和Ma...

2018-06-09 14:55:42 749

转载 45.esrally性能分析结果图形化展示

0、前提安装elasticsearch的最新版本,目前是2.3.4版本。 elsticsearch新增扮演的角色是:rally分析结果会存储到elasticsearch。1、运行esrally 高级配置模式高级配置模式和普通模式的区别:普通模式只需要配置jdk的环境变量路径。 而高级模式,需要配置:当前本机已安装elasticsearch的监听端口以及ES配置的主机名称。高级配置模式详情:[ela...

2018-06-09 14:54:47 870

转载 实时数据产品实践——美团大交通战场沙盘

背景 大数据时代,数据的重要性不言而喻,尤其对于互联网公司,随着业务的快速变化,商业模式的不断创新、用户体验个性化、实时化需求日益突出,海量数据实时处理在商业方面的需求越来越大。如何通过数据快速分析出用户的行为,以便做出准确的决策,越来越体现一个公司的价值。现阶段对于实时数据的建设比较单一,主要存在以下问题:实时仓库建设不足,维度及指标不够丰富,无法快速满足不同业务需求。实时数据和离线数据对比...

2018-06-02 17:12:16 2755

转载 Spark Streaming + ES构建美团App异常监控平台

如果在使用App时遇到闪退,你可能会选择卸载App、到应用商店怒斥开发者等方式来表达不满。但App开发者也同样感到头疼,因为App Crash(崩溃)可能意味着:用户流失、营收下滑。为了降低崩溃率,进而提升App质量,App开发团队需要实时地监控App异常。一旦发现严重问题,及时进行热修复,从而把损失降到最低。App异常监控平台,就是将这个方法服务化。本篇以核心需求为中心,逐一展开介绍,如何使用S...

2018-06-02 16:42:13 780

转载 Spark性能优化:数据倾斜调优

前言   继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 1.数据倾斜调优 调优概述      有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差...

2018-06-02 16:23:13 498

转载 基于ubuntu14.04的ambari安装及集群部署

第一节. Ambari简介Ambari跟Hadoop等开源软件一样,也是Apache Software Foundation中的一个项目,并且是顶级项目。目前最新的发布版本是2.4.1。就Ambari的作用来说,就是创建、管理、监视Hadoop的集群,但是这里的Hadoop是广义,指的是Hadoop整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper等,而并不仅是特指Hadoop...

2018-05-25 13:58:43 1150 1

转载 美团点评 spark性能优化指南-高级篇

前言:最近开始玩spark,公司分享了一些不错的spark性能优化学习,故在此分享:http://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述有的时候,...

2018-05-21 22:32:45 731

转载 美团Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、...

2018-05-21 22:31:39 200

转载 Spark在美团的实践

前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。 美团最初的数据处理以Hive SQL为主,底层计算引擎为Ma...

2018-05-21 22:23:13 172

转载 43.Elasticsearch索引迁移的四种方式

本文主要讲解Elasticsearch下实现索引迁移的几种方式。0、引言将ES中的索引拷贝到其他ES中,或者将ES整体迁移,研究发现有两个开源的工具:elaticserch-dump和 Elasticsearch-Exporter。 除此之外,logstash在索引同步、迁移方面的作用也很大。 两工具及logstash实现迁移的介绍、安装、使用、验证效果等展示如下:1、elasticsearch-...

2018-05-07 09:29:24 1422 3

转载 42.Elasticsearch Java API深入详解

0、题记之前Elasticsearch的应用比较多,但大多集中在关系型、非关系型数据库与Elasticsearch之间的同步。以上内容完成了Elasticsearch所需要的基础数据量的供给。但想要在海量的数据中找到和自己相关的业务数据,实现对已有的数据实现全文检索、分类统计等功能并应用到业务系统中,必须借助Java API来实现。1、Elasticsearch Java API 概览Elasti...

2018-05-07 09:28:22 195

转载 41.Elasticsearch Jest实战深入详解

以Jest为例,假设我们之前没有用过Jest,对Jest的认知,需要经历的过程: 步骤1:Jest是什么?能解决什么问题? 步骤2:Jest的优势是什么?为什么会出现? 步骤3:Jest如何安装与使用? 步骤4:Jest的样例Demo&实战。本文,就带你从认知的角度,一步步学会使用Jest。1、Jest介绍Jest是Elasticsearch 的Java Http Rest 客户端。Ela...

2018-05-07 09:28:10 858

转载 Spark快速入门之SBT安装

安装sbt本文方法有些繁琐,可以查看github最新更新:用sbt编译spark源码linux版本:CentOS6.7sbt: 0.13.9123Spark中没有自带sbt,需要手动安装sbt,我的方法是下载sbt-launch.jar,然后将源改为国内源(aliyun),我选择将sbt安装在/usr/local/sbt中。$sudo mkdir /usr/local/sbt$sudo...

2018-05-07 09:27:46 473

转载 40.Elasticsearch聚合优化 | 聚合速度提升5倍(lasitcsearch聚合进阶)

1、聚合为什么慢?大多数时候对单个字段的聚合查询还是非常快的, 但是当需要同时聚合多个字段时,就可能会产生大量的分组,最终结果就是占用 es 大量内存,从而导致 OOM 的情况发生。 实践应用发现,以下情况都会比较慢: 1)待聚合文档数比较多(千万、亿、十亿甚至更多); 2)聚合条件比较复杂(多重条件聚合); 3)全量聚合(翻页的场景用)。2、聚合优化方案探讨优化方案一:默认深度优先聚合改为广度优...

2018-05-02 17:18:57 652

转载 38.Elasticsearch聚合后分页深入详解(lasitcsearch聚合进阶)

1、Elasticsearch支持聚合后分页吗,为什么?不支持,看看Elasticsearch员工如何解读。   这个问题,2014年在github上有很长的讨论。究其为什么ES不支持聚合后分页?可概括如下: 1)性能角度——聚合分页会在大量的记录中产生性能问题。 2)正确性角度——聚合的文档计数不准确。 所以奇怪的事情可能会发生,如第二页的第一项具有比第一页的最后一个元素更高的计数。具体为什么会...

2018-05-02 17:18:32 359

转载 37.Elasticsearch聚合深入详解——对比Mysql实现(lasitcsearch聚合进阶)

聚合认知前提桶(Buckets)——满足特定条件的文档的集合 指标(Metrics)——对桶内的文档进行统计计算SELECT COUNT(color) FROM table GROUP BY colorCOUNT(color) 相当于指标。 GROUP BY color 相当于桶。一、聚合起步1、创建索引1.1 创建索引DSL实现put carsPOST /cars/transactions/_...

2018-05-02 17:18:06 146

转载 36.Elasticsearch实战 | match_phrase搜不出来,怎么办(Elasticsearch检索进阶)

1、问题抛出某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。 举例:title=公路局正在治理解放大道路面积水问题。输入关键词:道路,能否搜索到这个document呢? 实际应用中可能需要: 1)检索关键词”理解”、”解放”、”道路”、“理解放大”,都能搜出这篇文档。 2)单个的字拆分“治”、“水”太多干扰,不要被检索出来。 3)待检索的词不在...

2018-05-02 17:15:55 392

转载 43.Elasticsearch自定义脚本完成性能测试

1、ES性能测试要求: 1)完成ES并发100次性能测试; 2)统计得出访问时间结果值。2、脚本实现#!/bin/shKEYWORDS_TXT="./keywords.txt"cat /dev/null > ./rst.txtecho "beginTime=`date`"cat $KEYWORDS_TXT | while read linedoecho "line=$lin...

2018-05-02 17:15:03 304

转载 44.esrally性能测试原理

1. 前提esrally的运行不会影响当前系统elasticsearch的一切正常业务。2. 性能测试原理大致步骤概括如下:第一步:安装esrally,耗时会半小时到1个小时之间。主要完成esrally必要组件安装,更多的是elasticsearch的安装。elasticsearch安装的两种方式:方式一:最常用的安装方法,源码安装。只需要运行esrally,等价于运行:esrally race ...

2018-05-02 17:14:38 587

转载 35.必须知道的23个最有用的Elasticseaerch检索技巧(Elasticsearch检索进阶)

题记本文详细论述了Elasticsearch全文检索、指定字段检索实战技巧,并提供了详尽的源码举例。是不可多得学习&实战资料。0、前言为了讲解不同类型ES检索,我们将要对包含以下类型的文档集合进行检索: 1. title 标题; 2. authors 作者; 3. summary 摘要; 4. release data 发布日期; 5. number of reviews...

2018-05-02 17:14:14 176

转载 34.一张图理清楚关系型/非关系型数据库与Elasticsearch同步(ES同步小结)

题记ES除了做TB级日志分析外,越来越多的被企业用来用作数据存储。但是,传统企业里面,数据存在关系型数据库Mysql,oracle中,或者存储在非关系型数据库Mongo中。如何处理业务数据的时候,将Mysql/oracle/mongo中的数据同步到ES中,然后对已有的数据进行全文检索?这些,就是本篇要思考和解决的问题。1、关系型&非关系型数据库与ES如何同步?少废话,直接上实践过的结果。 ...

2018-05-02 17:11:19 654

转载 33.如何将不同类型数据导入Elaticsearch中(ES同步小结)

题记Elaticsearch的原理明白了以后,手头有很多不同类型的数据,如: 1)单条数据,如程序中自己构造的JSON格式数据; 2)符合Elasticsearch索引规范的批量数据; 3)日志文件,格式*.log; 4)结构化数据,存储在mysql、oracle等关系型数据库中; 5)非结构化数据,存储在mongo中; 如何将这些数据导入到Elasticsearch中呢?接下来,本文将逐个介绍。...

2018-05-02 17:11:04 902

转载 32.logstash实现日志文件同步到elasticsearch(ES文件同步)

引言:之前博文介绍过了mysql/oracle与ES之间的同步机制。而logstash最初始的日志同步功能还没有介绍。本文就logstash同步日志到ES做下详细解读。1、目的:将本地磁盘存储的日志文件同步(全量同步、实时增量同步)到ES中。 2、源文件:[root@5b9dbaaa148a test_log]# ll-rwxrwxrwx 1 root root 170 Jul 5 08:02 ...

2018-05-02 17:10:11 2892

转载 31.Elasticsearch批量导入本地Json文件Java实现(ES文件同步)

题记产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。而ES支持的入库格式,json格式数据会相对方便些。本文主要介绍,如何将格式化的Json文件批量插入到ES中。1、需提前做的工作1)设计好索引以及Mapping;Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。12)Java程序中...

2018-04-30 14:08:10 3558

转载 30.kafka数据同步Elasticsearch深入详解(ES与Kafka同步)

1、kafka同步到Elasticsearch方式?目前已知常用的方式有四种: 1)logstash_input_kafka插件; 缺点:不稳定(ES中文社区讨论) 2)spark stream同步; 缺点:太庞大 3)kafka connector同步; 4)自写程序读取、解析、写入  本文主要基于kafka connector实现kafka到Elasticsearch全量、增量同步。2、从co...

2018-04-30 14:07:53 16523

转载 29.mongo-connector实现MongoDB与elasticsearch实时同步(ES与非关系型数据库同步)

引言:验证表明:mongo-connector工具支持MongoDB与ES之间的实时增insert、删delete、改update操作。 对于历史数据,mongo-connector工具不能同步到ES中,根因是本身工具不支持(初步界定),还是没有这种场景,待查(进一步研究后再更新)。1. mongo-connector 地址:https://github.com/mongodb-labs/mong...

2018-04-30 14:07:34 272

转载 28.logstash-out-mongodb实现elasticsearch到Mongodb的数据同步(ES与非关系型数据库同步)

本文主要实现将Elasticsearch中的索引数据Index同步到Mongodb中的集合collection中。0、前提1)已经安装好源数据库:elasticsearch V2.X; 2)已经安装好目的数据库:Mongodb; 3)已经安装好logstash及相关插件logstash-output-mongodbGoogle、Statckoverflow上充斥着mongdb到elasticsea...

2018-04-30 14:07:15 555

转载 27.logstash-output-mongodb实现Mysql到Mongodb数据同步(ES与非关系型数据库同步)

本文主要讲解如何通过logstash-output-mongodb插件实现Mysql与Mongodb数据的同步。源数据存储在Mysql,目标数据库为非关系型数据库Mongodb。0、前提1)已经安装好源数据库:Mysql; 2)已经安装好目的数据库:Mongodb; 3)已经安装好logstash及相关插件logstash-output-mongodb 安装步骤参考:http://blog.csd...

2018-04-30 14:06:58 307

转载 26.logstash_output_mongodb插件用途及安装(ES与非关系型数据库同步)

0、logstash-output-mongodb用途Writes events to MongoDB,也就是向mongodb里面写入数据。 来源可以是:jdbc类的Mysql、oracle关系型数据库;也可以是Elasticsearch等。 后续的同步应用中会用到该插件,所以单独列出来。并且,默认logstash不安装该插件,需要手动安装。1、logstash_output_mongodb的安装...

2018-04-30 14:06:42 269

转载 20.elasticsearch-jdbc实现MySQL同步到ElasticSearch(ES与关系型数据库同步)

1.如何实现mysql与elasticsearch的数据同步?逐条转换为json显然不合适,需要借助第三方工具或者自己实现。核心功能点:同步增、删、改、查同步。2、mysql与elasticsearch同步的方法有哪些?优缺点对比?目前该领域比较牛的插件有:1)、elasticsearch-jdbc,严格意义上它已经不是第三方插件。已经成为独立的第三方工具。https://github.com/j...

2018-04-30 14:06:24 4221

转载 21.go-mysql-elasticsearch实现mysql 与elasticsearch实时同步(ES与关系型数据库同步)

引言:go-mysql-elasticsearch 是国内作者开发的一款插件。测试表明:该插件优点:能实现同步增、删、改、查操作。不足之处(待完善的地方): 1、仍处理开发、相对不稳定阶段; 2、没有日志,不便于排查问题及查看同步结果。 本文深入详解了插件的安装、使用、增删改查同步测试。1. go-mysql-elasticsearch 插件安装步骤1:安装goyum install go步骤2:...

2018-04-30 14:06:02 2337 3

转载 19.logstash-input-jdbc实现mysql 与elasticsearch实时同步(ES与关系型数据库同步)

引言:elasticsearch 的出现使得我们的存储、检索数据更快捷、方便。但很多情况下,我们的需求是:现在的数据存储在mysql、oracle等关系型传统数据库中,如何尽量不改变原有数据库表结构,将这些数据的insert,update,delete操作结果实时同步到elasticsearch(简称ES)呢? 本文基于以上需求点展开实战讨论。1.对delete操作的实时同步泼冷水到目前为止,所有...

2018-04-30 14:05:21 579

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除