6 GhostStories

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

《Hadoop权威指南》书摘-关于YARN

转载请注明出处 独立博客:http://wangnan.tech 简书:http://www.jianshu.com/u/244399b1d776** 知乎:https://zhuanlan.zhihu.com/c_121958856简介Apache YARN (Yet Another Resource Negotiaor的缩写)是Hadoop的集群资源管理系统,YARN被引入...

2018-07-27 15:46:13

《Hadoop权威指南》书摘-HDFS概述

转载请注明出处 独立博客:http://wangnan.tech 简书:http://www.jianshu.com/u/244399b1d776** 知乎:https://zhuanlan.zhihu.com/c_121958856设计超大文件,已经有储存PB级数据的Hadoop集群了流式数据访问,一次写入,多次读取商用硬件 不需要运行在昂贵的硬件上低时间延迟的数据访...

2018-07-27 15:45:22

《Hadoop权威指南》书摘-MapReduce概述

转载请注明出处 独立博客:http://wangnan.tech 简书:http://www.jianshu.com/u/244399b1d776** 知乎:https://zhuanlan.zhihu.com/c_121958856MapReduce是一种可用于数据处理的编程模型,MapReduce程序本质上是并行运行的,因此可以将大规模数据分析任务分发给任何一个拥有足够多机器的...

2018-07-27 15:44:34

《Hadoop权威指南》书摘-初识Hadoop

转载请注明出处 独立博客:http://wangnan.tech 简书:http://www.jianshu.com/u/244399b1d776** 知乎:https://zhuanlan.zhihu.com/c_121958856数据!数据!我们生活在一个数据爆炸的时代,我们必须想办法好好的的储存和分析这些数据数据储存和分析解决硬件故障:使用副本解决从无数个...

2018-07-27 15:43:31

ES官方调优指南翻译

原文:https://www.elastic.co/guide/en/elasticsearch/reference/current/how-to.html转载请注明出处:http://wangnan.tech或简书:http://www.jianshu.com/u/244399b1d776ES发布时带有的默认值,可为es的开箱即用带来很好的体验。全文搜索、高亮、聚合、索引...

2018-02-08 11:40:49

Lucene学习笔记

概要: 1. 全文检索的原理和基本概念(铺垫) 2. Lucene简介,索引文档和检索文档的过程(主要) 3. Lucene 相似度评分算法(拓展)全文检索原理(铺垫)数据分类生活中的数据总体分为三种: - 结构化数据,固定格式和长度,如数据库数据,元数据等 - 非结构化数据,无固定格式和长度,如邮件,word文档,商品描述信息,非结构...

2018-02-08 11:39:29

Elasticsearch性能优化

目录批量提交gateway集群状态维护缓存字段数据curatorprofiler批量提交在 CRUD 章节,我们已经知道 ES 的数据写入是如何操作的了。喜欢自己动手的读者可能已经迫不及待的自己写了程序开始往 ES 里写数据做测试。这时候大家会发现:程序的运行速度非常一般,即使 ES 服务运行在本机,一秒钟大概也就能写入几百条数据。这种速度显然不...

2018-02-08 11:38:46

Elasticsearch数据接口用例

目录增删改查搜索请求scriptreindex增删改查增删改查是数据库的基础操作方法。ES 虽然不是数据库,但是很多场合下,都被人们当做一个文档型 NoSQL 数据库在使用,原因自然是因为在接口和分布式架构层面的相似性。虽然在 Elastic Stack 场景下,数据的写入和查询,分别由 Logstash 和 Kibana 代劳,作为测试、调研和排错时的基...

2018-02-08 11:37:44

Elasticsearch架构原理

架构原理本书作为 Elastic Stack 指南,关注于 Elasticsearch 在日志和数据分析场景的应用,并不打算对底层的 Lucene 原理或者 Java 编程做详细的介绍,但是 Elasticsearch 层面上的一些架构设计,对我们做性能调优,故障处理,具有非常重要的影响。所以,作为 ES 部分的起始章节,先从数据流向和分布的层面,介绍一下 ES 的工作原理,以及相关的可控...

2018-02-08 11:36:53

logstash用kafka作为输入源

安装依赖:jdk7及以上版本 Logstash版本:2.3.4步骤: 1. 官网下载tar.gz包链接地址:链接 2. 扔到机器上解压tar zxvf logstash-2.3.4.tar.gz3.安装kafka input插件,顺便把output也安装了bin/logstash-plugin install logstash-outpu...

2018-02-08 11:35:26

Logstash输出到Elasticsearch笔记

output配置中elasticsearch配置actionindex 给一个文档建立索引delete 通过id值删除一个文档(这个action需要指定一个id值)create 插入一条文档信息,如果这条文档信息在索引中已经存在,那么本次插入工作失败update 通过id值更新一个文档。更新有个特殊的案例upsert,如果被更新的文档还不存在,那么就会用到...

2018-02-08 11:34:44

Logstash中的Grok正则捕获

概述Grok 是 Logstash 最重要的插件。你可以在 grok 里预定义好命名正则表达式Grok 支持把预定义的 grok 表达式 写入到文件中,官方提供的预定义 grok 表达式见:https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns。grok的语法格式为 %{...

2018-02-08 11:23:09

Logstash学习笔记

背景先介绍下ELK stackElasticsearch Elasticsearch 是基于 JSON 的分布式搜索和分析引擎,专为实现水平扩展、高可用和管理便捷性而设计LogstashLogstash 是动态数据收集管道,拥有可扩展的插件生态系统,能够与 Elasticsearch 产生强大的协同作用。KibanaKibana 能够以图表的形式呈现数据...

2018-02-08 11:22:19

高并发系统限流设计

概述高并发系统时有三把利器用来保护系统:缓存、降级和限流,缓存的目的是提升系统访问速度和增大系统能处理的容量,降级是当服务出问题或者影响到核心流程的性能则需要暂时屏蔽掉,待高峰或者问题解决后再打开,而有些场景并不能用缓存和降级来解决,比如稀缺资源(秒杀、抢购)、写服务(如评论、下单)、频繁的复杂查询(评论的最后几页),因此需有一种手段来限制这些场景的并发/请求量,即限流...

2018-02-08 11:21:16

Git rebase详细解析

merge和rebase什么关系gitrebase和gitmerge做的事其实是一样的。它们都被设计来将一个分支的更改并入另一个分支,只不过方式有些不同。merge命令示例gitcheckoutfeaturegitmergemaster这样feature分支中新的合并提交(mergecommit)将两个分支的历史连在了一起Me...

2018-02-08 11:20:37

企业级API网关的设计

背景是出现在系统边界上的一个面向API的、串行集中式的强管控服务API网关的流行,源于近几年来,移动应用与企业间互联需求的兴起。移动应用、企业互联,使得后台服务支持的对象,从以前单一的Web应用,扩展到多种使用场景,且每种使用场景对后台服务的要求都不尽相同。这不仅增加了后台服务的响应量,还增加了后台服务的复杂性。随着微服务架构概念的提出,API网关成为了微服务架构的一个标配...

2018-02-08 11:19:57

为什么要用 HTTPS

前言HTTP 是一种超文本传输协议,它是无状态的、简单快速的、基于 TCP 的可靠传输协议。缺点: HTTP 是明文传输的,这就造成了很大的安全隐患让自己变得更安全,从源头来控制风险。这就诞生了 HTTPS 协议HTTP 三大风险:窃听风险(eavesdropping):第三方可以获知通信内容。篡改风险(tampering):第三方可以修改通信内容。...

2018-02-08 11:19:05

ES中的分析器和IK分词器插件

一些概念Token(词元)全文搜索引擎会用某种算法对要建索引的文档进行分析, 从文档中提取出若干Tokenizer(分词器)Tokenizer(分词器)这些算法叫做Tokenizer(分词器)Token Filter(词元处理器)这些Token会被进一步处理, 比如转成小写等, 这些处理算法被称为TokenFilter(词元处理器)T...

2018-02-08 11:18:03

ES5.x部署遇到的问题汇总

问题一 can not run elasticsearch as root不能以root用户启动ES服务器非要以root用户运行,对于5.X,在config/jvm.options配置文件中,添加 -Des.insecure.allow.root=true问题二 max virtual memory areas vm.max_map_...

2018-02-08 11:16:47

微服务架构解析(附思维导图)

思维导图 介绍微服务架构(Microservice Architecture)是一种架构概念旨在通过将功能分解到各个离散的服务中以实现对解决方案的解耦将功能分解到离散的各个服务当中,从而降低系统的耦合性,并提供更加灵活的服务支持。传统开发模式和微服务的区别优点开发简单,集中式管理基本不会重复开发功能都在本地,没有分布式的管理和调用消耗...

2018-02-08 11:16:00

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!