cm_chenmin-CSDN博客

原创 Elasticsearch常用运维命令收集

elasticsearch运维常用命令elasticsearch内存设置：export ES_HEAP_SIZE=10g或者启动的时候设置参数，确保Xmx和Xms大小相等:./bin/elasticsearch -Xmx10g -Xms10g启动进程：./elasticsearch -d查看es进程：ps -ef | grep ela

2017-07-06 15:41:34 6236

转载攻破JAVA NIO技术壁垒

本文出自：http://blog.csdn.net/u013256816/article/details/51457215现在使用NIO的场景越来越多，很多网上的技术框架或多或少的使用NIO技术，譬如Tomcat，Jetty。学习和掌握NIO技术已经不是一个Java攻城狮的加分技能，而是一个必备技能。再者，现在互联网的面试中上点level的都会涉及一下NIO或者AIO的问题（AIO下次再讲

2016-12-08 10:01:50 644

转载 MapReduce Shuffle原理与 Spark Shuffle原理

MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射

2016-11-26 20:15:03 1476

转载 Java NIO 系列教程

Java NIO 概述（本部分原文链接，作者：Jakob Jenkov，译者：airu，校对：丁一） Java NIO 由以下几个核心部分组成： ChannelsBuffersSelectors虽然Java NIO 中除此之外还有很多类和组件，但在我看来，Channel，Buffer 和 Selector 构成了核心的API。其它组件，如Pipe和FileLock

2016-11-26 20:14:10 387

原创 JDK的命令行工具

jps JVM Process Status Tool，显示指定系统内所有HotSpot虚拟机进程选项：-q 只输出LVMID，省略主类的名称-m 输出虚拟机进程启动时传递给主类的main()函数的参数-l 输出主类的全名，如果进程执行的是jar包，输出jar路径-v 输出虚拟机进程启动时JVM参数jstatJVM Statistics Monitoring

2016-11-25 17:48:34 444

转载使用基于Apache Spark的随机森林方法预测贷款风险

在本文中，我将向大家介绍如何使用Apache Spark的spark.ml库中的随机森林算法来对银行信用贷款的风险做分类预测。Spark的spark.ml库基于DataFrame，它提供了大量的接口，帮助用户创建和调优机器学习工作流。结合dataframe使用spark.ml，能够实现模型的智能优化，从而提升模型效果。分类算法分类算法是一类监督式机器学习算法，它根据已知标签的样本（

2016-11-22 17:42:45 1335

转载 Hadoop中两表JOIN的处理方法

本文转自：http://dongxicheng.org/mapreduce/hadoop-join-two-tables/1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给

2016-11-09 21:53:39 1724

原创 spark机器学习-聚类

聚类算法是一种无监督学习任务，用于将对象分到具有高度相似性的聚类中，聚类算法的思想简单的说就是物以类聚的思想，相同性质的点在空间中表现的较为紧密和接近，主要用于数据探索与异常检测，最常用的一种聚类算法是K均值(K-means)聚类算法算法原理kmeans的计算方法如下：1 选取k个中心点2 遍历所有数据，将每个数据划分到最近的中心点中3 计算每个聚类的平均值，并作为新的中心

2016-11-09 21:28:46 1645

原创关系型数据库的事务隔离级别

一、事务的4个基本特征事务ACID特性，ACID就是：原子性(Atomicity )、一致性( Consistency )、隔离性或独立性( Isolation)和持久性(Durabilily)原子性（Atomicity）：事务作为一个整体被执行，包含在其中的对数据库的操作要么全部被执行，要么都不执行。一致性（Consistency）：事务应确保数据库的状态从一个一致状态转变为另一个

2016-11-09 21:11:46 707

原创流式大数据处理的三种框架：Storm，Spark和Flink

storm、spark streaming、flink都是开源的分布式系统，具有低延迟、可扩展和容错性诸多优点，允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（

2016-11-07 21:48:06 39786 1

转载 HBase的RowKey设计

本文出自：http://dxer.github.io/2016/06/16/hbase_rowkey/?utm_source=tuicool&utm_medium=referralHBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。

2016-11-04 11:43:27 527

转载 HBase最佳实践－内存规划

本文出自：http://hbasefly.com/2016/06/18/hbase-practise-ram/线上HBase集群应该如何进行参数配置？这其实是很多HBase初学者在实践环节都可能会遇到的问题，有些人会选择默认配置，有些人会选择其他公司的推荐配置；诚然，这样的参数配置在大多数情况下都能正常工作，但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验，针对不同应用场景

2016-11-01 13:19:07 9892

原创 Spark Streaming与Kafka集成编程

因为Kafka在版本0.8与0.10之间引入的新的消费者API，因此有二套相应的相互独立的Spark Streaming与Kafka集成包可供选择使用，二者的特征比较如下：Kafka broker version 0.8.2.1 or higher：针对这个版本，有二种实现：有接收器线程(Receivers)基于Kafka高等级消费者API和无接收器线程(Receive

2016-10-31 23:22:30 1432

转载常用Linux服务器性能检测shell命令

概述通过执行以下命令，可以在1分钟内对系统资源使用情况有个大致的了解。uptimedmesg | tailvmstat 1mpstat -P ALL 1pidstat 1iostat -xz 1free -msar -n DEV 1sar -n TCP,ETCP 1top其中一些命令需要安装sysstat包，有一些由procps包提供

2016-10-28 16:15:23 2814

原创 scala-高阶函数

作为值的函数在变量中存放函数import scala.math._val num = 3.14val fun = ceil _ //ceil函数后的_意味着确实指的是这个函数，而不是忘记了给它传参数fun(num)//4.0 调用函数Array(3.14,1.42,2.0).map(fun)//Array(4.0,2.0,3.0) 做为参数传递给另一个函数匿名函

2016-10-27 23:12:07 392

原创布隆过滤器及Java实现

布隆过滤器实际上是由一个很长的二进制向量和一系列随机映射函数组成，布隆过滤器用于检索一个元素是否在一个集合中优点布隆过滤器具有空间和时间优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash 函数相互之间没有关系，方便由硬件并行实现。布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势缺点存在一定误算率，即Bloom Filter报告某一元

2016-10-27 18:05:50 1084

转载人人都该懂点儿TCP

原文地址：http://geek.csdn.net/news/detail/44474即使你的工作也许不需要对TCP了如指掌，也不需要去了解具体的TCP/IP实例。你也应该懂一些基本的TCP知识，本文会告诉你为什么。我以前在Recurse Center工作的时候，曾经用Python写过一个TCP栈（还写了一篇博文用Python实现TCP栈可以学到什么）。这是很有意思的一

2016-10-27 17:52:55 313

转载小故事：架构师需要做什么？

原文地址：http://geek.csdn.net/news/detail/55379我想要成为一名软件架构师。这是年轻软件开发者很好的选择。我想要带领团队，并在数据库与框架、webserver等方面作出重要的决策。噢，那你根本就不想成为软件架构师。我当然想了，我想要成为重要决策的制定者。那很好，不过你列出的内容中并不包含重要的决策，这些都是

2016-10-27 17:49:04 266

原创 storm与spark streaming反压机制

因特殊业务场景，如大促、秒杀活动与突发热点事情等业务流量在短时间内剧增，形成巨大的流量毛刺，数据流入的速度远高于数据处理的速度，对流处理系统构成巨大的负载压力，如果不能正确处理，可能导致集群资源耗尽最终集群崩溃，因此有效的反压机制(backpressure)对保障流处理系统的稳定至关重要。Storm和Spark Streaming都提供了反压机制，实现各不相同对于开启了acker机制的

2016-10-26 17:37:55 5090

转载搜索引擎-倒排索引基础知识

1.单词——文档矩阵单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型，图3-1展示了其含义。图3-1的每列代表一个文档，每行代表一个单词，打对勾的位置代表包含关系。图3-1

2016-10-26 17:25:42 268

原创 scala-特质(trait)

scala特质可以同时拥有抽象方法和具体方法，类可以实现多个特质当接口使用的特质trait Logger{ def log(msg:String)//这是个抽象方法，特质中未被实现的方法默认为抽象方法，无需使用abstract}//子类实现特质class ConsoleLogger extends Logger{//用extends而不是implements def log(

2016-10-26 10:05:05 302

原创 scala-类与对象

scala定义类：class Counter{ private var value = 0 //你必须初始化字段 def increment(){ value += 1}//方法默认是公有的}类有一个主构器和任意多的辅助构造器，类如果没有显示定义一个主构造器则自动拥有一个无参的主构造器；辅助构造器的名称为this,每一个辅助构造器都必须以一个先前定义的其它辅助构造器或主构造器调用

2016-10-25 22:26:50 398

原创 Storm的ACK机制与编码实例

Storm为了保证每条数据成功被处理,实现至少一次语义，通过Storm的ACK机制可以对spout产生的每一个tuple进行跟踪;tuple处理成功是指这个Tuple以及这个Tuple产生的所有子Tuple都被成功处理, 由每一个处理bolt通过OutputCollector的方法ack(tuple)来告知storm当前bolt处理成功，最终调用spout的ack方法；处理失败是指这个Tu

2016-10-25 17:46:10 6917 1

原创常用工具整理

收集整理一些常用工具，目前只是雏形，后面慢慢扩展与丰富内容负载均衡：软负载均衡：LVS硬负载均衡：F5网络应用程序开源框架与工具：java：nettyc++:libevent通讯协议：TCP、UDP、HTTP和WEBSOCKET数据协议：MQTT、JSON、SOAP和自定义二进制协议消息中间件：ZeroMQ、Kafka、Rabbi

2016-10-24 16:52:11 414

原创 scala-文件IO

scala读取文件：import scala.io.Sourceval source = Source.fromFile("myfile.txt","UTF-8")//第一个参数可以是字符串或者是java.io.File;第二个参数可选val lineIterator = source.getLinesfor (l <- lineIterator) print l 可以用toArr

2016-10-21 11:11:09 404

原创 scala-正则表达式

构造一个Regex对象，用String类的r方法import scala.util.matching.Regexval numPattern = "[0-9]+".r如果正则表达式包含反斜杠或者引号的话，那么最好使用“原始”的字符串语法"""...""",如:val wsnumwsPattern = """\s+[0-9]+\s+""".rfindAllIn方法返回遍历所有的

2016-10-20 22:45:54 87

原创 hbase常用shell命令

转自：http://www.cnblogs.com/nexiyi/p/hbase_shell.html启动hbase shell bin/hbase shell查看服务器状态： hbase(main)> status查看hbase版本： hbase(main)> version1）查看有哪些表hbase(m

2016-10-19 11:21:44 1023

原创 HBase-建表语句

本文转自：http://www.th7.cn/db/nosql/201603/181519.shtml建表语句：create 'NewsClickFeedback',{NAME=>'Toutiao',VERSIONS=>1,BLOCKCACHE=>true,BLOOMFILTER=>'ROW',COMPRESSION=>'SNAPPY',TTL => ' 259200 '},{SP

2016-10-18 16:11:48 10374

原创 scala-映射map

构建一个不可变映射val scores = Map("Alice"->10,"Bob"->3,"Cindy"->8)构建一个可变映射val scores = scala.collection.mutable.Map("Alice"->10,"Bob"->3,"Cindy"->8)构建一个空映射val scores = new scala.collection.mutable.H

2016-10-15 08:25:47 2551

原创有些命令

一些杂琐的东西，记录一下，以后可能会用得上，另外以后遇到可以记录的可以追加在这里查找进程内最耗费CPU的线程：ps -Lfp pid #列出进程内所有线程 -L threads -f 所有full -p by process idps -mp pid -o THREAD,tid,timetop -Hp pid #找出进程内最耗CPU线程IDprintf "%x\n" ti

2016-10-14 22:28:59 554

原创 python多线程代码实例

今天因业务需求，写了一个python多线程处理数据的程序，记录下来，方便以后参考：#!/usr/bin/python'''coding=utf-8created on 20150525bossid.fy.mapping.itil.dic2611:171:video_p2p_pieces2125:82:live_pcclients1365:142:appnews_136514

2016-10-14 16:46:24 993

转载 Java 7之基础 - 强引用、弱引用、软引用、虚引用

本文转自：http://blog.csdn.net/mazhimazh/article/details/197524751、强引用（StrongReference）强引用是使用最普遍的引用。如果一个对象具有强引用，那垃圾回收器绝不会回收它。如下：[java] view plain copy print?

2016-10-14 15:36:34 157

原创 scala-数组

定长数组Array:定义数组例子：val nums = new Array[Int](10)val a = new Array[String](10)val s = Array("hello","world")s(0) = "Goodbye" //使用()而不是[]来访问元素变长数据：数组缓冲import scala.collection.mutable.Arr

2016-10-13 22:58:08 289

翻译 Storm vs Spark

翻译：http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streamingStorm是一个流处理框架同时能做批处理(Trident)Spark是一个批处理框架同时能做微批处理(Spark Streaming)Apache Storm二套流处理API：Storm内核(Spouts和Bolts).每次一条

2016-10-12 22:39:20 420

原创 hive建库建表与数据导入导出

hive建表：hive分内部表与外部表，创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。创建外部表：create EXTERNAL table IF NOT EXIS

2016-10-12 22:27:23 6170

原创 hive存储格式

TEXTFILE默认格式，行存储，导入数据时直接把数据文件拷贝到hdfs的hive表目录(hive location)，数据文件可先经过gzip等压缩，再导hive表(系统自动检查，执行查询时自动解压)，但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作.优点：数据加载快(load数据快)缺点：数据读取时磁盘开销大,即查询效率低SEQUENCEFILE

2016-10-12 22:24:11 415

原创 scala-for循环

for(i 让变量i遍历可以变量每个生成器都可以带一个守卫，以if开头的Boolean表达式:for(i 可以使用任意多的定义，引入可以在循环中使用的变量：for(i 如果for循环的循环体以yield开始，则该循环会构造出一个集合，每次迭代生成集合中的一个值：for(i 使用Breaks对象的break方法退出循环：import scala.util.cont

2016-10-11 22:52:37 401

原创 scala-基础

1.不带参数且不改变当前对象的Scala方法通常不使用圆括号，比如："Hello".distinct2.Scala没有提供++和--操作符，需要使用+=1 或者 -=13.在Scala中,_字符是通配符，类似于Java中的*,比如：import scala.math._,使用scala开头的包时，可以省略scala前缀，例如：import math._等同于import scala.m

2016-10-11 21:49:12 298

原创 flume从kafka导数据到hdfs

配置文件如下：flumetohdfs_agent.sources = source_from_kafkaflumetohdfs_agent.channels = mem_channelflumetohdfs_agent.sinks = hdfs_sink#auto.commit.enable = true## kerberos config ###flumetohdfs

2016-10-10 17:07:25 4794 1

原创 spark性能调优

1.数据序例化用Kryo序例化代替默认的java序例化，java序例化的优点是灵活，能序例化任何实现了接口java.io.Serializable的类；缺点是执行速度慢，序例化的结果占用字节数大；Kryo序例化速度快，序例化结果占用字节小(一般只有前者的十分之一)，缺点是不支持所有可序例化类型并且要求用户注册程序中用到的需要序例化的类型开启Kryo序例化：val conf = new

2016-10-08 16:53:30 408

VIM学习文档

空空如也