雪峰庙-CSDN博客

原创 [67] Add Binary

Given two binary strings, return their sum (also a binary string).The input strings are bothnon-emptyand contains only characters1or0.Example 1:Input: a = "11", b = "1"Output: "100"Exam...

2019-07-29 13:24:38 148

原创 idea maven的Dependencies出现红色波浪

解决方案：首先要确保本地存在对应的jar包，然后再注释相关依赖，最后恢复注释的配置，即可重新导入

2019-04-08 14:47:59 349

原创 MySQL学习笔记

MySQL服务器进程的默认名称为mysqld，而我们常用的MySQL客户端进程的默认名称为mysql启动MySQL服务端程序1. mysqld2. mysql_safe3. mysql.server start/stop客户端与服务端通信方式1. tcp/ip2.命名管道和共享内存3.Unix域套接字文件...

2019-03-10 20:51:19 197

原创期待2019，质变的一年

2018年的最后一天，对过去做个总结，对未来做个规划。 2018年，幸运的一年，收获的一年，当了父亲，有了小棉袄，非常开心，而且小棉袄很好带，很好玩，很爱笑，一逗就笑，给生活增添了不少乐趣，感恩女儿的到来。这一年中，重心基本放在了家里，所以工作上基本就是完成需求为主，并没有花经历进一步的研究，所以在年底的变动中比较被动，经历了一些挣扎，不过结果还算满意，也对人生有了思考，要走...

2018-12-31 18:36:48 287

原创 Java常见题面试总结

java面试题整理！CMS与G1？CMS包括四个过程：初始标记并发标记重新标记并发清除（步骤一和三stop the word）CMS收集器：一款以获取最短回收停顿时间为目标的收集器，是基于“标记-清除”算法实现的G1收集器：面向服务端应用的垃圾收集器，过程：初始标记；并发标记；最终标记；筛选回收。整体上看是“标记-整理”，局部看是“复制”，不会产生内存碎片。 Spri...

2018-12-28 21:11:28 186

原创 part -- JVM复习

jstack dump日志文件中的状态 DeadLock: 死锁，多个线程相互循环竞争资源，导致都无法释放资源的情况Runnable：线程获取CPU资源，运行代码逻辑Waiting on Condition : 等待某个资源，或者等待触发的条件。Blocked: 线程阻塞，失去资源，常见的情况就是等待资源超时。waiting for monitor entry: 等待...

2018-12-21 20:16:46 131

原创好好准备，2019更精彩

这个冬天有点冷，努力一把，让生活热起来！多线程 JVM Spring && SpringMVCSpring基础概念 https://blog.csdn.net/u013256816/article/details/51386182Spring AOP例子 https://www.cnblogs.com/cndota/p/61292...

2018-12-21 15:48:39 179

转载 Spark性能优化基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速

2016-05-02 16:56:08 502

转载如何基于Spark进行用户画像

问题导读：1.拿到数据我们怎么去做数据分析？2.在spark中怎么去做聚类分析？近期，comSysto公司分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历，为Spark等平台应用于数据科学领域提供了借鉴。主办方提供了一个包含5万个匿名驾驶员线路的数据集，竞赛的目的是根据路线研发出一个驾驶类型的算法类签名，来表征驾驶员的特征。例如，

2016-03-18 11:03:29 6957

转载淘宝秒杀系统内幕

导读：最初的秒杀系统的原型是淘宝详情上的定时上架功能，由于有些卖家为了吸引眼球，把价格压得很低。但这给的详情系统带来了很大压力，为了将这种突发流量隔离，才设计了秒杀系统，文章主要介绍大秒系统以及这种典型读数据的热点问题的解决思路和实践经验。一些数据大家还记得2013年的小米秒杀吗？三款小米手机各11万台开卖，走的都是大秒系统，3分钟后成为双十一第一家也是最快破亿的旗舰店。经过日志统计，

2016-03-13 12:45:20 14767 1

转载 java工程师成神之路

路漫漫其修远兮，吾将上下而求索。技术之路还有很长的路要走，关键要找到方向，知道重点，坚持下去。终将由一个小小的斗者，成为斗神。一、基础篇　　1.1 JVM　　1.1.1. Java内存模型，Java内存管理，Java堆和栈，垃圾回收http://www.jcp.org/en/jsr/detail?id=133http://ifeve.co

2016-03-13 12:43:54 1139

转载 HDFS追本溯源：租约，读写过程的容错处理及NN的主要数据结构

1. Lease 的机制：hdfs支持write-once-read-many，也就是说不支持并行写，那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease，对应到namenode中的LeaseManager，客户端的client name就作为一个lease的holder，即租约持有者。LeaseManag

2016-03-11 10:34:11 1105

转载 Spark map-side-join 关联优化

将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。如果其中有张表较小的话，我们则可以自己实现在 map

2016-03-11 09:32:03 324

转载总结2015之Spark篇：新生态系统的形成

2015年的Spark社区的进展实在是太快了，我发现1月份出版的一本参考书到现在已经有很多内容是过时的了。社区大踏步前行的同时，用户和应用案例也越来越多，应用行业越来越广泛。到年底了我们来梳理下Spark这快速发展的一年。先从全局有个认识，我尝试用三句话来概括下Spark最主要的变化，然后在接下来的篇幅选取一些重点内容展开。Spark生态系统渐趋完善。支持的外部数据源越来越多，

2016-01-12 21:28:44 933

虽然平时练习跑圈基本都是妥妥的，看考场的时候练车也刚刚过80分了（上坡定点边缘超出30厘米，侧方没有打灯），但是考试之前还是有点紧张，然后就安慰自己：驾照是全民都可以有的基础证书，不像高考之类的选拔性考试，所以不用担心难度，只要用心肯定能过的，只有不想过的，没有过不了的。然后顿时轻松了很多。万万没想到考试当天竟然下起了雨，由于平时练车时候没经历过这种天气，所以当遇到意外情况时顿时慌了神，然后就很遗

2016-01-12 10:07:32 2620 1

原创集群SSH无密钥配置

集群SSH无密钥配置对于主节点：1.安装SSHsudo apt-get install openssh-server2.生成密钥ssh-genkey -t rsa3.将公钥复制到文件cp id_rsa.pub authorized_keys4. 权限问题chmod 700 .ssh chmod 600 id_rsa chmod 600 id_rsa.pub chmod 644 auth

2015-12-26 14:26:28 649

原创 virtualbox虚拟机设置静态IP的桥接模式配置

virtualbox虚拟机设置静态IP的桥接模式配置-本博客主要是解决宿主机和虚拟机之间相互能ping通，并且浏览器输入ip地址可以打开，但是输入域名就无法显示的问题 - 首先查看宿主机的IP情况，cmd命令行输入ipconfig /all,尤其是IPv4地址和DNS服务器-然后按照上面得到的信息依次输入即可，网关也要参考宿主机的网关，之前有博客上面说是宿主机的IP，这个是错误的

2015-12-24 11:26:13 6218

原创 ubuntu 登陆时密码正确，却不进入桌面

出现登陆界面后，选择用户名，输入密码，然后登陆画面消失，一直卡在那里解决方法：ctrl+alt+f1 输入对应用户帐号和密码sudo rm -r .Xauthority*sudo reboot

2015-10-28 14:16:12 715

原创 Eclipse+CDT+MinGW 配置 C/C++ 开发环境

Eclipse+CDT+MinGW 配置 C/C++ 开发环境

2015-09-15 09:38:11 584

转载设计模式大全

原文章请见：http://blog.csdn.net/longronglin/article/details/1454315Longronglin之设计模式:Christopher Alexander说过：“每一个模式描述了一个在我们周围不断重复发生的问题，以及该问题的解决方案的核心。这样，你就能一次又一次地使用该方案而不必做重复劳动”。模式描述为：在一定环境中解决某一问题的方

2015-05-11 14:20:42 550

转载 C++ std::pair 与 std::make_pair

std::pair主要的作用是将两个数据组合成一个数据，两个数据可以是同一类型或者不同类型。例如std::pair 或者 std：：pair等。pair实质上是一个结构体，其主要的两个成员变量是first和second，这两个变量可以直接使用。初始化一个pair可以使用构造函数，也可以使用std::make_pair函数，make_pair函数的定义如下：template pair mak

2014-09-10 11:45:32 474

转载 hadoop2.2.0 伪分布环境配置

3、安装hadoop2.2将下载的hadoop2.2.tar.gz解压到一个目录，然后进行配置（cd $HADOOP_HME/etc/hadoop）：（1）编辑hodoop-env.sh，修改以下对应行为：[java] view plaincopyexport JAVA_HOME=/usr/lib/jvm/java-6-sun 注：

2014-07-22 14:02:39 484

原创 ava.net.BindException: Problem binding to [ubuntu-master:9000] java.net.BindException: 地址已在使用; For m

java.net.BindException: Problem binding to [ubuntu-master:9000] java.net.BindException: 地址已在使用; For more details see: http://wiki.apache.org/hadoop/BindException at org.apache.hadoop.net.NetUtil

2014-07-22 09:54:24 6479 1

转载 58同城电话号码识别核心算法

算法描述基于要识别的图像生成01二维数组pixarr将所有的模板读入内存将所有的特征模板读入内存将pixarr扫描一遍，去掉孤立点。(孤立点就是指其附近都是0的1点)找到首次出现1的那一行，记为top，以后就在(top--->top+18)行的范围内识别row=top col=0while(true) while(col列没出现1&&col col++

2014-07-12 09:41:03 1995

转载 Spark1.0.0 多语言编程之Scala实现

Scala作为Spark的原生语言，在开发上Spark应用程序上最大的优势是支持所有的功能、容易追踪bug等。试过几种开发工具，笔者还是觉得IntelliJ IDEA开发Scala程序比较方便，当然开发Spark 应用程序也一样。 Spark开发环境参见Spark1.0.0 开发环境快速搭建，本篇是对Spark1.0.0 多语言编程的需求进行scala实现。

2014-07-12 09:36:02 429

转载 Spark1.0.0 开发环境快速搭建

为了解析一些概念、解析一些架构、代码测试，搭建了一个实验平台，如下图所示：本实验平台是在一台物理机上搭建的，物理机的配置是16G内存，4核8线程CPU。平台的环境配置如下：机器名配置角色软件安装hadoop12G内存，双核hadoop：NN/DN Spark：Master/worker

2014-07-11 08:23:50 436

转载 mapreduce 多种输入

1.多路径输入1）FileInputFormat.addInputPath 多次调用加载不同路径FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs/path1"));FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs

2014-07-01 16:43:10 422

原创 wordcount出现错误Use GenericOptionsParser for parsing the arguments.

在yundong

2014-07-01 16:37:31 927

转载煮酒论数据——谈分布式测试体系构建

自谷歌提出云计算概念之后，大数据领域的发展就逐渐加速日新月异，云计算具体到实例，可以归纳为调度、均衡、容错、监控、运维等一整套操作海量数据的方案。有别于传统小规模或孤立体系产品，云计算生态圈存在错综复杂的系统级别关联，并行其中的不同架构和模块流转于超大规模的分布式软硬体资源中，很难划分出明显的界限。对于这样的产品体系，传统领域的测试方案要么逐渐失效，要么作用域缩减到仅能覆盖体系末端。为了保证大数据

2014-06-29 11:30:02 825

转载用Hadoop实现KMeans算法

在我们阅读的时候，我们首先知道什么是KMeans：K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。虽然已经发展到了hadoop2.4，但是对于一些算法只要明白其中的含义，是和语言无关的，无

2014-06-29 11:27:55 1444

转载 HBase的rowkey设计

访问hbase table中的行，只有三种方式：1 通过单个row key访问2 通过row key的range3 全表扫描文中可能涉及到的API：Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase: http://hbase.apache.org/apidocs/

2014-06-20 10:21:15 831

转载 MapReduce实现大矩阵乘法

引言何为大矩阵？Excel、SPSS，甚至SAS处理不了或者处理起来非常困难，需要设计巧妙的分布式方法才能高效解决基本运算（如转置、加法、乘法、求逆）的矩阵，我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底，新浪微博注册用户数超5亿，日活跃用户4629万[1]，如果我们要探索这4000多万用户可以分成哪些类别，

2014-06-19 09:36:28 572

转载 hadoop通过log分析mapreduce的过程及定位错误、分析问题

网上有很多mapreduce的源码解析以及执行过程，这里从相关的日志角度看mapreduce的执行过程，以便于在通过日志分析定位分析问题先简单说一下mapreduce的执行过程，如下图：1、应用程序客户端client准备作业(数据split划分，作业配置等)，并上传值HDFS中；并提交作业至JobTracker。2、JobTracker根据job的配置信息(jobc

2014-06-10 10:33:02 859

转载 hadoop基本术语

（1）Hadoop 1.0Hadoop 1.0即第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成，对应Hadoop版本为Apache Hadoop 0.20.x、1.x、0.21.X、0.22.x和CDH3。

2014-06-08 10:09:38 627

转载 hadoop中wordcount遍历子目录的情况

hadoop中的wordcount示例,只能统计一个目录下的所有文件的内容，但是如果目录中还有目录，怎么办呢？我实验了一下，不能计算目录中层级目录中的文件?

2014-05-29 14:15:20 1875

转载 Hadoop必看：hadoop使用中的几个小细节(一)

最近在hadoop实际使用中有以下几个小细节分享:1 中文问题从url中解析出中文,但hadoop中打印出来仍是乱码?我们曾经以为hadoop是不支持中文的，后来经过查看源代码，发现hadoop仅仅是不支持以gbk格式输出中文而己。这是TextOutputFormat.class中的代码，hadoop默认的输出都是继承自FileOutputFormat来的，Fi

2014-05-21 09:33:32 484

转载 MapReduc:1-3:计算Job运行时的CPU与内存平均利用率

Hadoop集群上运行有多道MapReduce Job，到底每个Job消费集群计算资源(CPU，内存)的情况如何，通常我们是不知道的。这节来探讨下如果想获得这些信息，应该怎样做。每个Job在运行时是散布在TaskTracker上，由不同的JVM来执行。所以这个问题归根结底就是想获取每个运行task的JVM对资源的消费情况。对于这种获取分布式环境数据的例子，就可以采用MapRe

2014-05-21 09:30:04 550

转载 MapReduce1-2：MapReduce任务的优化

MapReduce任务的优化相信每个程序员在编程时都会问自己两个问题“我如何完成这个任务”，以及“怎么能让程序运行得更快”。同样，MapReduce计算模型的多次优化也是为了更好地解答这两个问题。MapReduce计算模型的优化涉及了方方面面的内容，但是主要集中在两个方面：一是计算性能方面的优化；二是I/O操作方面的优化。这其中，又包含六个方面的内容。1. 任务调度

2014-05-21 09:29:00 1175

转载 MapReduce1-1: 提高MapReduce性能的七点建议

前言 Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代码，这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来，调整cluster或job的运行更像一个医生对待病人一样，找出关键的“症状”，对于不同的症状有不同的诊断和处理方式。

2014-05-21 09:27:58 329