yhao浩-CSDN博客

原创基于LR的新闻多分类（基于spark2.1.0, 附完整代码）

自从引进DataFrame之后，spark在ml方面，开始使用DataFrame作为RDD的上层封装，以屏蔽RDD层次的复杂操作，对应用开发者提供简单的DataFrame，以减少开发量。本文以最新的spark2.1.0版本为基础，构建从数据预处理、特征转换、模型训练、数据测试到模型评估的一整套处理流程。

2017-03-04 13:47:29 13830 9

转载 JUnit简单使用教程

JUnit简介JUnit是由 Erich Gamma和Kent Beck编写的一个回归测试框架(regression testing framework)。JUnit测试是程序员测试，即所谓白盒测试，因为程序员知道被测试的软件如何(How)完成功能和完成什么样(What)的功能。简单编写单元测试实例public class JunitAnnotation {

2016-09-19 13:45:28 1133

原创 Hadoop HA——namenode无法启动问题解决

今天按照之前《Hadoop2.6.0 + zookeeper集群环境搭建》一文重新搭建了Hadoop2.7.2+zookeeper的HA，实现namenode挂掉后可以自动切换，总体来说还算比较顺利。搭建完成后一切正常！但是！第二天重新启动集群的时候出现问题：两个namenode有一个始终启动不了！，具体问题描述如下：问题描述HA按照规划配置好，启动后，NameNod

2016-09-03 23:30:56 17841 2

翻译 [Spark2.0]ML 调优：模型选择和超参数调优

本节讲述如何使用MLlib提供的工具来对ML算法和Pipline进行调优。内建的交叉验证和其他工具允许用户在算法和Pipline中优化超参数。模型选择（又名超参数调优）在ML中一个重要的任务就是模型选择，或者使用给定的数据为给定的任务寻找最适合的模型或参数。这也叫做调优。调优可以是对单个的Estimator，比如LogisticRegression，或

2016-08-20 01:13:08 7096

翻译 [Spark2.0]ML piplines管道模式

在本部分，我们将介绍ML Pipline的概念。ML Pipline提供了一整套建立在DataFrame上的高级API，它能帮助用户创建和调优实际机器学习管道。Pipline的主要思想 Mllib标准化了机器学习算法的API，使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖Pipline API的关键思想，这里的pipline概念是受scikit

2016-08-17 23:26:57 3897

翻译 [Spark2.0]Spark SQL, DataFrames 和Datasets指南

综述 Spark SQL是Spark提供的针对结构化数据处理的模块。不同于基本的Spark RDD API，SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部，SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作，包括SQL和Dataset API。计算结果的时候使用相同的执行本页中所有示例使

2016-08-16 00:00:28 7409

原创梯度下降法及其Python实现

梯度下降法（gradient descent），又名最速下降法（steepest descent）是求解无约束最优化问题最常用的方法，它是一种迭代方法，每一步主要的操作是求解目标函数的梯度向量，将当前位置的负梯度方向作为搜索方向（因为在该方向上目标函数下降最快，这也是最速下降法名称的由来）。梯度下降法特点：越接近目标值，步长越小，下降速度越慢。直观上来看如下图所示：这里每一个圈

2016-06-01 12:24:36 70805 28

原创最小二乘法及其python实现

最小二乘法Least Square Method，做为分类回归算法的基础，有着悠久的历史（由马里·勒让德于1806年提出）。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。那什么是最小二乘法呢？别着急，我们先从

2016-05-24 16:57:30 59829 11

原创基于centos6.7的Ceph分布式文件系统安装指南

Ceph是加州大学Santa Cruz分校的Sage Weil（DreamHost的联合创始人）专为博士论文设计的新一代自由软件分布式文件系统。自2007年毕业之后，Sage开始全职投入到Ceph开发之中，使其能适用于生产环境。Ceph的主要目标是设计成基于POSIX的没有单点故障的分布式文件系统，使数据能容错和无缝的复制。2010年3 月，Linus Torvalds将Ceph clien

2016-05-13 14:46:33 17856 2

原创【问题跟踪】KryoException: java.io.IOException: No space left on device

今天在对LDA进行不同参数训练模型，记录其avglogLikelihood和logPerplexity，以便判断模型训练是否收敛时，产生了一个令人极度崩溃的事儿：程序在辛辛苦苦跑了7.3h后...挂了！证据如下：早上一来看这张图，好像跑完了，然后点进去看...然后就没有然后了每次迭代都需要9min左右，迭代了近50次跟我说挂了，确实挺让人奔溃的。先说说我的配置以

2016-04-15 10:35:46 19032 4

原创基于spark mllib的LDA模型训练源码解析

一直想写一篇关于LDA模型训练的源代码走读，但是因为个人水平以及时间原因未能如愿，今天想起来就记录了一下源码走读过程。有什么解释的不太清楚或者错误的地方请大家指正。LDA模型训练大致经过以下这些步骤：输入数据（已转换为Vector）和参数设置根据LDA选择的算法初始化优化器迭代优化器获得LDA模型下面对每一步的源码进行代码跟进。完整的项目可以到我的github下载

2016-04-13 17:14:16 8019 5

原创基于spark mllib的LDA模型训练Scala代码实现

从事NLP算法工作也快一年了，主要时间花在了LDA上面，但是却一直没有好好整理一下，决心把到目前为止做的一些东西分享出来，如有疑问敬请指正。在Github上建了一个自己的项目：CkoocNLP（去这个名字是想做一个NLP相关的技术的代码实现，不过目前上面还没有什么东西）。里面已经有基于spark的训练和预测代码实现，有兴趣的同学可以去看看，代码比较简单，可以直接checkout出来跑。直接

2016-04-08 17:37:05 7585 18

转载通俗理解LDA主题模型

声明：本文转载自July的CSDN博客，仅作为知识记录所用，原文链接：http://blog.csdn.net/v_july_v/article/details/412095150 前言印象中，最开始听说“LDA”这个名词，是缘于rickjin在2013年3月写的一个LDA科普系列，叫LDA数学八卦，我当时一直想看来着，记得还打印过一次，但不知是因为这篇文档

2016-04-08 17:05:10 39428 5

原创 spark1.6.0集群安装

1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明，旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下：IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMaster、Slaver

2016-03-31 18:34:08 2510

原创 [Scala函数特性系列]——部分应用函数和柯里化

柯里化是指将原来接收两个参数的函数变成接收一个参数的函数的过程，新的函数返回一个以原有第二个参数作为参数的函数。是不是有种被绕晕了的感觉，先别急，先看一个示例：结果：这里可以看出，柯里化函数与多个参数的函数具有相同的功能，这中间有一个“应用部分函数”，或者叫“偏应用函数”，这个函数multipleOf4表示固定了两个参数中的一个，部分提供了函数mul所需要的参数

2016-02-22 17:23:00 2351

原创 [Scala函数特性系列]——高阶函数

带函数参数的函数由于是一个接受函数参数的函数，故被称为高阶函数，像之前讲到的map()函数就是高阶函数。如下例所示：上述代码中，apply函数接受一个函数f作为参数，接受一个Int类型的参数，进行f(v)运算，在下面又给出了f具体的定义（layout函数）。同样的，高阶函数也可以产出另一个函数（即返回结果为一个函数，而不是某个值或对象），如下例所示：这里函数rec

2016-02-21 21:25:57 4558

原创 [Scala函数特性系列]——作为值的函数和借贷模式

在scala中，函数是“头等公民”，几乎所有的操作都是以函数形式进行。同样的，能够在变量中存放函数（听上去很神奇吧）。示例如下：本段代码将ceil函数赋值给fun变量，ceil后面的_表名这是一个函数，而不是碰巧忘记给它传参。在scala中，不需要为每个函数命名，这种没有命名的函数叫做匿名函数。如何进行匿名函数的定义呢？示例如下：(x:Double) => 3 * x

2016-02-21 17:04:51 1382

原创 [Scala函数特性系列]——使用可变参数

scala同java一样，在定义函数的时候支持接收可变长参数列表，即最后一个参数的可以被重复。示例代码如下：结果：在此代码中我们定义函数printInfo接收变长参数列表，其最后一个参数names可以根据实际情况进行传参（这里我们传了3个实参）。注意，函数可变参数只能是该函数的最后一个参数（否则不能识别参数长度，这个应该很好理解）。printInfo函数被声明的参

2016-02-19 17:12:55 3471

原创 [Scala函数特性系列]——使用命名参数

在正常的函数调用中，调用参数在调用函数中是按其定义时的参数顺序进行一一匹配。如果需要按不同的顺序传递参数，就要使用到scala的一种函数特性——命名参数。命名参数使用方法很简单，即在调用函数时，指定参数名并进行赋值。示例代码如下：结果：从代码和结果中就可以看出使用命名参数的优点：在需要时可以任意的指定函数中某个参数的值，而不必将此参数之前的参数都赋值一遍。

2016-02-19 16:53:33 763

原创 [Scala函数特性系列]——按名称传递参数

通常情况下，函数的参数是传值参数；即参数的值在它被传递给函数之前被确定。但是，如果我们需要编写一个接收参数不希望马上计算，直到调用函数内的表达式才进行真正的计算的函数。对于这种情况，Scala提供按名称参数调用函数。示例代码如下：结果：在代码中，如果定义函数的时候，传入参数不是传入的值，而是传入的参数名称（如代码中使用t: => Long而不是t: Lo

2016-02-19 16:32:36 4431 1

转载从机器学习谈起

在本篇文章中，我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇，从这里开始，必须对机器学习了解才能进一步介绍EasyPR的内核。当然，本文也面对一般读者，不会对阅读有相关的前提要求。　　在进入正题前，我想读者心中可能会有一个疑惑：机器学习有什么重要性，以至于要阅读完这篇非常长的文章呢？

2015-10-29 22:42:44 971

原创 Hive聚合函数及采样函数详解

本文主要使用实例对Hive内建的一些聚合函数、分析函数以及采样函数进行比较详细的讲解。

2015-06-03 09:01:56 26139 1

原创 Hive最新数据操作详解（超级详细）

数据操作能力是大数据分析至关重要的能力。数据操作主要包括：更改(exchange)，移动(moving)，排序(sorting)，转换(transforming)。Hive提供了诸多查询语句，关键字，操作和方法来进行数据操作。

2015-06-01 16:11:53 13160

原创 centos shell命令行只显示-bash-4.1#不显示用户和路径解决方法

今天一不小心打了home目录删除命令，虽然最后因为种种原因没有删掉，但是home目录下很多文件和目录都被删了，而且命令行也不显示当前用户和路径了。下面对其重新设置，需要设置两个文件：~/.bashrc和~/.bash_profile

2015-05-29 16:02:25 5709

原创 hive绑定本地mysql为元数据库

突然想起来之前写过一篇关于将hive元数据库从默认的本地derby更改为绑定到远程mysql的文章，在云笔记里面翻了一下发现还真在，现在分享给各位~~

2015-05-29 10:06:56 2360

原创 Intellij idea创建javaWeb以及Servlet简单实现

Intellij idea创建javaWeb工程的必要设置以及对Servlet的简单实现。

2015-05-15 09:05:42 77105 33

转载 vim快捷键整理

一、移动光标1、左移h、右移l、下移j、上移k2、向下翻页ctrl + f，向上翻页ctrl + b3、向下翻半页ctrl + d，向上翻半页ctrl + u4、移动到行尾$，移动到行首0（数字），移动到行首第一个字符处^5、移动光标到下一个句子），移动光标到上一个句子（6、移动到段首{，移动到段尾}7、移动到下一个词w，移动到上一

2015-05-12 14:23:20 647

原创 Not implemented by the DistributedFileSystem FileSystem implementation

java.lang.UnsupportedOperationException: Not implemented by the DistributedFileSystem FileSystem implementation

2015-05-08 12:56:52 4436

原创 No FileSystem for scheme: hdfs

No FileSystem for scheme: hdfs

2015-05-08 09:19:22 28365 4

转载倒排索引基础知识

1.单词——文档矩阵单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型，图3-1展示了其含义。图3-1的每列代表一个文档，每行代表一个单词，打对勾的位置代表包含关系。

2015-04-21 16:15:32 884

原创倒排索引实现

倒排索引实现

2015-04-21 15:57:04 900

原创文件右键添加自定义选项

最近使用sublime text 3发现特别不好用的一点就是打开文件的时候右键没有sublime text 3选项，让人无比纠结，所以在注册表添加此应用的shell来实现右键打开，其他应用程序类似：1. 打开注册表，开始→运行→regedit2. 在 HKEY_CLASSSES_ROOT→ * → Shell 下面新建项命名为SublimeText 33. 右键Sublim

2015-04-10 17:19:40 919

转载 Spark1.3.0新特性概览

自2013年3月面世以来，Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒，继续为Spark用户提供高性能的SQL on Hadoop解决方案之外，它还为Spark带来了通用、高效、多元一体的结构化数据处理能力。在刚刚发布的1.3.0版中，Spark SQL的两大升级被诠释得淋漓尽致。DataFrame就易用性而言，对比传

2015-04-10 14:23:15 1559

原创 Hadoop2.6.0 + zookeeper集群环境搭建

在centos6.5上进行hadoop2.6.0+zookeeper集群初步安装

2015-04-08 11:15:29 4717

原创 java和scala分别实现TopK

本文是对spark经典例子topK的实现

2015-04-01 10:48:17 2997

原创 Linux格式化并重新加载磁盘

今天在用fio做完centos系统IO对比测试后，发现个严重的问题，用df工具查看磁盘，发现经过fio写操作的磁盘容量变成了这样：瞬间就有一种不好的感觉，果然，经过多方查证，是由于磁盘反复进行写操作导致文件存储信息被破坏，只能进行格式化了。（吐槽一下，坑爹的fio，在测试之前完全没看到有这方面的说明）在网上搜集了一下Linux下磁盘格式化步骤，写下来和大家分享一下:

2015-03-26 12:50:10 25533 2

原创 win8.1中部分软件输入中文显示问号问题

最近新买了电脑，预装了正版win8.1，不过在今天发现一些软件输入中文时会变成问号（xshell、RTX等），这种坑爹，之前另一台机用win8.1用了快两年都没这问题！在网上搜索了好久都没发现问题出在哪儿，最后看到在一个博客里有提到输入法设置的问题，几经折腾终于解决了。

2015-03-20 15:24:28 6645 3

原创 java和scala分别实现WordCount

WordCount作为大数据领域的经典范例，如同HelloWorld在程序设计中的地位一样，是一个入门程序。在此使用并行化处理介绍WordCount程序过程。

2015-03-17 09:48:15 2804

原创 Intellij idea使用java编写并执行spark程序

初学使用Intellij idea编写spark程序。由于公司要求用java编写，但网上基本又是用scala来写spark程序（虽然确实用scala来写比java好很多），摸索之后决定把整个流程记录下来.

2015-03-13 11:30:22 8922

原创 Windows下使用sbt打造Intellij Idea环境下Spark源码阅读环境

Spark源码阅读环境的准备Spark源码是有Scala语言写成的，目前，IDEA对Scala的支持要比eclipse要好，大多数人会选在在IDEA上完成Spark平台应用的开发。因此，Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法（默认已经装了java，JDK）。

2015-03-09 11:27:29 2913