自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (2)
  • 收藏
  • 关注

原创 impala udf函数实现中文截取

impala 自带的substr/substring 函数不支持中文分割,因此,需要借助UDF函数实现中文的分割。

2018-01-03 12:24:55 4640 1

原创 Python 实现决策树分类算法

参考:http://www.it165.net/pro/html/201404/12730.html                http://lib.csdn.net/article/machinelearning/32729    决策树分类算法是数据分析邻域的一个常见算法。目前,该算法的python实现也已经很多,但是纸上得来终觉浅,不自己实现一把,就无法理解其中的奥妙和原

2017-02-23 13:47:57 1039

原创 python 利用爬山法和迪杰斯特拉算法求解TSP最短路径

爬山法和模拟退火算法通常用来求解TSP的最短路径问题。爬山法的一个最大的缺点就是,它只能获取一个局部最优的解,但是无法获取一个全局最优的解。而模拟退火算法,它以一定的概率接受较差的解,因此,可以在一定程度上避免局部最优的问题。而迪杰斯特拉算法虽然能够得到最短路径,但是由于需要大量的计算,比较消耗性能,因此,实际应用中并不多。关于爬山法和模拟退火算法的介绍,百度上不是很清楚,其他的一些资料上也介绍的

2017-02-22 10:43:15 5217

原创 python 利用模拟退火算法求解TSP最短路径

在我的上一篇文章中,我详细介绍了如何利用爬山法求解最短路径的过程。因为模拟退火算法会以一定的概率接受比当前更差的解,因此,它可以在一定程度上避免陷入局部最优的问题。维基百科中关于模拟退火算法的详细过程如下(https://zh.wikipedia.org/wiki/%E6%A8%A1%E6%8B%9F%E9%80%80%E7%81%AB):1、初始化生成一个可行的解作为当前

2017-02-22 10:35:31 7198 1

原创 src 与test 目录下的resource 不一致导致Mapped Statements collection does not contain value错误解决方法

JUnit4 测试时,如果src/resource 目录和test/resource 目录下的文件不一致,可能导致Caused by: java.lang.IllegalArgumentException: Mapped Statements collection does not contain value for 的错误。

2016-12-23 14:42:02 635

原创 Sqoop抽取文本数据到hive由于存在空字符导致字段错位和丢失错误

用sqoop抽取数据的时候,若记录中含有“由空格组成的字符串”,由于空字符串是由引号括起来,因此,需要对引号进行转义。否则sqoop 完成后, hive加载hdfs文件时,会自动对其截断,从而导致字段数增多。

2016-12-22 21:38:45 8093

原创 Java 连接HBASE ,执行查询超时的解决方法

Hbase 的查询速度非常快,适合用于检索,但是,但待检索的数据量特别大的时候,很容易造成连接超时。通过修改java连接hbase的配置参数,可以有效解决这个问题。注意,单纯修改hbase的配置参数,如超时,并不会起作用。

2016-12-22 21:27:59 12805

原创 BindingException: Invalid bound statement (not found) 错误解决办法

org.apache.ibatis.binding.BindingException: Invalid bound statement (not found) 错误的解决办法

2016-12-22 21:12:13 2770

原创 利用逆波兰表达式(后缀表达式)解析四则运算表达式的详细源代码及解释

利用逆波兰表达式(后缀表达式),结合栈的相关操作,求解四则运算表达式,是中缀表达式转换为后缀表达式的一个经典也是最重要的一个应用之一。该过程的难点在于正确处理不同符号间的优先级和括号配对的处理。本文的源代码本人亲测通过,可以正确求解四则运算表达式。但是,并没有对开方、乘方进行特别处理,有兴趣的同学可以在此基础上进行进一步的改进。

2016-12-09 20:16:37 833

原创 CDH5.4.7 环境下spark 1.3 源码包编译步骤及错误解决办法

参考链接:http://blog.csdn.net/zhong_han_jun/article/details/50358745由于CDH5.4.7不支持SPARK-SQL, 因此,需要手动编译spark 1.3.0源码包,添加hive 和hive-thrift支持。编译的步骤如下:1、编译命令:mvn -Pyarn -Dhadoop.version=2.6.0-cdh5.4.7

2016-09-02 07:40:40 1218 1

原创 Oracle 函数实现动态解析公式字符串

有时候,通常需要自己实现动态解析公式字符串的功能。本文以实际工作项目为背景,实现了动态解析公式的功能。

2016-08-15 19:13:03 2072

原创 K近邻算法步骤详解

K近邻算法作为机器学习中最常用也是最简单的算法,其在python当中的实现对于没有python基础的人来说,还不是那么好理解。因此,记录下详细的步骤,跟大家分享。

2016-07-14 16:28:35 2680

原创 Linux Crontab执行hadoop命令脚本失败

crontab调度hadoop命令脚本,需要添加source /etc/profile 或者 source ~/.base_profile

2016-07-01 21:06:24 2380

原创 在Oozie 中调度执行shell、hive 脚本,以及通过shell脚本执行hive/sqoop/shell脚本的方法

oozie 是一个非常不错的页面可视化程序调度器,优点很明显,但缺点也很多,最恶心的是不支持动态的参数,以及使用sqoop时非常麻烦,因此,最好的方法自然是通过oozie调度一个shell调度脚本,由shell脚本再去调度执行其他脚本。这样可以实现动态传参,和统一控制。

2016-06-26 21:11:54 14396 11

原创 centos 6 环境下用maven编译安装hadoop2.7.2源码包

hadoop 2.7.2 默认的本地化文件为64位的,因此, 在32位的机器上需要采用maven重新编译,本文详细介绍了安装过程中遇到的重要问题和解决的方法,希望可以帮助到大家

2016-03-29 22:26:31 754

集体智慧编程源码及对应的数据集

集体智慧编程书上所给出的数据集下载的连接地址都已经失效了,这些数据集是从国外站点上下载下来的,经测试,与书上的资源文件一致

2017-02-28

pydev for python2.7.6

eclipse下python 2.x 开发插件pydev

2017-02-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除