自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(119)
  • 资源 (4)
  • 收藏
  • 关注

原创 修改MAC访达备份iphone到外设

1.首先要找到访达备份iphone的目录,每个版本系统的目录可能不同,但文件夹类似,我的目录在:/System/Volumes/Data/Users/gandalf/Library/Application Support/MobileSync/Backup2.在自己的外设上创建文件夹,我创建的是:/Volumes/Macintosh\ HD/Volumes/Transcend/iphone-backup/iphone2018/Backup3.这里需要把外设的文件夹软连接挂到原目录下,所以需要

2021-08-21 20:58:51 1970 2

原创 【甘道夫】Hive扩展GIS函数

阶段一:编译函数包基于https://github.com/Esri/spatial-framework-for-hadoop 项目编译产出两个jar包:spatial-sdk-hive-2.1.1-SNAPSHOT.jarspatial-sdk-json-2.1.1-SNAPSHOT.jar在maven本地仓库中找出jar包 esri-geometry-api-2.2.0.jar注...

2019-06-14 20:53:27 914

原创 【甘道夫】conda及pip公司内网无法使用

当在公司内网环境使用conda时,即使https://www.anaconda.com/能通过浏览器访问,执行conda命令时也可能提示无法连接。此时我们需要做的不是修改conda源(清华、中科大等国内源由于版权问题都已停止conda服务),我们需要做的是配置代理。参考https://stackoverflow.com/questions/31099279/running-conda...

2019-05-07 20:58:49 1479

转载 【官网文档】机器学习术语表

https://developers.google.cn/machine-learning/glossary/本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。AA/B 测试 (A/B testing)一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相...

2019-04-25 16:16:15 422

原创 【甘道夫】Pandas 基础知识总结

欢迎转载,转载时请注明来源:https://blog.csdn.net/u010967382/article/details/894905021.简介pandas包括3类核心数据结构:一维:pandas.core.series.Series二维:pandas.core.frame.DataFrame三维:pandas.core.panel.Panel(从0.20.0版本开始不建...

2019-04-24 12:50:30 372

原创 【甘道夫】tensorflow的session.run运行一个op和多个op的区别

背景:session.run方法可以传入一个op,也可以传入op列表,例如,我们希望执行op1和op2,有两种写法:sess.run(op1)sess.run(op2)和sess.run([op1, op2])如果op1和op2有相互包含关系,第写法1会将op1和op2的图各完整执行一遍,而写法2不会重复执行op1和op2中的公共部分。例如:# coding: u...

2018-08-19 20:10:04 4346

原创 【甘道夫】升级gcc到7.3.0

背景:需要安装fasttext,但发现gcc版本太低,所以有了如下的gcc升级过程。#查看当前版本gcc --version # 先查看当前版本确认是否需要升级cd /wget ftp.gnu.org/gnu/gcc/gcc-7.3.0/gcc-7.3.0.tar.gztar -zxvf gcc-7.3.0.tar.gzcd gcc-7.3.0#检测和安装相关依赖包,这个过程需要耐心...

2018-07-30 20:43:40 1251

原创 【甘道夫】基于sklearn计算tfidf时支持char + word模式

欢迎转载,请注明原文链接:https://blog.csdn.net/u010967382/article/details/79728404本文不介绍sklearn计算tfidf的过程,网上文章很多,只指出一个坑及其解决方案。做tfidf计算有几行核心代码:    vectorizer = CountVectorizer()        transformer = TfidfTransforme...

2018-03-28 15:28:55 3059 4

原创 【甘道夫】升级python2.6.6到2.7.8 ,安装scikit-learn-0.19.1,安装tensorflow

------------------升级Python2.6.6到2.7.8------------------1.下载Python-2.7.8wget https://www.python.org/ftp/python/2.7.8/Python-2.7.8.tgz如果版本不同,自行查阅https://www.python.org/ftp/python/x.x.x/2.解压Python-2.7.8t...

2018-03-20 15:11:57 1414

原创 【甘道夫】Geohash基础应用By Python

介绍Geohash基础概念的文章很多,我就不拷贝粘贴了,我只用最简单的理解概括:Geohash用作坐标的索引,可大幅提升搜索坐标相关数据的效率。结合相邻9宫格的geohash,可以快速检索指定坐标附近一定范围内的地理信息目标(POI,道路等等)。python环境下的geohash库推荐:https://github.com/transitland/mapzen-geohash该库

2017-07-11 19:52:18 5662 1

原创 【甘道夫】基于scikit-learn实现逻辑回归LogisticRegression

难得有不涉及机密,同时又有一定记录价值的收获,记录下来,以备查阅。欢迎转载,请注明出处:1.准备数据***基础:LIBSVM数据格式***数据文件格式如下: : : ...其中 是训练数据集的目标值,对于分类,它是标识某类的整数(支持多个类);对于回归,是任意实数。 是以1开始的整数。如果特征值为0,特征冒号前面的

2015-12-08 22:20:22 3781

原创 【甘道夫】scikit-learn安装

成功安装scikit-learn的过程

2015-12-08 22:14:04 603

原创 【甘道夫】新的阶段

已经有一个季度没有更新博客了,那是因为在2015年6月,出于职业发展的考虑,换了一份新的工作。新工作的职位是后端资深工程师,数据挖掘方向,不再是管理层,重新回到一线技术,这是一次主动的人生清零,希望这一次清零的轮回能为我今后的职业生涯奠定更加殷实的基础。        由于新的公司已经有专门的部门负责搭建和维护大数据基础设施,所以估计未来都不会再有机会像过去那样去研究和优化Hadoop家族相关

2015-08-15 20:56:04 991 2

原创 【甘道夫】Java Hello World on Spark

引言通过Java编写Spark应用程序的HelloWorld,虽然有点寒碜,没用Scala简洁明了,但还是得尝试和记录下。环境Windows7Eclipse+MavenJdk1.7Ubuntu 14.04步骤一:在eclipse中创建maven工程,过程很简单,不详述。pom文件为:project xm

2015-04-17 17:50:08 2182

原创 【甘道夫】Spark1.3.0 Running Spark on YARN 官方文档精华摘要

引言由于工作需要,即将拥抱Spark,曾经进行过相关知识的学习,现在计划详细读一遍最新版本Spark1.3的部分官方文档,一是复习,二是了解最新进展,三是为公司团队培训做储备。欢迎转载,请注明出处:http://blog.csdn.net/u010967382/article/details/45062407原文URL:http://sp

2015-04-15 17:29:33 2235 1

原创 【甘道夫】Spark1.3.0 Submitting Applications 官方文档精华摘要

引言由于工作需要,即将拥抱Spark,曾经进行过相关知识的学习,现在计划详细读一遍最新版本Spark1.3的部分官方文档,一是复习,二是了解最新进展,三是为公司团队培训做储备。欢迎转载,请注明出处:原文URL:http://spark.apache.org/docs/latest/submitting-applications.html该

2015-04-15 17:27:21 1244

原创 【甘道夫】Spark1.3.0 Cluster Mode Overview 官方文档精华摘要

引言由于工作需要,即将拥抱Spark,曾经进行过相关知识的学习,现在计划详细读一遍最新版本Spark1.3的部分官方文档,一是复习,二是了解最新进展,三是为公司团队培训做储备。欢迎转载,请注明出处:原文URL:http://spark.apache.org/docs/latest/cluster-overview.html该文档重点介绍了

2015-04-15 17:25:33 1371

转载 HDFS快照特性基础

转一篇团队成员 塔瑞尔 的博客,对HDFS快照特性的调研总结。博客原文:http://blog.csdn.net/linlinv3/article/details/44622203==========================================================================================通过snapsh

2015-03-25 17:17:35 865

原创 【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制

前言HDFS为管理员提供了针对目录的配额控制特性,可以控制名称配额(指定目录下的文件&文件夹总数),或者空间配额(占用磁盘空间的上限)。本文探究了HDFS的配额控制特性,记录了各类配额控制场景的实验详细过程。实验环境基于Apache Hadoop 2.5.0-cdh5.2.0。欢迎转载,请注明出处:名称配额功能试用设置名称

2015-03-19 09:50:54 1912

原创 【甘道夫】HBase随机宕机事件处理 & JVM GC回顾

一、引言本文记录了困扰团队两周的HBase随机宕机事件的解决方案,并回顾了JVM GC调优基础知识,供各位参考。欢迎转载,请注明出处:二、实验环境16台虚拟机,每台4G内存,1核CPU,400G硬盘Ubu

2015-01-04 16:31:46 4823 1

原创 【甘道夫】Oozie-4.0.0-CDH5.2.0 安装部署

引言Oozie是Hadoop生态系统中的工作流控制组件,可以调度MR,Hive,Shell等各类任务,并配置复杂的工作流程。今天介绍如何安装部署,使用的是单机测试环境。欢迎转载,请注明来源:下载解压下载安装过程需要的相关文件:oozie4.0.0安装包http://archive.cloudera.com/cdh5

2014-11-21 18:59:33 4069

原创 【甘道夫】CDH5.2的Maven依赖

之前一直结合Maven开发Hadoop2.2.0的程序,环境换成CDH5.2后报错,发现是Maven依赖库的问题。之前一直使用http://mvnrepository.com/查找maven依赖,但这类网站只能查到通用的maven依赖,没有包含CDH依赖,还好Cloudera提供了CDH的依赖:http://www.cloudera.com/content/

2014-11-15 15:00:34 2660

原创 【甘道夫】开发Hive自定义UDF,生成32位字母数字随机串

引言曾经认为Hive自带的函数应该可以cover住我的日常所需,心想那些需要使用自定义函数的场景是不是太奇葩,谁知命运弄人,自己还是碰上了。需求很简单,我需要模拟Oracle中的SYS_GUID()函数,生成一个32位的字母数字随机串。开发环境:Eclipse+Maven,引入Hive0.13.1的依赖。欢迎转载,请注明来源:

2014-11-13 17:54:25 3488 1

原创 【甘道夫】通过bulk load将HDFS上的数据导入HBase

引言通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能,下面简单记录下关键步骤。bulkload的详细情况请参见官网文档。过程第一步:每台机器执行ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml

2014-11-04 17:36:11 2353

原创 【甘道夫】Ubuntu集群配置免认证登陆

引言这是几年前写的文章,但一直以来该问题被重复问到,所以我决定将它重新搬上屏幕。正文三个节点:masternode    slavenode1   slavenode2第一步:所有节点分别生成密钥对所有节点都要做:命令行中,在当前用户根目录执行ssh-keygen -t rsa密钥成功生成后是存储在当前用户根目录下的.ss

2014-10-24 23:38:10 1574

原创 【甘道夫】基于Mahout0.9+CDH5.2运行分布式ItemCF推荐算法

环境:hadoop-2.5.0-cdh5.2.0mahout-0.9-cdh5.2.0引言虽然Mahout已经宣布不再继续基于Mapreduce开发,迁移到Spark,但是实际面临的情况是公司集群没有足够的内存支持Spark这只把内存当饭吃的猛兽,再加上项目进度的压力以及开发人员的技能现状,所以不得不继续使用Mahout一段时间。今天记录

2014-10-24 15:32:30 2746 1

原创 【甘道夫】如何在cdh5.2上运行mahout的itemcf on hadoop

环境:hadoop-2.5.0-cdh5.2.0mahout-0.9-cdh5.2.0步骤:基本思路是,将mahout下的所有jar包都引入hadoop的classpath即可,所以修改了$HADOOP_HOME/etc/hadoop/hadoop-env.sh,添加如下代码将mahout的所有jar包引入hadoop的classpath:f

2014-10-23 18:42:37 3187

原创 【甘道夫】官网MapReduce实例代码详细批注

引言1.本文不描述MapReduce入门知识,这类知识网上很多,请自行查阅2.本文的实例代码来自官网http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html最后的WordCount v2.0,该

2014-10-16 18:21:33 2191

原创 【甘道夫】使用HIVE SQL实现推荐系统数据补全

需求在推荐系统场景中,如果基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果很可能达不到要求的数量。比如,希望针对每个item或user推荐20个item,但是通过计算只得到8个,剩下的12个就需要补全。欢迎转载,请注明出处:策略数据补全的具体策略是:补全时机:在挖掘计算结束后,挖掘结果导入HBase(最终web系

2014-09-29 19:05:20 3535 2

原创 【甘道夫】Hive0.13.1图形界面HWI尝鲜

引言HIVE的操作接口除了常用的CLI之外,还有图形界面HWI,今天尝试了下HWI,特此记录供以后参考。过程apache-hive-0.13.1-bin.tar.gz 的 lib 目录默认不包含 hive-hwi-0.13.1.war,我们需要到源码包中获取HWI。(1)将源码包 apache-hive-0.13.1-src.tar.gz 下载到本地

2014-09-26 18:15:14 2377

原创 【甘道夫】Win7+Eclipse+Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行

引言之前成功在服务器上为Mahout0.9打patch,使其支持Hadoop2.2.0。今天的需求是:在Win7+Eclipse+Maven环境下开发Mahout程序,打jar包放到集群上,使其在Hadoop2.2.0下正常运行。过程步骤一:Eclipse下创建Maven工程pom.xml:1.引入mahout依赖    depe

2014-09-11 17:54:20 2769 2

原创 【甘道夫】Mahout推荐算法编程实践

引言Taste是曾经风靡一时的推荐算法框架,后来被并入Mahout中,Mahout的部分推荐算法基于Taste实现。下文介绍基于Taste实现最常用的UserCF和ItemCF。本文不涉及UserCF和ItemCF算法的介绍,这方面网上资料很多,本文仅介绍如何基于Mahout编程实现。欢迎转载,请注明来源:步骤一:构建数据模型

2014-09-10 17:27:09 3358 1

原创 【甘道夫】用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0

引言接前一篇文章《【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0》http://blog.csdn.net/u010967382/article/details/39088035,为Mahout0.9打过Patch编译成功后,使用贝叶斯文本分类来测试Mahout0.9对Hadoop2.2.0的兼容性。步

2014-09-05 23:31:01 1632

原创 【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0

引言Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本,但很多情况下,由于集群环境的Hadoop已经是2.2.0以上版本,又必须使用Mahout,此时就需要编译源码,使得Mahout支持Hadoop2了。欢迎转载,请注明出处:造好的车轮让Mahout在Hadoop2.2.0上运行是需求十分广泛的,所以必定有前人已经栽好树了,我们可以在

2014-09-05 23:26:12 2816 6

原创 【甘道夫】Sqoop1.4.4原生增量导入特性探秘

原始思路要想实现增量导入,完全可以不使用Sqoop的原生增量特性,仅使用shell脚本生成一个以当前时间为基准的固定时间范围,然后拼接Sqoop命令语句即可。原生增量导入特性简介Sqoop提供了原生增量导入的特性,包含以下三个关键参数:ArgumentDescription--check-column (col

2014-08-27 18:33:44 2858 1

原创 【甘道夫】实现Hive数据同步更新的shell脚本

引言:上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop,Hive命令,本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用于实际工程

2014-08-25 18:20:33 2605

原创 【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表

需求将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。设计涉及的三张表:全量表:保存了截止上一次同步时间的全量基础数据表增量表:增量临时表更新后的全量表:更新后的全量数据表步骤:通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表通过Hive将“全量

2014-08-21 19:14:08 4068 1

原创 【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详解

环境:hadoop2.2.0hive0.13.1Ubuntu 14.04 LTSjava version "1.7.0_60"Oracle10g到以下地址下载安装包http://mirrors.cnnic.cn/apache/hive/stable/apache-hive-0.13.1-bin.tar.gz

2014-08-20 18:07:09 3351 1

原创 【甘道夫】HBase连接池 -- HTablePool被Deprecated之后

说明:最近两天在调研HBase的连接池,有了一些收获,特此记录下来。本文先将官方文档(http://hbase.apache.org/book.html)9.3.1.1节翻译,方便大家阅读,然后查阅了关键类HConnectionManager的Developer API(http://hbase.apache.org/devapidocs/index.html) 做了一些总结。

2014-07-22 18:05:47 26481 4

原创 【甘道夫】HBase基本数据操作详解【完整版,绝对精品】

【甘道夫】HBase基本数据操作详解【完整版,绝对精品】

2014-07-16 15:31:22 27613 5

【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解 -- 配套源码

http://blog.csdn.net/u010967382/article/details/25368795#comments 博客配套源码

2015-01-07

【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解--配套代码

http://blog.csdn.net/u010967382/article/details/25368795#comments 博客配套代码

2015-01-07

synthetic_control.data

Mahout的kmeans聚类测试数据

2014-08-15

Hadoop1.0&2.0快速入门

为公司内部培训编制的Hadoop入门ppt,包含1.0,2.0相关核心理论知识,2.3.0以后版本知识不涉及

2014-06-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除