Gandalf_lee-CSDN博客

原创修改MAC访达备份iphone到外设

1.首先要找到访达备份iphone的目录，每个版本系统的目录可能不同，但文件夹类似，我的目录在：/System/Volumes/Data/Users/gandalf/Library/Application Support/MobileSync/Backup2.在自己的外设上创建文件夹，我创建的是：/Volumes/Macintosh\ HD/Volumes/Transcend/iphone-backup/iphone2018/Backup3.这里需要把外设的文件夹软连接挂到原目录下，所以需要

2021-08-21 20:58:51 1970 2

原创【甘道夫】Hive扩展GIS函数

阶段一：编译函数包基于https://github.com/Esri/spatial-framework-for-hadoop 项目编译产出两个jar包：spatial-sdk-hive-2.1.1-SNAPSHOT.jarspatial-sdk-json-2.1.1-SNAPSHOT.jar在maven本地仓库中找出jar包 esri-geometry-api-2.2.0.jar注...

2019-06-14 20:53:27 914

原创【甘道夫】conda及pip公司内网无法使用

当在公司内网环境使用conda时，即使https://www.anaconda.com/能通过浏览器访问，执行conda命令时也可能提示无法连接。此时我们需要做的不是修改conda源（清华、中科大等国内源由于版权问题都已停止conda服务），我们需要做的是配置代理。参考https://stackoverflow.com/questions/31099279/running-conda...

2019-05-07 20:58:49 1479

转载【官网文档】机器学习术语表

https://developers.google.cn/machine-learning/glossary/本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。AA/B 测试 (A/B testing)一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相...

2019-04-25 16:16:15 422

原创【甘道夫】Pandas 基础知识总结

欢迎转载，转载时请注明来源：https://blog.csdn.net/u010967382/article/details/894905021.简介pandas包括3类核心数据结构：一维：pandas.core.series.Series二维：pandas.core.frame.DataFrame三维：pandas.core.panel.Panel（从0.20.0版本开始不建...

2019-04-24 12:50:30 372

原创【甘道夫】tensorflow的session.run运行一个op和多个op的区别

背景：session.run方法可以传入一个op，也可以传入op列表，例如，我们希望执行op1和op2，有两种写法：sess.run(op1)sess.run(op2)和sess.run([op1, op2])如果op1和op2有相互包含关系，第写法1会将op1和op2的图各完整执行一遍，而写法2不会重复执行op1和op2中的公共部分。例如：# coding: u...

2018-08-19 20:10:04 4346

原创【甘道夫】升级gcc到7.3.0

背景：需要安装fasttext，但发现gcc版本太低，所以有了如下的gcc升级过程。#查看当前版本gcc --version # 先查看当前版本确认是否需要升级cd /wget ftp.gnu.org/gnu/gcc/gcc-7.3.0/gcc-7.3.0.tar.gztar -zxvf gcc-7.3.0.tar.gzcd gcc-7.3.0#检测和安装相关依赖包，这个过程需要耐心...

2018-07-30 20:43:40 1251

原创【甘道夫】基于sklearn计算tfidf时支持char + word模式

欢迎转载，请注明原文链接：https://blog.csdn.net/u010967382/article/details/79728404本文不介绍sklearn计算tfidf的过程，网上文章很多，只指出一个坑及其解决方案。做tfidf计算有几行核心代码： vectorizer = CountVectorizer() transformer = TfidfTransforme...

2018-03-28 15:28:55 3059 4

原创【甘道夫】升级python2.6.6到2.7.8 ，安装scikit-learn-0.19.1，安装tensorflow

------------------升级Python2.6.6到2.7.8------------------1.下载Python-2.7.8wget https://www.python.org/ftp/python/2.7.8/Python-2.7.8.tgz如果版本不同，自行查阅https://www.python.org/ftp/python/x.x.x/2.解压Python-2.7.8t...

2018-03-20 15:11:57 1414

原创【甘道夫】Geohash基础应用By Python

介绍Geohash基础概念的文章很多，我就不拷贝粘贴了，我只用最简单的理解概括：Geohash用作坐标的索引，可大幅提升搜索坐标相关数据的效率。结合相邻9宫格的geohash，可以快速检索指定坐标附近一定范围内的地理信息目标（POI，道路等等）。python环境下的geohash库推荐：https://github.com/transitland/mapzen-geohash该库

2017-07-11 19:52:18 5662 1

原创【甘道夫】基于scikit-learn实现逻辑回归LogisticRegression

难得有不涉及机密，同时又有一定记录价值的收获，记录下来，以备查阅。欢迎转载，请注明出处：1.准备数据***基础：LIBSVM数据格式***数据文件格式如下： : : ...其中是训练数据集的目标值，对于分类，它是标识某类的整数(支持多个类)；对于回归，是任意实数。是以1开始的整数。如果特征值为0，特征冒号前面的

2015-12-08 22:20:22 3781

原创【甘道夫】scikit-learn安装

成功安装scikit-learn的过程

2015-12-08 22:14:04 603

原创【甘道夫】新的阶段

已经有一个季度没有更新博客了，那是因为在2015年6月，出于职业发展的考虑，换了一份新的工作。新工作的职位是后端资深工程师，数据挖掘方向，不再是管理层，重新回到一线技术，这是一次主动的人生清零，希望这一次清零的轮回能为我今后的职业生涯奠定更加殷实的基础。由于新的公司已经有专门的部门负责搭建和维护大数据基础设施，所以估计未来都不会再有机会像过去那样去研究和优化Hadoop家族相关

2015-08-15 20:56:04 991 2

原创【甘道夫】Java Hello World on Spark

引言通过Java编写Spark应用程序的HelloWorld，虽然有点寒碜，没用Scala简洁明了，但还是得尝试和记录下。环境Windows7Eclipse+MavenJdk1.7Ubuntu 14.04步骤一：在eclipse中创建maven工程，过程很简单，不详述。pom文件为：project xm

2015-04-17 17:50:08 2182

原创【甘道夫】Spark1.3.0 Running Spark on YARN 官方文档精华摘要

引言由于工作需要，即将拥抱Spark，曾经进行过相关知识的学习，现在计划详细读一遍最新版本Spark1.3的部分官方文档，一是复习，二是了解最新进展，三是为公司团队培训做储备。欢迎转载，请注明出处：http://blog.csdn.net/u010967382/article/details/45062407原文URL：http://sp

2015-04-15 17:29:33 2235 1

原创【甘道夫】Spark1.3.0 Submitting Applications 官方文档精华摘要

引言由于工作需要，即将拥抱Spark，曾经进行过相关知识的学习，现在计划详细读一遍最新版本Spark1.3的部分官方文档，一是复习，二是了解最新进展，三是为公司团队培训做储备。欢迎转载，请注明出处：原文URL：http://spark.apache.org/docs/latest/submitting-applications.html该

2015-04-15 17:27:21 1244

原创【甘道夫】Spark1.3.0 Cluster Mode Overview 官方文档精华摘要

引言由于工作需要，即将拥抱Spark，曾经进行过相关知识的学习，现在计划详细读一遍最新版本Spark1.3的部分官方文档，一是复习，二是了解最新进展，三是为公司团队培训做储备。欢迎转载，请注明出处：原文URL：http://spark.apache.org/docs/latest/cluster-overview.html该文档重点介绍了

2015-04-15 17:25:33 1371

转载 HDFS快照特性基础

转一篇团队成员塔瑞尔的博客，对HDFS快照特性的调研总结。博客原文：http://blog.csdn.net/linlinv3/article/details/44622203==========================================================================================通过snapsh

2015-03-25 17:17:35 865

原创【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制

前言HDFS为管理员提供了针对目录的配额控制特性，可以控制名称配额（指定目录下的文件&文件夹总数），或者空间配额（占用磁盘空间的上限）。本文探究了HDFS的配额控制特性，记录了各类配额控制场景的实验详细过程。实验环境基于Apache Hadoop 2.5.0-cdh5.2.0。欢迎转载，请注明出处：名称配额功能试用设置名称

2015-03-19 09:50:54 1912

原创【甘道夫】HBase随机宕机事件处理 & JVM GC回顾

一、引言本文记录了困扰团队两周的HBase随机宕机事件的解决方案，并回顾了JVM GC调优基础知识，供各位参考。欢迎转载，请注明出处：二、实验环境16台虚拟机，每台4G内存，1核CPU，400G硬盘Ubu

2015-01-04 16:31:46 4823 1

原创【甘道夫】Oozie-4.0.0-CDH5.2.0 安装部署

引言Oozie是Hadoop生态系统中的工作流控制组件，可以调度MR，Hive，Shell等各类任务，并配置复杂的工作流程。今天介绍如何安装部署，使用的是单机测试环境。欢迎转载，请注明来源：下载解压下载安装过程需要的相关文件：oozie4.0.0安装包http://archive.cloudera.com/cdh5

2014-11-21 18:59:33 4069

原创【甘道夫】CDH5.2的Maven依赖

之前一直结合Maven开发Hadoop2.2.0的程序，环境换成CDH5.2后报错，发现是Maven依赖库的问题。之前一直使用http://mvnrepository.com/查找maven依赖，但这类网站只能查到通用的maven依赖，没有包含CDH依赖，还好Cloudera提供了CDH的依赖：http://www.cloudera.com/content/

2014-11-15 15:00:34 2660

原创【甘道夫】开发Hive自定义UDF，生成32位字母数字随机串

引言曾经认为Hive自带的函数应该可以cover住我的日常所需，心想那些需要使用自定义函数的场景是不是太奇葩，谁知命运弄人，自己还是碰上了。需求很简单，我需要模拟Oracle中的SYS_GUID()函数，生成一个32位的字母数字随机串。开发环境：Eclipse+Maven，引入Hive0.13.1的依赖。欢迎转载，请注明来源：

2014-11-13 17:54:25 3488 1

原创【甘道夫】通过bulk load将HDFS上的数据导入HBase

引言通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能，下面简单记录下关键步骤。bulkload的详细情况请参见官网文档。过程第一步：每台机器执行ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml

2014-11-04 17:36:11 2353

原创【甘道夫】Ubuntu集群配置免认证登陆

引言这是几年前写的文章，但一直以来该问题被重复问到，所以我决定将它重新搬上屏幕。正文三个节点：masternode slavenode1 slavenode2第一步：所有节点分别生成密钥对所有节点都要做：命令行中，在当前用户根目录执行ssh-keygen -t rsa密钥成功生成后是存储在当前用户根目录下的.ss

2014-10-24 23:38:10 1574

原创【甘道夫】基于Mahout0.9+CDH5.2运行分布式ItemCF推荐算法

环境：hadoop-2.5.0-cdh5.2.0mahout-0.9-cdh5.2.0引言虽然Mahout已经宣布不再继续基于Mapreduce开发，迁移到Spark，但是实际面临的情况是公司集群没有足够的内存支持Spark这只把内存当饭吃的猛兽，再加上项目进度的压力以及开发人员的技能现状，所以不得不继续使用Mahout一段时间。今天记录

2014-10-24 15:32:30 2746 1

原创【甘道夫】如何在cdh5.2上运行mahout的itemcf on hadoop

环境：hadoop-2.5.0-cdh5.2.0mahout-0.9-cdh5.2.0步骤：基本思路是，将mahout下的所有jar包都引入hadoop的classpath即可，所以修改了$HADOOP_HOME/etc/hadoop/hadoop-env.sh，添加如下代码将mahout的所有jar包引入hadoop的classpath：f

2014-10-23 18:42:37 3187

原创【甘道夫】官网MapReduce实例代码详细批注

引言1.本文不描述MapReduce入门知识，这类知识网上很多，请自行查阅2.本文的实例代码来自官网http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html最后的WordCount v2.0，该

2014-10-16 18:21:33 2191

原创【甘道夫】使用HIVE SQL实现推荐系统数据补全

需求在推荐系统场景中，如果基础行为数据太少，或者过于稀疏，通过推荐算法计算得出的推荐结果很可能达不到要求的数量。比如，希望针对每个item或user推荐20个item，但是通过计算只得到8个，剩下的12个就需要补全。欢迎转载，请注明出处：策略数据补全的具体策略是：补全时机：在挖掘计算结束后，挖掘结果导入HBase（最终web系

2014-09-29 19:05:20 3535 2

原创【甘道夫】Hive0.13.1图形界面HWI尝鲜

引言HIVE的操作接口除了常用的CLI之外，还有图形界面HWI，今天尝试了下HWI，特此记录供以后参考。过程apache-hive-0.13.1-bin.tar.gz 的 lib 目录默认不包含 hive-hwi-0.13.1.war，我们需要到源码包中获取HWI。（1）将源码包 apache-hive-0.13.1-src.tar.gz 下载到本地

2014-09-26 18:15:14 2377

原创【甘道夫】Win7+Eclipse+Maven进行Mahout编程，使其兼容Hadoop2.2.0环境运行

引言之前成功在服务器上为Mahout0.9打patch，使其支持Hadoop2.2.0。今天的需求是：在Win7+Eclipse+Maven环境下开发Mahout程序，打jar包放到集群上，使其在Hadoop2.2.0下正常运行。过程步骤一：Eclipse下创建Maven工程pom.xml：1.引入mahout依赖 depe

2014-09-11 17:54:20 2769 2

原创【甘道夫】Mahout推荐算法编程实践

引言Taste是曾经风靡一时的推荐算法框架，后来被并入Mahout中，Mahout的部分推荐算法基于Taste实现。下文介绍基于Taste实现最常用的UserCF和ItemCF。本文不涉及UserCF和ItemCF算法的介绍，这方面网上资料很多，本文仅介绍如何基于Mahout编程实现。欢迎转载，请注明来源：步骤一：构建数据模型

2014-09-10 17:27:09 3358 1

原创【甘道夫】用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0

引言接前一篇文章《【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0》http://blog.csdn.net/u010967382/article/details/39088035，为Mahout0.9打过Patch编译成功后，使用贝叶斯文本分类来测试Mahout0.9对Hadoop2.2.0的兼容性。步

2014-09-05 23:31:01 1632

原创【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0

引言Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本，但很多情况下，由于集群环境的Hadoop已经是2.2.0以上版本，又必须使用Mahout，此时就需要编译源码，使得Mahout支持Hadoop2了。欢迎转载，请注明出处：造好的车轮让Mahout在Hadoop2.2.0上运行是需求十分广泛的，所以必定有前人已经栽好树了，我们可以在

2014-09-05 23:26:12 2816 6

原创【甘道夫】Sqoop1.4.4原生增量导入特性探秘

原始思路要想实现增量导入，完全可以不使用Sqoop的原生增量特性，仅使用shell脚本生成一个以当前时间为基准的固定时间范围，然后拼接Sqoop命令语句即可。原生增量导入特性简介Sqoop提供了原生增量导入的特性，包含以下三个关键参数：ArgumentDescription--check-column (col

2014-08-27 18:33:44 2858 1

原创【甘道夫】实现Hive数据同步更新的shell脚本

引言：上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ，并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop，Hive命令，本文基于上一篇文章的内容实现了shell脚本的编写，稍加修改就可用于实际工程

2014-08-25 18:20:33 2605

原创【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ，并更新Hive中的主表

需求将Oracle中的业务基础表增量数据导入Hive中，与当前的全量表合并为最新的全量表。设计涉及的三张表：全量表：保存了截止上一次同步时间的全量基础数据表增量表：增量临时表更新后的全量表：更新后的全量数据表步骤：通过Sqoop将Oracle中的表导入Hive，模拟全量表和增量表通过Hive将“全量

2014-08-21 19:14:08 4068 1

原创【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详解

环境：hadoop2.2.0hive0.13.1Ubuntu 14.04 LTSjava version "1.7.0_60"Oracle10g到以下地址下载安装包http://mirrors.cnnic.cn/apache/hive/stable/apache-hive-0.13.1-bin.tar.gz

2014-08-20 18:07:09 3351 1

原创【甘道夫】HBase连接池 -- HTablePool被Deprecated之后

说明：最近两天在调研HBase的连接池，有了一些收获，特此记录下来。本文先将官方文档（http://hbase.apache.org/book.html）9.3.1.1节翻译，方便大家阅读，然后查阅了关键类HConnectionManager的Developer API（http://hbase.apache.org/devapidocs/index.html）做了一些总结。

2014-07-22 18:05:47 26481 4

原创【甘道夫】HBase基本数据操作详解【完整版，绝对精品】

【甘道夫】HBase基本数据操作详解【完整版，绝对精品】

2014-07-16 15:31:22 27613 5

【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解 -- 配套源码

【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解--配套代码

synthetic_control.data

Hadoop1.0&2.0快速入门

空空如也