7 Gandalf_lee

尚未进行身份认证

我要认证

关注数据挖掘、机器学习相关技术。

等级
TA的排名 2w+

【甘道夫】Hive扩展GIS函数

阶段一:编译函数包基于https://github.com/Esri/spatial-framework-for-hadoop 项目编译产出两个jar包:spatial-sdk-hive-2.1.1-SNAPSHOT.jarspatial-sdk-json-2.1.1-SNAPSHOT.jar在maven本地仓库中找出jar包 esri-geometry-api-2.2.0.jar注...

2019-06-14 20:53:27

【甘道夫】conda及pip公司内网无法使用

当在公司内网环境使用conda时,即使https://www.anaconda.com/能通过浏览器访问,执行conda命令时也可能提示无法连接。此时我们需要做的不是修改conda源(清华、中科大等国内源由于版权问题都已停止conda服务),我们需要做的是配置代理。参考https://stackoverflow.com/questions/31099279/running-conda...

2019-05-07 20:58:49

【官网文档】机器学习术语表

https://developers.google.cn/machine-learning/glossary/本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。AA/B 测试 (A/B testing)一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相...

2019-04-25 16:16:15

【甘道夫】Pandas 基础知识总结

欢迎转载,转载时请注明来源:https://blog.csdn.net/u010967382/article/details/894905021.简介pandas包括3类核心数据结构:一维:pandas.core.series.Series二维:pandas.core.frame.DataFrame三维:pandas.core.panel.Panel(从0.20.0版本开始不建...

2019-04-24 12:50:30

【甘道夫】tensorflow的session.run运行一个op和多个op的区别

背景:session.run方法可以传入一个op,也可以传入op列表,例如,我们希望执行op1和op2,有两种写法:sess.run(op1)sess.run(op2)和sess.run([op1, op2])如果op1和op2有相互包含关系,第写法1会将op1和op2的图各完整执行一遍,而写法2不会重复执行op1和op2中的公共部分。例如:# coding: u...

2018-08-19 20:10:04

【甘道夫】升级gcc到7.3.0

背景:需要安装fasttext,但发现gcc版本太低,所以有了如下的gcc升级过程。#查看当前版本gcc --version # 先查看当前版本确认是否需要升级cd /wget ftp.gnu.org/gnu/gcc/gcc-7.3.0/gcc-7.3.0.tar.gztar -zxvf gcc-7.3.0.tar.gzcd gcc-7.3.0#检测和安装相关依赖包,这个过程需要耐心...

2018-07-30 20:43:40

【甘道夫】基于sklearn计算tfidf时支持char + word模式

欢迎转载,请注明原文链接:https://blog.csdn.net/u010967382/article/details/79728404本文不介绍sklearn计算tfidf的过程,网上文章很多,只指出一个坑及其解决方案。做tfidf计算有几行核心代码:    vectorizer = CountVectorizer()        transformer = TfidfTransforme...

2018-03-28 15:28:55

【甘道夫】升级python2.6.6到2.7.8 ,安装scikit-learn-0.19.1,安装tensorflow

------------------升级Python2.6.6到2.7.8------------------1.下载Python-2.7.8wget https://www.python.org/ftp/python/2.7.8/Python-2.7.8.tgz如果版本不同,自行查阅https://www.python.org/ftp/python/x.x.x/2.解压Python-2.7.8t...

2018-03-20 15:11:57

【甘道夫】Geohash基础应用By Python

介绍Geohash基础概念的文章很多,我就不拷贝粘贴了,我只用最简单的理解概括:Geohash用作坐标的索引,可大幅提升搜索坐标相关数据的效率。结合相邻9宫格的geohash,可以快速检索指定坐标附近一定范围内的地理信息目标(POI,道路等等)。python环境下的geohash库推荐:https://github.com/transitland/mapzen-geohash该库

2017-07-11 19:52:18

【甘道夫】基于scikit-learn实现逻辑回归LogisticRegression

难得有不涉及机密,同时又有一定记录价值的收获,记录下来,以备查阅。欢迎转载,请注明出处:1.准备数据***基础:LIBSVM数据格式***数据文件格式如下: : : ...其中 是训练数据集的目标值,对于分类,它是标识某类的整数(支持多个类);对于回归,是任意实数。 是以1开始的整数。如果特征值为0,特征冒号前面的

2015-12-08 22:20:22

【甘道夫】scikit-learn安装

成功安装scikit-learn的过程

2015-12-08 22:14:04

【甘道夫】新的阶段

已经有一个季度没有更新博客了,那是因为在2015年6月,出于职业发展的考虑,换了一份新的工作。新工作的职位是后端资深工程师,数据挖掘方向,不再是管理层,重新回到一线技术,这是一次主动的人生清零,希望这一次清零的轮回能为我今后的职业生涯奠定更加殷实的基础。        由于新的公司已经有专门的部门负责搭建和维护大数据基础设施,所以估计未来都不会再有机会像过去那样去研究和优化Hadoop家族相关

2015-08-15 20:56:04

【甘道夫】Java Hello World on Spark

引言通过Java编写Spark应用程序的HelloWorld,虽然有点寒碜,没用Scala简洁明了,但还是得尝试和记录下。环境Windows7Eclipse+MavenJdk1.7Ubuntu 14.04步骤一:在eclipse中创建maven工程,过程很简单,不详述。pom文件为:project xm

2015-04-17 17:50:08

【甘道夫】Spark1.3.0 Running Spark on YARN 官方文档精华摘要

引言由于工作需要,即将拥抱Spark,曾经进行过相关知识的学习,现在计划详细读一遍最新版本Spark1.3的部分官方文档,一是复习,二是了解最新进展,三是为公司团队培训做储备。欢迎转载,请注明出处:http://blog.csdn.net/u010967382/article/details/45062407原文URL:http://sp

2015-04-15 17:29:33

【甘道夫】Spark1.3.0 Submitting Applications 官方文档精华摘要

引言由于工作需要,即将拥抱Spark,曾经进行过相关知识的学习,现在计划详细读一遍最新版本Spark1.3的部分官方文档,一是复习,二是了解最新进展,三是为公司团队培训做储备。欢迎转载,请注明出处:原文URL:http://spark.apache.org/docs/latest/submitting-applications.html该

2015-04-15 17:27:21

【甘道夫】Spark1.3.0 Cluster Mode Overview 官方文档精华摘要

引言由于工作需要,即将拥抱Spark,曾经进行过相关知识的学习,现在计划详细读一遍最新版本Spark1.3的部分官方文档,一是复习,二是了解最新进展,三是为公司团队培训做储备。欢迎转载,请注明出处:原文URL:http://spark.apache.org/docs/latest/cluster-overview.html该文档重点介绍了

2015-04-15 17:25:33

HDFS快照特性基础

转一篇团队成员 塔瑞尔 的博客,对HDFS快照特性的调研总结。博客原文:http://blog.csdn.net/linlinv3/article/details/44622203==========================================================================================通过snapsh

2015-03-25 17:17:35

【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制

前言HDFS为管理员提供了针对目录的配额控制特性,可以控制名称配额(指定目录下的文件&文件夹总数),或者空间配额(占用磁盘空间的上限)。本文探究了HDFS的配额控制特性,记录了各类配额控制场景的实验详细过程。实验环境基于Apache Hadoop 2.5.0-cdh5.2.0。欢迎转载,请注明出处:名称配额功能试用设置名称

2015-03-19 09:50:54

【甘道夫】HBase随机宕机事件处理 & JVM GC回顾

一、引言本文记录了困扰团队两周的HBase随机宕机事件的解决方案,并回顾了JVM GC调优基础知识,供各位参考。欢迎转载,请注明出处:二、实验环境16台虚拟机,每台4G内存,1核CPU,400G硬盘Ubu

2015-01-04 16:31:46

【甘道夫】Oozie-4.0.0-CDH5.2.0 安装部署

引言Oozie是Hadoop生态系统中的工作流控制组件,可以调度MR,Hive,Shell等各类任务,并配置复杂的工作流程。今天介绍如何安装部署,使用的是单机测试环境。欢迎转载,请注明来源:下载解压下载安装过程需要的相关文件:oozie4.0.0安装包http://archive.cloudera.com/cdh5

2014-11-21 18:59:33

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。