9 安伦_Alan

尚未进行身份认证

我要认证

随身笔记

等级
TA的排名 3w+

maven 3.3.9编译spark1.5.0 cdh5.5.1

1、下载spark源码解压到目录/usr/local/spark-1.5.0-cdh5.5.1,看看是否有pom.xml文件2、切换到目录/usr/local/spark-1.5.0-cdh5.5.1执行:编译spark源代码的时候,需要从网上下载依赖包,所以整个编译过程机器必须保证在联网状态。编译执行如下脚本:[hadoop@hadoop spark-1.5.0-cdh5.5

2016-03-14 13:29:13

centos yum源配置问题解决办法

问题:[root@hadoop yum.repos.d]# mount -t auto /dev/cdrom /mnt/cdrommount: you must specify the filesystem type解决办法:mount -o loop /dev/cdrom /mnt/cdrom/问题:Could not open/read file

2016-03-08 10:30:11

初识Spark 1.6.0

1、  Spark发展背景Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)以Matei为主的小团队使用Scala语言所开发,后期成立spark商业公司databricks,CEOAli,CTO Matei,后期愿景是实现databrickscloud。Spark是新一代基于内存迭代计算的、开源的、分布式的、并行的计算框架,抛去繁琐的

2016-03-03 14:51:23

Linux NFS服务器的安装与配置

一、NFS服务简介  NFS 是Network File System的缩写,即网络文件系统。一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布。功能是通过网络让不同的机器、不同的操作系统能够彼此分享个别的数据,让应用程序在客户端通过网络访问位于服务器磁盘中的数据,是在类Unix系统间实现磁盘文件共享的一种方法。  NFS 的基本原则是“容许不同的客户端及服务端通过一组

2016-02-02 10:51:18

python操作Excel读写--使用xlrd

一、安装xlrd模块   到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境。二、使用介绍  1、导入模块       import xlrd   2、打开Excel文件读取数据      data = xlrd.open_workbook('excelFile.xls')

2016-01-29 11:45:03

MapReduce任务参数调优(转)

http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。Hadoop的默认配置文件(以cdh5.0.1为例):core-default.xmlhdfs-default.xmlmapred-default.xml说明:在had

2016-01-22 14:51:19

hadoop2.5.0-cdh5.3.3 伪分布式安装(mysql、hive、sqoop)

一、准备一台机器(我的是centos 6.7 64位)-----------------------------------------------------------------------------------------------------------主机名和ip地址映射:[hadoop@hadoop ~]$ cat /etc/hosts127.0.0.1

2016-01-19 12:03:47

python爬虫抢火车票

首先我们需要splinter安装:pip install splinter -i http://pypi.douban.com/simple --trusted-host pypi.douban.com然后还需要一个浏览器的驱动,当然用chrome啦下载地址:http://chromedriver.storage.googleapis.com/index

2016-01-13 10:13:30

Linux下修改Mysql的用户(root)的密码

修改的用户都以root为列。一、拥有原来的myql的root的密码;方法一:在mysql系统外,使用mysqladmin# mysqladmin -u root -p password "test123"Enter password: 【输入原来的密码】方法二:通过登录mysql系统,# mysql -uroot -pEnter password: 【输

2015-12-31 14:59:34

大数据/数据挖掘/推荐系统/机器学习相关资源

书籍各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html机器学习&深度学习经典资料汇总 http://www.thebigdata.cn/JiShuBoKe/13299.htm

2015-12-28 13:55:21

ETL AUTOMATION介绍

数据仓库与数据挖掘/**********************************/目录:第一部分:ETL Automation简介第二部分:ETL Automation架构第三部分:ETL Automation环境变量说明第四部分:ETL Automation目录结构说明第五部分:ETL Automation服务说明第六部分:ETL Automation

2015-12-28 13:37:07

shell中${ } 用法详解

shell中${ } 的一些特异功能假设我们定义了一个变量为: file=/dir1/dir2/dir3/my.file.txt 我们可以用 ${ } 分别替换获得不同的值: ${file#*/}:拿掉第一条 / 及其左边的字符串:dir1/dir2/dir3/my.file.txt ${file##*/}:拿掉最后一条 / 及其左边的字符串:my.file.txt ${f

2015-12-18 17:12:29

perl DBI mysql包安装详解

1.安装mysql 并运行 2.首先安装DBI :Perl MakeFile.PL Make  Make install3.DBD-mysql包 #perl Makefile.PL --mysql_config=/usr/local/mysql/bin/mysql_config (指定mysql_config位置)或者:#perl Makefile.PL -mysq

2015-12-18 15:36:40

infobright学习笔记

介绍    官网https://www.infobright.com/Infobright是一个基于独特的专利知识网格技术的列式数据库,能够降低您90%的管理工作量。在一台PC服务器上,Infobright企业版在对50TB甚至更多数据量进行多并发复杂查询时,能够显示出令人惊叹的速度,相比于MySQL,其查询速度提升了数倍甚至数十倍。在同类产品中,Infobright的单机性能处于领先地位

2015-12-17 19:53:03

大数据学习路线

===============================================================学习大数据,一步一个脚印  1 2 3 走起来!!!===============================================================一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景

2015-12-17 18:45:52

在 Perl 下处理时间的小技巧 strftime

在 Perl 中处理时间,很多模块,很方便,但是刚开始玩的人,可能没有发现合适的模块,所以使用起来感觉很麻烦。通常大家都 localtime 搞得大家都很火大。我有幸和大师学习了一下,给大家推荐一下一个模块 strftime。       我们在推荐前,介绍一下 Perl 下取时间的今生前世吧。以前我想大家都是使用的 localtime 来取得当地日期时间和日期。这个函数如果在标量环境时,会以

2015-12-04 15:16:54

mysql存储过程动态执行sql

--存储过程名和参数,参数中in表示传入参数,out标示传出参数,inout表示传入传出参数create procedure p_procedurecode(in sumdate varchar(10))   begin     declare v_sql varchar(500);    --需要执行的SQL语句     declare sym varchar(6);  

2015-11-30 18:54:11

hive配置文件详解

hive.exec.mode.local.auto  决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max  如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。

2015-11-05 10:57:25

InfoBright4.5企业版安装详细步骤

系统环境:RedHat6.2 64位InfoBright:4.5      今天拿到了服务商给到的rpm安装包和linence,开发那边也催的很紧,就马上安装配置。网上很少比较详细全面的安装文档,于是自己写一遍,希望对大家有帮助。1、安装前准备:(1)、修改Linux相关的配置文件,sysctl.conf 、limit.conf、hosts等 文件.(2)、配置网络,关闭防火强

2015-11-05 10:35:00

HIVE 调优方法大全

Hive是目前应用最多最广的SQL on Hadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是Hive仍然是目前使用率最高和普及面最广的SQL on Hadoop的工具。在以前淘宝罗李的报告中,淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些,大概95%以上都是跑在Hive上面。尽管很多人对Hive有看法

2015-10-16 16:29:24

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!