安伦_Alan-CSDN博客

原创 maven 3.3.9编译spark1.5.0 cdh5.5.1

1、下载spark源码解压到目录/usr/local/spark-1.5.0-cdh5.5.1，看看是否有pom.xml文件2、切换到目录/usr/local/spark-1.5.0-cdh5.5.1执行：编译spark源代码的时候，需要从网上下载依赖包，所以整个编译过程机器必须保证在联网状态。编译执行如下脚本：[hadoop@hadoop spark-1.5.0-cdh5.5

2016-03-14 13:29:13 813

原创 centos yum源配置问题解决办法

问题：[root@hadoop yum.repos.d]# mount -t auto /dev/cdrom /mnt/cdrommount: you must specify the filesystem type解决办法：mount -o loop /dev/cdrom /mnt/cdrom/问题：Could not open/read file

2016-03-08 10:30:11 971

原创初识Spark 1.6.0

1、 Spark发展背景Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)以Matei为主的小团队使用Scala语言所开发，后期成立spark商业公司databricks，CEOAli，CTO Matei,后期愿景是实现databrickscloud。Spark是新一代基于内存迭代计算的、开源的、分布式的、并行的计算框架，抛去繁琐的

2016-03-03 14:51:23 683

转载 Linux NFS服务器的安装与配置

一、NFS服务简介　　NFS 是Network File System的缩写，即网络文件系统。一种使用于分散式文件系统的协定，由Sun公司开发，于1984年向外公布。功能是通过网络让不同的机器、不同的操作系统能够彼此分享个别的数据，让应用程序在客户端通过网络访问位于服务器磁盘中的数据，是在类Unix系统间实现磁盘文件共享的一种方法。　　NFS 的基本原则是“容许不同的客户端及服务端通过一组

2016-02-02 10:51:18 429

转载 python操作Excel读写--使用xlrd

一、安装xlrd模块到python官网下载http://pypi.python.org/pypi/xlrd模块安装，前提是已经安装了python 环境。二、使用介绍 1、导入模块 import xlrd 2、打开Excel文件读取数据 data = xlrd.open_workbook('excelFile.xls')

2016-01-29 11:45:03 462

转载 MapReduce任务参数调优(转)

http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/本文主要记录Hadoop 2.x版本中MapReduce参数调优，不涉及Yarn的调优。Hadoop的默认配置文件（以cdh5.0.1为例）：core-default.xmlhdfs-default.xmlmapred-default.xml说明：在had

2016-01-22 14:51:19 655

原创 hadoop2.5.0-cdh5.3.3 伪分布式安装（mysql、hive、sqoop）

一、准备一台机器（我的是centos 6.7 64位）-----------------------------------------------------------------------------------------------------------主机名和ip地址映射：[hadoop@hadoop ~]$ cat /etc/hosts127.0.0.1

2016-01-19 12:03:47 1428

转载 python爬虫抢火车票

首先我们需要splinter安装：pip install splinter -i http://pypi.douban.com/simple --trusted-host pypi.douban.com然后还需要一个浏览器的驱动，当然用chrome啦下载地址：http://chromedriver.storage.googleapis.com/index

2016-01-13 10:13:30 5985 13

转载 Linux下修改Mysql的用户(root)的密码

修改的用户都以root为列。一、拥有原来的myql的root的密码；方法一：在mysql系统外，使用mysqladmin# mysqladmin -u root -p password "test123"Enter password: 【输入原来的密码】方法二：通过登录mysql系统，# mysql -uroot -pEnter password: 【输

2015-12-31 14:59:34 505

转载大数据/数据挖掘/推荐系统/机器学习相关资源

书籍各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html机器学习&深度学习经典资料汇总 http://www.thebigdata.cn/JiShuBoKe/13299.htm

2015-12-28 13:55:21 2263

转载 ETL AUTOMATION介绍

数据仓库与数据挖掘/**********************************/目录：第一部分：ETL Automation简介第二部分：ETL Automation架构第三部分：ETL Automation环境变量说明第四部分：ETL Automation目录结构说明第五部分：ETL Automation服务说明第六部分：ETL Automation

2015-12-28 13:37:07 2153

转载 shell中${ } 用法详解

shell中${ } 的一些特异功能假设我们定义了一个变量为： file=/dir1/dir2/dir3/my.file.txt 我们可以用 ${ } 分别替换获得不同的值： ${file#*/}：拿掉第一条 / 及其左边的字符串：dir1/dir2/dir3/my.file.txt ${file##*/}：拿掉最后一条 / 及其左边的字符串：my.file.txt ${f

2015-12-18 17:12:29 1167

转载 perl DBI mysql包安装详解

1.安装mysql 并运行 2.首先安装DBI ：Perl MakeFile.PL Make Make install3.DBD-mysql包 #perl Makefile.PL --mysql_config=/usr/local/mysql/bin/mysql_config （指定mysql_config位置）或者：#perl Makefile.PL -mysq

2015-12-18 15:36:40 842

原创 infobright学习笔记

介绍官网https://www.infobright.com/Infobright是一个基于独特的专利知识网格技术的列式数据库，能够降低您90%的管理工作量。在一台PC服务器上，Infobright企业版在对50TB甚至更多数据量进行多并发复杂查询时，能够显示出令人惊叹的速度，相比于MySQL，其查询速度提升了数倍甚至数十倍。在同类产品中，Infobright的单机性能处于领先地位

2015-12-17 19:53:03 2788

原创大数据学习路线

===============================================================学习大数据，一步一个脚印 1 2 3 走起来！！！===============================================================一、Hadoop入门，了解什么是Hadoop1、Hadoop产生背景

2015-12-17 18:45:52 502

转载在 Perl 下处理时间的小技巧 strftime

在 Perl 中处理时间，很多模块，很方便，但是刚开始玩的人，可能没有发现合适的模块，所以使用起来感觉很麻烦。通常大家都 localtime 搞得大家都很火大。我有幸和大师学习了一下，给大家推荐一下一个模块 strftime。我们在推荐前，介绍一下 Perl 下取时间的今生前世吧。以前我想大家都是使用的 localtime 来取得当地日期时间和日期。这个函数如果在标量环境时，会以

2015-12-04 15:16:54 1432

转载 mysql存储过程动态执行sql

--存储过程名和参数，参数中in表示传入参数，out标示传出参数，inout表示传入传出参数create procedure p_procedurecode(in sumdate varchar(10)) begin declare v_sql varchar(500); --需要执行的SQL语句 declare sym varchar(6);

2015-11-30 18:54:11 637

转载 hive配置文件详解

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行） true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默认是 128兆。

2015-11-05 10:57:25 1959

转载 InfoBright4.5企业版安装详细步骤

系统环境：RedHat6.2 64位InfoBright：4.5 今天拿到了服务商给到的rpm安装包和linence,开发那边也催的很紧，就马上安装配置。网上很少比较详细全面的安装文档，于是自己写一遍，希望对大家有帮助。1、安装前准备：（1）、修改Linux相关的配置文件，sysctl.conf 、limit.conf、hosts等文件.（2）、配置网络，关闭防火强

2015-11-05 10:35:00 1069

Hive是目前应用最多最广的SQL on Hadoop工具，近期很多专业的大数据公司推出了很多新的，基于列式或者内存热数据的SQL工具，像Impala，Tez，Spark等等，但是Hive仍然是目前使用率最高和普及面最广的SQL on Hadoop的工具。在以前淘宝罗李的报告中，淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些，大概95%以上都是跑在Hive上面。尽管很多人对Hive有看法

2015-10-16 16:29:24 1939

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

====================================marked by Alan at 2015-10-15 13:52=========================================1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有h

2015-10-16 13:53:00 388

转载 Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需要的内容，这套SQL 简称Hive SQL，使不熟悉mapreduce 的用户很方便的利用SQL 语言

2015-10-15 14:15:49 446

原创 hadoop2.0单机部署（配置文件）

=====================================================主要配置一下几个配置文件=====================================================1.core-site.xml fs.default.name hdfs://YARN001:8020

2015-10-09 14:30:49 451

原创 HIVE函数

1、日期函数返回值类型名称描述 string from_unixtime(int unixtime) 将时间戳（unix epoch秒数）转换为日期时间字符串，例如from_unixtime(0)="1970-01-01 00:00:00" bigint unix_tim

2015-10-09 11:08:57 499

原创 sqoop工具使用大全

=====================================================一、将数据从关系型数据库导入Hadoop中=====================================================1、Sqoop import使用sqoop import \--connect jdbc:mysql://mysql.ex

2015-09-17 16:23:48 747

原创 hive之HQL用法案例

建库：hive> CREATE DATABASE IF NOT EXISTS mydb;建表：Hive默认分隔符：\n 记录间的分割符，默认一行一条记录^A (“control” A) 列分隔符，通常写成“\001”^B ARRAY或

2015-09-16 16:08:18 724

原创 YARN资源管理和调度简介

1、运行在YARN上的MapReduce应用程序2、运行在YARN上的Storm应用程序3、YARN应用程序基本构成①客户端：主要作用是提供一系列访问接口供用户与YARN交互，包括提交Application、查询Application运行状态，修改Application属性（比如优先级）等。②ApplicationMaster：向ResourceMana

2015-09-09 13:58:52 1771

原创 hadoop一些常见的案例（更新中）

案例1：新增节点，新节点没有任何数据，但是旧节点已经存储了很多数据，那么，怎么把旧节点的数据移动到新节点呢？数据块重分布sbin/start-balancer.sh -threshold percentage of disk capacityHDFS达到平衡状态的磁盘使用率偏差值值越低各节点越平衡，但消耗时间也更长这是一个进程，启动之后他就会在后台不停的扫描，从而进行负

2015-09-07 17:16:55 711

原创 hadoop上作业执行方法

脚本:例1：#!/bin/bashHADOOP_HOME=/home/alan/hadoop/hadoop-0.20.2-cdh3u6${HADOOP_HOME}/bin/hadoop jar\ ${HADOOP_HOME}/contrib/streaming/hadoop-streaming-0.20.2-cdh3u6.jar\ -files wc_

2015-09-07 13:44:18 553 1

原创 ubuntu 安装hadoop_cdh5.4.1步骤

1、配置ip并修改主机名sudo vi /etc/hostname2、主机名解析sudo vi /etc/hostsscp hosts hadoop@datanode1:/etcscp hosts hadoop@datanode2:/etcscp hosts hadoop@datanode3:/etc3、关闭防火墙sudo ufw disable4、免密

2015-09-06 17:29:53 719

原创 HDFS HA+Federation的部署（多机）-配置文件

2015-09-06 15:04:21 728

原创 HDFS HA部署（多机）——配置文件

2015-09-06 14:14:31 534

原创 Hadoop2+HA+YARN环境搭建

一、前期准备四台机子，配置如下：[root@datanode1 usr]# cat /etc/hosts# Do not remove the following line, or various programs# that require network functionality will fail.127.0.0.1 localhost.loca

2015-09-02 14:23:13 567

转载 Hadoop 2.0生产环境（多机）搭建方法

步骤1：将安装包hadoop-2.2.0.tar.gz存放到某一目录下，并解压；步骤2：修改解压后的目录中的文件夹etc/hadoop下的xml配置文件（如果文件不存在，则自己创建），包括hadoop-env.sh、mapred-site.xml、core-site.xml、hdfs-site.xml和yarn-site.xml；步骤3：格式化并启动HDFS；步骤4：启动YARN。

2015-09-01 14:24:25 757

原创部署hadoop集群需要配置的文件

一、修改主机名：vi /etc/sysconfig/networkNETWORKING=yesNETWORKING_IPV6=yesHOSTNAME=hadoop二、修改主机名解析配置文件：vi /etc/hosts# Do not remove the following line, or various programs# that require network

2015-08-31 17:28:35 486

原创 hadoop新增节点配置步骤

新加datanode的安装步骤:1、ssh无密码配置和上面详细步骤一样，在新datanode上的/root 上建一个/.ssh的目录，把namenode的authorized_keys复制到新datanode的/.ssh目录上。在namenode上ssh验证一下是否需要密码。2修改机器名，和上面详细步骤一样。记得重启一下。3建/usr/program这个目录，把jdk的安装文件放进去，

2015-08-31 16:50:13 710

原创 Hadoop环境部署（单节点和集群）

1、单节点环境搭建步骤：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html2、集群环境搭建步骤：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSe

2015-08-31 13:34:50 701

转载 Hadoop学习笔记

# hadoop前言# Hadoop试验集群的部署结构# 系统和组建的依赖关系 # 生产环境的部署结构# Day1 搭建伪分布实验环境# 准备软件# vmare 9.0.2# 操作系统 CentOS 6.4# jdk-6u45-linux-i586.bin# hadoop-1.1.2.tar.gz# 开始搭建环境一（基础环境）# 在虚拟

2015-08-28 16:39:00 2309

原创一些常用到的linux命令整理笔记

linux 命令平时笔记：sed -i "s/string/replacestring/g" file #文件file中的内容全部替换，真实的替换date -n 0825000115 #更改服务器时间netstat -tanp #查看某个进程占用哪个端口如果需要释放，则执行:kill PID,如果需要全部kill,执行：netstat -tanp |awk '{print $7

2015-08-27 16:56:49 426

转载 sqoop导入数据到关系型数据库到hive

Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例，实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。这里使用 h

2015-08-27 10:53:02 2413