自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白飞飞_Alan

我为自己而写,我的随身笔记

  • 博客(148)
  • 资源 (10)
  • 收藏
  • 关注

原创 maven 3.3.9编译spark1.5.0 cdh5.5.1

1、下载spark源码解压到目录/usr/local/spark-1.5.0-cdh5.5.1,看看是否有pom.xml文件2、切换到目录/usr/local/spark-1.5.0-cdh5.5.1执行:编译spark源代码的时候,需要从网上下载依赖包,所以整个编译过程机器必须保证在联网状态。编译执行如下脚本:[hadoop@hadoop spark-1.5.0-cdh5.5

2016-03-14 13:29:13 813

原创 centos yum源配置问题解决办法

问题:[root@hadoop yum.repos.d]# mount -t auto /dev/cdrom /mnt/cdrommount: you must specify the filesystem type解决办法:mount -o loop /dev/cdrom /mnt/cdrom/问题:Could not open/read file

2016-03-08 10:30:11 971

原创 初识Spark 1.6.0

1、  Spark发展背景Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)以Matei为主的小团队使用Scala语言所开发,后期成立spark商业公司databricks,CEOAli,CTO Matei,后期愿景是实现databrickscloud。Spark是新一代基于内存迭代计算的、开源的、分布式的、并行的计算框架,抛去繁琐的

2016-03-03 14:51:23 683

转载 Linux NFS服务器的安装与配置

一、NFS服务简介  NFS 是Network File System的缩写,即网络文件系统。一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布。功能是通过网络让不同的机器、不同的操作系统能够彼此分享个别的数据,让应用程序在客户端通过网络访问位于服务器磁盘中的数据,是在类Unix系统间实现磁盘文件共享的一种方法。  NFS 的基本原则是“容许不同的客户端及服务端通过一组

2016-02-02 10:51:18 429

转载 python操作Excel读写--使用xlrd

一、安装xlrd模块   到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境。二、使用介绍  1、导入模块       import xlrd   2、打开Excel文件读取数据      data = xlrd.open_workbook('excelFile.xls')

2016-01-29 11:45:03 462

转载 MapReduce任务参数调优(转)

http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。Hadoop的默认配置文件(以cdh5.0.1为例):core-default.xmlhdfs-default.xmlmapred-default.xml说明:在had

2016-01-22 14:51:19 655

原创 hadoop2.5.0-cdh5.3.3 伪分布式安装(mysql、hive、sqoop)

一、准备一台机器(我的是centos 6.7 64位)-----------------------------------------------------------------------------------------------------------主机名和ip地址映射:[hadoop@hadoop ~]$ cat /etc/hosts127.0.0.1

2016-01-19 12:03:47 1428

转载 python爬虫抢火车票

首先我们需要splinter安装:pip install splinter -i http://pypi.douban.com/simple --trusted-host pypi.douban.com然后还需要一个浏览器的驱动,当然用chrome啦下载地址:http://chromedriver.storage.googleapis.com/index

2016-01-13 10:13:30 5985 13

转载 Linux下修改Mysql的用户(root)的密码

修改的用户都以root为列。一、拥有原来的myql的root的密码;方法一:在mysql系统外,使用mysqladmin# mysqladmin -u root -p password "test123"Enter password: 【输入原来的密码】方法二:通过登录mysql系统,# mysql -uroot -pEnter password: 【输

2015-12-31 14:59:34 505

转载 大数据/数据挖掘/推荐系统/机器学习相关资源

书籍各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html机器学习&深度学习经典资料汇总 http://www.thebigdata.cn/JiShuBoKe/13299.htm

2015-12-28 13:55:21 2263

转载 ETL AUTOMATION介绍

数据仓库与数据挖掘/**********************************/目录:第一部分:ETL Automation简介第二部分:ETL Automation架构第三部分:ETL Automation环境变量说明第四部分:ETL Automation目录结构说明第五部分:ETL Automation服务说明第六部分:ETL Automation

2015-12-28 13:37:07 2153

转载 shell中${ } 用法详解

shell中${ } 的一些特异功能假设我们定义了一个变量为: file=/dir1/dir2/dir3/my.file.txt 我们可以用 ${ } 分别替换获得不同的值: ${file#*/}:拿掉第一条 / 及其左边的字符串:dir1/dir2/dir3/my.file.txt ${file##*/}:拿掉最后一条 / 及其左边的字符串:my.file.txt ${f

2015-12-18 17:12:29 1167

转载 perl DBI mysql包安装详解

1.安装mysql 并运行 2.首先安装DBI :Perl MakeFile.PL Make  Make install3.DBD-mysql包 #perl Makefile.PL --mysql_config=/usr/local/mysql/bin/mysql_config (指定mysql_config位置)或者:#perl Makefile.PL -mysq

2015-12-18 15:36:40 842

原创 infobright学习笔记

介绍    官网https://www.infobright.com/Infobright是一个基于独特的专利知识网格技术的列式数据库,能够降低您90%的管理工作量。在一台PC服务器上,Infobright企业版在对50TB甚至更多数据量进行多并发复杂查询时,能够显示出令人惊叹的速度,相比于MySQL,其查询速度提升了数倍甚至数十倍。在同类产品中,Infobright的单机性能处于领先地位

2015-12-17 19:53:03 2788

原创 大数据学习路线

===============================================================学习大数据,一步一个脚印  1 2 3 走起来!!!===============================================================一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景

2015-12-17 18:45:52 502

转载 在 Perl 下处理时间的小技巧 strftime

在 Perl 中处理时间,很多模块,很方便,但是刚开始玩的人,可能没有发现合适的模块,所以使用起来感觉很麻烦。通常大家都 localtime 搞得大家都很火大。我有幸和大师学习了一下,给大家推荐一下一个模块 strftime。       我们在推荐前,介绍一下 Perl 下取时间的今生前世吧。以前我想大家都是使用的 localtime 来取得当地日期时间和日期。这个函数如果在标量环境时,会以

2015-12-04 15:16:54 1432

转载 mysql存储过程动态执行sql

--存储过程名和参数,参数中in表示传入参数,out标示传出参数,inout表示传入传出参数create procedure p_procedurecode(in sumdate varchar(10))   begin     declare v_sql varchar(500);    --需要执行的SQL语句     declare sym varchar(6);  

2015-11-30 18:54:11 637

转载 hive配置文件详解

hive.exec.mode.local.auto  决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max  如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。

2015-11-05 10:57:25 1959

转载 InfoBright4.5企业版安装详细步骤

系统环境:RedHat6.2 64位InfoBright:4.5      今天拿到了服务商给到的rpm安装包和linence,开发那边也催的很紧,就马上安装配置。网上很少比较详细全面的安装文档,于是自己写一遍,希望对大家有帮助。1、安装前准备:(1)、修改Linux相关的配置文件,sysctl.conf 、limit.conf、hosts等 文件.(2)、配置网络,关闭防火强

2015-11-05 10:35:00 1069

转载 HIVE 调优方法大全

Hive是目前应用最多最广的SQL on Hadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是Hive仍然是目前使用率最高和普及面最广的SQL on Hadoop的工具。在以前淘宝罗李的报告中,淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些,大概95%以上都是跑在Hive上面。尽管很多人对Hive有看法

2015-10-16 16:29:24 1939

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

====================================marked by Alan at 2015-10-15 13:52=========================================1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有h

2015-10-16 13:53:00 388

转载 Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言

2015-10-15 14:15:49 446

原创 hadoop2.0单机部署(配置文件)

=====================================================主要配置一下几个配置文件=====================================================1.core-site.xml      fs.default.name    hdfs://YARN001:8020 

2015-10-09 14:30:49 451

原创 HIVE函数

1、日期函数返回值类型 名称 描述 string from_unixtime(int unixtime) 将时间戳(unix epoch秒数)转换为日期时间字符串,例如from_unixtime(0)="1970-01-01 00:00:00" bigint unix_tim

2015-10-09 11:08:57 499

原创 sqoop工具使用大全

=====================================================一、将数据从关系型数据库导入Hadoop中=====================================================1、Sqoop import使用sqoop import \--connect jdbc:mysql://mysql.ex

2015-09-17 16:23:48 747

原创 hive之HQL用法案例

建库:hive> CREATE DATABASE IF NOT EXISTS mydb;建表:Hive默认分隔符:\n                              记录间的分割符,默认一行一条记录^A (“control” A)        列分隔符,通常写成“\001”^B                              ARRAY或

2015-09-16 16:08:18 724

原创 YARN资源管理和调度简介

1、运行在YARN上的MapReduce应用程序2、运行在YARN上的Storm应用程序3、YARN应用程序基本构成①客户端 :主要作用是提供一系列访问接口供用户与YARN交互,包括提交Application、查询Application运行状态,修改Application属性(比如优先级)等。②ApplicationMaster: 向ResourceMana

2015-09-09 13:58:52 1771

原创 hadoop一些常见的案例(更新中)

案例1:新增节点,新节点没有任何数据,但是旧节点已经存储了很多数据,那么,怎么把旧节点的数据移动到新节点呢?数据块重分布sbin/start-balancer.sh -threshold percentage of disk capacityHDFS达到平衡状态的磁盘使用率偏差值值越低各节点越平衡,但消耗时间也更长这是一个进程,启动之后他就会在后台不停的扫描,从而进行负

2015-09-07 17:16:55 711

原创 hadoop上作业执行方法

脚本:例1:#!/bin/bashHADOOP_HOME=/home/alan/hadoop/hadoop-0.20.2-cdh3u6${HADOOP_HOME}/bin/hadoop jar\   ${HADOOP_HOME}/contrib/streaming/hadoop-streaming-0.20.2-cdh3u6.jar\  -files wc_

2015-09-07 13:44:18 553 1

原创 ubuntu 安装hadoop_cdh5.4.1步骤

1、配置ip并修改主机名sudo vi /etc/hostname2、主机名解析sudo vi /etc/hostsscp hosts hadoop@datanode1:/etcscp hosts hadoop@datanode2:/etcscp hosts hadoop@datanode3:/etc3、关闭防火墙sudo ufw disable4、免密

2015-09-06 17:29:53 719

原创 HDFS HA+Federation的部署(多机)-配置文件

配置文件具体内容:1、hadoop-env.sh# Copyright 2011 The Apache Software Foundation# # Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements.  See the NOTICE

2015-09-06 15:04:21 728

原创 HDFS HA部署(多机)——配置文件

配置文件内容:1、hadoop-env.sh# Copyright 2011 The Apache Software Foundation# # Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements.  See the NOTICE f

2015-09-06 14:14:31 534

原创 Hadoop2+HA+YARN环境搭建

一、前期准备四台机子,配置如下:[root@datanode1 usr]# cat /etc/hosts# Do not remove the following line, or various programs# that require network functionality will fail.127.0.0.1               localhost.loca

2015-09-02 14:23:13 567

转载 Hadoop 2.0生产环境(多机)搭建方法

步骤1:将安装包hadoop-2.2.0.tar.gz存放到某一目录下,并解压;步骤2:修改解压后的目录中的文件夹etc/hadoop下的xml配置文件(如果文件不存在,则自己创建),包括hadoop-env.sh、mapred-site.xml、core-site.xml、hdfs-site.xml和yarn-site.xml;步骤3:格式化并启动HDFS;步骤4:启动YARN。

2015-09-01 14:24:25 757

原创 部署hadoop集群需要配置的文件

一、修改主机名:vi /etc/sysconfig/networkNETWORKING=yesNETWORKING_IPV6=yesHOSTNAME=hadoop二、修改主机名解析配置文件:vi /etc/hosts# Do not remove the following line, or various programs# that require network

2015-08-31 17:28:35 486

原创 hadoop新增节点配置步骤

新加datanode的安装步骤:1、ssh无密码配置和上面详细步骤一样,在新datanode上的/root 上建一个/.ssh的目录,把namenode的authorized_keys复制到新datanode的/.ssh目录上。在namenode上ssh验证一下是否需要密码。2修改机器名,和上面详细步骤一样。记得重启一下。3建/usr/program这个目录,把jdk的安装文件放进去,

2015-08-31 16:50:13 710

原创 Hadoop环境部署(单节点和集群)

1、单节点环境搭建步骤:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html2、集群环境搭建步骤:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSe

2015-08-31 13:34:50 701

转载 Hadoop学习笔记

# hadoop前言# Hadoop试验集群的部署结构# 系统和组建的依赖关系 # 生产环境的部署结构# Day1 搭建伪分布实验环境# 准备软件# vmare 9.0.2# 操作系统 CentOS 6.4# jdk-6u45-linux-i586.bin# hadoop-1.1.2.tar.gz# 开始搭建环境一 (基础环境)# 在虚拟

2015-08-28 16:39:00 2309

原创 一些常用到的linux命令整理笔记

linux 命令平时笔记:sed -i "s/string/replacestring/g" file #文件file中的内容全部替换,真实的替换date -n 0825000115  #更改服务器时间netstat -tanp #查看某个进程占用哪个端口 如果需要释放,则执行:kill PID,如果需要全部kill,执行:netstat -tanp |awk '{print $7

2015-08-27 16:56:49 426

转载 sqoop导入数据到关系型数据库到hive

Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。这里使用 h

2015-08-27 10:53:02 2413

oracle非常全面完整的总结文档(认证老师总结)

oracle知识非常全面完整的总结文档(认证老师总结),涵盖oracle数据库的方方面面,太经典了!

2013-08-27

Oracle的概念手册

Oracle的概念手册,Oracle初学者必看的手册,Oracle公司推荐使用手册、公司内部推荐使用……

2013-08-26

oracle函数大全

oracle函数大全,迄今为止,收录最全的Oracle函数,叫你如何快速有效的精通PL/SQL语句!

2013-08-26

Oracle常用Dos命令

Oracle常用Dos命令、在DOS下看我怎么管理我的Oracle数据

2013-08-23

21天学通oracle

21天学通oracle,从零开始,让你实现自己的DBA梦想,实现高薪资的待遇!不下绝对后悔,技术上有很大帮助……

2013-08-23

30个iPhone 开发源代码

iPhone 开发源代码,不下是你的损失,绝对经典!非常实用……

2013-08-20

oracle 全套实战培训资料(公司内部资料)

oracle 公司内部资料 好不容易搞到的,希望对你有所帮助!绝对精品……菜鸟都能成为高级DBA!

2013-08-20

Struts技术

Struts技术详细介绍,短短的几张PPT,让你掌握的根深蒂固!

2013-05-22

Android手机游戏开发源代码 Java 雷霆战机

毕业设计论文 非常实用 完全的源代码 希望对大家有所帮助

2013-03-09

数据结构课程设计——迷宫问题

很好,很受用,可以用来参考的,程序不长,很容易明白

2011-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除