自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 问答 (1)
  • 收藏
  • 关注

原创 连接mysql8时提示1251的错误

错误提示1251-Client does not support authentication protocol requested by server; consider upgrading MySQL client解决办法用管理员身份打开cmd,输入"mysql -u root -p" 回车输入root用户密码进入MySQL客户端,然后:mysql> alter user root@localhost identified by 'newpassword' password exp

2020-05-10 12:06:52 373

原创 kettle配置命名参数

job 内容作业属性设置变量

2019-10-08 11:29:51 1239

转载 sql各种连接:笛卡尔积,inner join,left join,right join,full join等的测试与区别

转自 https://blog.csdn.net/u014682191/article/details/53009871首先原数据库的数据有:TEST_A表:和TEST_B表:一、笛卡尔积:(1)不带条件的笛卡尔积:select * from TEST_A a,TEST_B b;(2)带where条件id相等的笛卡尔积:select * fro...

2019-07-17 10:10:33 4320

原创 【大数据学习】SparkSQL之 DataFrame与RDD的互操作

根据官网介绍:Spark SQL支持两种不同的方法将现有的RDDs转换为数据集。第一种方法使用反射来推断包含特定对象类型的RDD的模式。这种基于反射的方法可以生成更简洁的代码,并且当您在编写Spark应用程序时已经知道模式时,这种方法可以很好地工作。这种方式虽然简单,但是不通用;因为生产中的字段是非常非常多的。创建数据集的第二种方法是通过编程接口,该接口允许您构造模式,然后将其应用于现有的RDD。...

2019-04-08 23:16:31 390

原创 【大数据学习】SparkSQL 之 DataFrame与RDD的区别

DataFrame与RDD的区别看上图,左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构,而右侧的DataFrame就不一样了,它更像是一个二维表格,在这个二维表格里面,有行有列。使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即不仅可以知道里面的数据,而且...

2019-03-27 17:45:09 1002

原创 【大数据学习】之 SparkSQL DataFrame、DataSet的概述

根据官网介绍DataFrame、DataSet:Dataset是一个分布式的数据集合。是spark1.6版本才出来的。它提供RDD中的有点(强类型、lambda表达式、优化SparkSQL执行引擎)。DataFrame中能用的东西大部分在DataSet都能用。DataSet能够通过JVM对象构建出来。DataSet能使用函数表达式(map、flatmap、filter等等)。DataSet ...

2019-03-25 22:56:47 224

原创 【大数据学习】之 SparkSQL概述

Spark SQL概念和用途看官网介绍,Spark SQL是Apache Spark用于处理结构化数据的模块。一、集成将SQL查询与Spark程序无缝混合。Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。可用于Java,Scala,Python和R.二、统一数据访问以相同的方式连接到任何数据源。DataFram...

2019-03-18 22:42:21 280

原创 【大数据学习】之 ThriftServer

ThriftServer1、启动,[hadoop@hadoop001 sbin]$ ./start-thriftserver.sh查看是否启动成功jps-m查看UI界面2、通过客户端beeline来连接a、进入 /home/hadoop/app/spark-2.3.1-bin-2.6.0-cdh5.12.0/binb、[hadoop@hadoop001 b...

2019-03-18 00:00:21 2834

原创 【大数据学习】之 用spark-sql和spark-shell操作hive里面的表数据

SparkSQL与Hive的交互有两种方式,一种是spark-sql,另一种是spark-shell。要注意,访问hive前要把$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf,还有必须要启动hdfs,因为hive的数据是存放在hdfs上的,既然要访问hive所以需要启动hdfs。一、启动spark-sql连hive1、首先要配置spark...

2019-03-15 13:04:08 2460

原创 【大数据学习】之 Spark-RDD core4

SparkCore04一、RDD Persistence简介。指RDD持久化,据官网的解释:Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速...

2019-02-15 16:16:57 199

原创 CentOS6.5的时间同步

1.  先安装ntpdate工具# yum -y install ntp ntpdate 2.  设置系统时间与网络时间同步# ntpdate cn.pool.ntp.org 3.  将系统时间写入硬件时间# hwclock --systohc4.  最后查查时间是否正确...

2019-01-28 17:33:54 1672

原创 【大数据学习】之 Spark-RDD core3

SparkCore03一.    Spark Glossary ( Spark术语 )GlossaryThe following table summarizes terms you’ll see used to refer to cluster concepts:Term    MeaningApplication    User program built on Spark. Con...

2019-01-16 16:01:39 160

原创 【大数据学习】之 Spark-RDD core2

一、RDD的两种创建方式Resilient Distributed Datasets (RDDs)弹性   分布式      数据集RDDS就是:弹性分布式数据集参考:http://cwiki.apachecn.org/pages/viewpage.action?pageId=2885920Spark 主要以一个弹性分布式数据集(RDD)的概念为中心,它是一个容错且可以执行并行操作的元...

2019-01-06 16:42:19 253

原创 【大数据学习】之 Spark-RDD初认识

一、RDD spark未来的编程方向是DataSet或DataFrame,但是RDD是Spark 的基石、底层,所以必须要掌握先看看github上的介绍:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala或者我们可以从IDEA上的源码...

2018-12-28 18:00:19 201

原创 【大数据学习】之 SQOOP

Sqoop (官网sqoop.apache.org) 一.Sqoop简介1.产生背景MapReduce、Hive===>数据都是存放在HDFS上的 insert into xxx as select ... Web前端如何与使用MapReduce或者Hive处理后的数据进行对接? HDFS ===> RDBMS  (如果是HDFS导到关系型数据库...

2018-11-14 18:21:36 313

原创 Hive_DML-函数-分区表

一、DML : Data Manipulation Language 1.加载数据到表:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]---LOCAL本地的意思,这里是指linux系统,如果没有LOC...

2018-11-05 22:09:31 224

原创 Hive_DLL简介

一、DDL: 全拼是Data Definition LanguageHive的DDL一般是指create delete drop alter关键字开头的操作。官网的介绍https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL       先看看HIVE的一个数据结构图:红色对应的全部都hdfs...

2018-11-05 21:38:10 349

原创 【大数据学习】之早课20181008-20181012

20181008早课1.查看当前目录    pwd2.切换到上一次和上一层目录    上一次 cd -    上一层 cd ..3.隐藏文件标识是什么,什么命令参数查看    隐藏文件标识是.     查看是 ll -a4.which 这个命令是找哪个环境变量里的目录配置    $PATH5.打印环境变量值 命令是什么    echo6.全局环境变量文件在哪?...

2018-11-01 17:31:58 201

原创 【大数据学习】之早课20180925-20180928

20180925早课1.查看当前目录的命令pwd2.隐藏文件什么标识开头,什么命令查看以 . 开头,用ll -a 查看3.创建一个文件有哪些命令touch mv cp echo vi vim4.创建一个级联文件夹的命令mkdir -p 1 2 35.mv和cp区别是什么mv 只有一份,相当于剪切; cp是复制,可以多份6.第5题的命令可不可以用...

2018-10-22 22:15:41 183

原创 【大数据学习】之Hive部署

为了减少冲突,一般来说版本都用统一的比较好,所以选择CDH的部署。前面的hadoop是选择hadoop-2.6.0-cdh5.7.0 ,所以hive安装的版本跟hadooop的尾巴对准了。1、打开http://archive-primary.cloudera.com/cdh5/cdh/5/2、ctrl+F 搜 hive-1.1.0-cdh5.7.0  , 右键选择并点击 hive-1....

2018-10-19 18:01:53 250

原创 【大数据学习】之Hive初认识

1、Hive 产生的背景:a.MapReduce编程不方便:开发、测试、需求变更;b.传统关系型数据库人员的需要,DBA:我就像使用sql一样的方式来处理分析大数据,不需要用mapreduce,那就好了。所以基于以上两点,Hive就出来了。另:文件存放在HDFS之上的,那么如果你想使用SQL去处理它,需要一个什么前提?需要的前提就是结构化、文件映射成表格 ==> Sche...

2018-10-19 18:00:46 324

原创 【大数据学习】之早课20180917-20180921

2018-09-17早课1.MySQL的部署流程大概哪几步解压、参数文件、修改权限、安装、启动2.重置root用户密码的SQL是什么?用到了 什么函数?update user set password=password('xxxxxx') where user='root';比如重置root用户的密码为123456update user set password=pass...

2018-10-16 15:03:03 192

原创 【大数据学习】之hdfs垃圾回收站配置

我们知道linux是没有垃圾回收站的,而hdfs同样默认是没有的,但是hdfs是可以开启垃圾回收站的。1、我们可以登录官网,选2.8.5版本, https://hadoop.apache.org/docs/r2.8.5/  拉到页面最下面点击core-default.xml2、然后在页面按ctrl + F 全局搜索"trash",找到fs.trash.interval和fs.trash...

2018-10-16 00:25:40 2429

转载 SQL的聚合函数、分组、子查询及组合查询用法

转自 https://www.cnblogs.com/ghost-xyx/p/3811036.html聚合函数:SQL中提供的聚合函数可以用来统计、求和、求最值等等。分类:–COUNT:统计行数量–SUM:获取单个列的合计值–AVG:计算某个列的平均值–MAX:计算列的最大值–MIN:计算列的最小值 首先,创建数据表如下:  执行列、行计数(...

2018-10-09 16:57:20 1136

原创 【大数据学习】之MapReduce Job

1)、先把yarn服务停了[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/stop-yarn.sh2)、把之前的信息删了[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -rm -r -f /user3)、再创建hdfs的文件bin/hdfs dfs -mkdir /userbin/h...

2018-09-29 00:05:35 150

原创 【大数据学习】之YARN伪分布式部署

1、先进入 etc/hadoop2、ll查看一下该目录有什么文件,由于没有mapred-site.xml文件,所以需要从其它文件复制一份,同时重命名为mapred-site.xml,cp  mapred-site.xml.template  mapred-site.xml3、修改mapred-site.xml,在里面添加下面内容<configuration>...

2018-09-27 22:15:35 188

原创 【大数据学习】之hdfs hadoop-2.6.0-cdh5.7.0部署(hadoop用户)

1.添加sudo权限的无密码访问的hadoop用户(1)[root@hadoop001 ~]# useradd hadoop(2)跟着修改/etc/sudoers文件,         vi /etc/sudoers                用命令cat /etc/sudoers |grep hadoop 查看一下结果        (3)切换用户:su - ha...

2018-09-26 00:17:16 825

原创 【大数据学习】之早课20180912

1.切换用户和临时获取root用户最大权限的命令分别是什么切换用户是 su临时获取root用户是 sudo2.想要用sudo命令,我们需要配置无密码的临时root最大权限,修改哪个文件,添加一行什么语句?可以修改/etc/suduers这个文件,在里面添加下面这一行    jepson  ALL=(ALL)   ALL            #但是这个是需要输入密码的。或jepson...

2018-09-14 17:30:46 145

原创 【大数据学习】之早课20180914

1.pwd表示什么显示当前目录路径2.隐藏目录什么标识开始,怎么看是以.号开始,用ll -a 查看3.查看文件的大小哪两组命令?ll -hdu -sh xxx.log4查看文件夹的大小命令是什么?du -sh  xxxd5.怎样测试端口通不通telnet ip加端口号,比如 telnet 192.168.137.190 806.查看进程和端口号命令分别是什么进程 ...

2018-09-14 11:39:25 127

原创 【大数据学习】之早课20180913

1.如何判断一个Linux上的xxx服务是否存活? 谈谈你们的理解查看进程ps -ef   查看端口netstat -nlp2.端口号哪个命令去看看通不通telnet ip加端口号,比如 telnet 192.168.137.190 803.那么Linux和window系统想想,都会安装telnet吗?linux安装telnet:yum install telnetwindow安装...

2018-09-14 11:36:23 141

原创 【大数据学习】之早课20180911

1.临时获取root权限是修改哪个配置文件?添加一行什么? 命令是什么?/etc/sudoers2.sudo和su能不能一起使用?可以 3.安装RPM包命令什么yum install xxx 4.卸载RPM包命令哪两个?rpm -e xxxyum remove xxx 5.查看命令帮助 是什么?  怎样看有man,helpman userm...

2018-09-12 18:09:31 126

原创 【大数据学习】之早课20180910

1.查看当前目录是什么命令pwd2.切换目录的命令是什么?cd3.切换到家目录有哪些命令?    cd       切换当前用户的家目录或cd ~   切换当前用户的家目录4.切换到 上一次  和  上一层的命令分别是什么cd -    切换到上一次cd ../   切换到上一层   (另,如果是cd ../../ 表示切换到上上层)5.绝对路径和相对路径...

2018-09-12 00:08:45 124

原创 【大数据学习】之Linux(一)

1、查看当前的路径      pwd2、查看当前目录下的文件和文件夹的名称      ll 或 ls -l3、创建文件夹用mkdir      mkdir 文件夹名称 1层      mkdir -p 1/2/3 -p级联创建      mkdir 4 5 6 同一层创建3个目录4、覆盖或追加内容      >  表示覆盖;>> 表示追加未完,...

2018-09-10 23:31:13 159

转载 IDEA创建scala项目的三种方法

转自  https://blog.csdn.net/u013850277/article/details/78526046用了好几年的Eclipse,最近想着了解下Scala,听说Intelli JDEA这个工具很强大,因而开始着手试试 Intelli JDEA,下面是运用该工具创建Scala项目的一些简单操作。 Scala的拥护者们认为Scala的主要优势是速度和它的表达性。 ...

2018-08-29 17:14:41 41900 3

转载 vim+python , CENTOS7安装VIM插件YOUCOMPLETEME

转自http://blog.51cto.com/xujpxm/1909043  和 http://dreamlikes.cn/archives/940 所谓打造,其实就是找一些适合自己的插件,先简单总结一些,我亲测过的几个插件。开始之前先说明一点,这里提到的几个插件都是非常强大和有名气的,但所谓适合自己的才是最好的,文中所说的缺点只是相对个人而言的感受,并不适用所有人。分享出来只是为给大家在选...

2018-08-06 15:25:01 1822

转载 python转义字符——重点解释:\b,\n和\r区别

转自:https://www.cnblogs.com/xueweihan/p/4519517.html 放在最前面:有时我们并不想让转义字符生效,我们只想显示字符串原来的意思,这就要用r和R来定义原始字符串。如:print r'\t\r'实际输出为“\t\r”。主要参考:AllenW的博客转义字符 输出 \'   ' \" " ...

2018-07-27 16:00:14 11285 1

原创 Python笔记

1. with open(xxx,'x') as xx:比如 with open(music_meta_file, 'r') as fd:用with open(…) as ..读取music_meta_file的内容,参数 "r"是指:只读,写入,追加等2.enumerate() 函数的用法enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引...

2018-07-27 14:47:37 122

转载 HDFS的基本命令

转载自 https://blog.csdn.net/zhaojw_420/article/details/53161624 HDFS常用命令: 注:以下执行命令均在spark安装目录的bin目录下。 path 为路径 src为文件路径 dist 为文件夹 1、-help[cmd] 显示命令的帮助信息./hdfs dfs -help ls 2、-ls(r) 显示当前目录下的...

2018-07-25 14:55:07 284

原创 Redis2.8.3的启动、状态检查、关闭

启动redis-server ./redis-server /usr/local/src/redis-2.8.3/redis.conf ps -ef |grep redis检查后台进程是否正在运行ps -ef | grep redis #检测6379端口是否在监听netstat -lntp | grep 6379                           ...

2018-07-24 10:39:53 1439

转载 Redis安装过程

转自https://www.cnblogs.com/jerrylz/p/5650213.html一、Redis入门概述  1、是什么?    (1)全称:REmote DIctionary Server(远程字典服务器)。是完全开源免费的,用C语言编写的, 遵守BCD协议。是一个高性能的(key/value)分布式内存数据库,基于内存运行并支持持久化的NoSQL数据库,是当前最热门...

2018-07-22 08:38:25 125

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除