3 lds_include

尚未进行身份认证

在职人员

等级
TA的排名 6w+

sqoop的job做到每次免密登录的方式

说明:sqoop执行任务的时候会提示执行密码,这样的话在实际执行的时候会相对来说很麻烦,所有需要建立密码文件并指定–password-file文件,文件最后还需要存放在hdfs上,权限为400为只读权限执行过程:在本地建立存放密码的文件:echo-n"mysql中sqoop数据的操作员的密码">sqoopPWD.pwd注意:这个文件里面不得有任何一个空格和换行,只能...

2019-07-11 09:56:38

hive中的order by、sort by、distribute by、cluster by排序

hive中的排序说明:hive中有四种全局排序:orderby、内部排序:sortby、分区排序:distributeby、组合排序:clusterby。orderby(全局排序)说明:全局排序是在一个MapReduce中进行排序的。参数:ASC:是升序的意思和mysql一样,同时也是默认的参数。DESC:降序的意思和MySQL中一样。举例:查询...

2019-07-01 10:40:51

hive的企业级优化

hive的企业级优化说明:以下是常见的六个调优项Fetch抓取说明:所谓fetch抓取hive中的某些查询可以不必使用mapreduce来计算,例如select*fromemp这个语句就没有使用mapreduce,这种情况下,hive可以简单的读取emp目录对应的数据文件。设置方法:设置地方:hive-default.xml<property>...

2019-07-01 10:39:28

hive的存储格式TextFile、RCFile、ORC

hived的存储格式TextFile、RCFile、ORC说明:所谓的存储格式就是hive的数据在hdfs上存放的具体方式;通过下面的文件我们看出hive的存储格式是一共有六种,每一种都是由自己的规则。file_format::SEQUENCEFILE|TEXTFILE--(Default,dependingonhive.default.fileformat...

2019-07-01 10:37:57

mapreduce的map端的分布式缓存

mapreduce的map端的分布式缓存必要性:有的时候我们需要完成一些类似于数据库的两表join的效果,这个时候就能够通过将其中的一个表提前加载到map中来,这个时候有了将一张表的数据缓存到内存中来,方便map的快速读取。这里有两种方法可以实现这个效果,下面就一个一个讲解。注意:想要将表缓存进内存中,那么表的大小不能够超过缓存的大小,否则就会造成数据溢出,影响数据的准确性。步骤:1...

2019-06-23 12:49:39

mapreduce的自定义输出格式

mapreduce自定义输出格式概念:当普通的输出格式不能满足客户的要求的时候。因为普通的输出格式是将结果直接输出到一个单一的文件中去。现在有的需求是将处理的结果输出到数据库中,或者是将结果按照不同的需求输出到不同的文件中去。举例:现在有一个需求是将一个文件读取进来后,然后判断文件中的被切割的字符串是否含有要求的字符串,如果有的话就输出到对应的文件中去。源码解析:源码pu...

2019-06-21 16:59:11

mapreduce的自定义输入格式

mapreduce自定义输入格式概念:当普通的输入格不能满足客户的要求的时候。因为普通的输入格式是将文件的每一行输入的数据作为一个value值然后进行map端的操作。现在有的需求是将数据库中的数据作为一个输入的格式,或者是将一个文件的整体作为一个输入格式等。举例:现在有一个需求是将一个目录下的所有小文件读取进来,将文件的整个内容都作为一个value值进行输入。出来map端的值是文件名...

2019-06-21 14:59:40

mapreduce的自定义分组器

Mapreduce自定义分组器前提:有的时候我们想将符合条件的key值放在同一个组内;但是key的值是不同的将不会放进同一个组中。举例:想将一个学生的进校以后不同时间段的数学成绩按进校考试的时间进行一个成绩排序。如下效果//排序前的效果stu1time1core1stu1time2corestu1time3core3stu2time1core1stu2t...

2019-06-18 17:55:50

Kafka常用命令

Kafka常用命令开启和关闭kafka启动kafkanohup./bin/kafka-server-start.sh./config/server.properties&停止kafkabin/kafka-server-stop.sh关于topic创建topicbin/kafka-topics.sh--create--zookeeperlocalh...

2019-04-17 19:58:32

Kafka组件

Kafka组件Kafka核心组件Topic:消息根据Topic进行归Producer:发送消息者Consumer:消息接受者broker:每个kafka实例(server)Zookeeper:依赖集群保存meta信息。Kafka名词解释和工作方式Producer:消息生产者,就是向kafkabroker发消息的客户端。生产者复杂生产(采集)数据...

2019-04-17 19:57:45

Kafka基础

Kafka基础什么是kafka在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA+STORM+REDISApacheKafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从ApacheIncu...

2019-04-17 19:56:36

Spark2.3.0解决Exception in thread "main" java.lang.IllegalArgumentException: Illegal pattern component

Spark2.3.0解决Exceptioninthread“main”java.lang.IllegalArgumentException:Illegalpatterncomponent:XXX报错出错的调用代码此问题出现在调用spark.read.json或者csv的时候出现。res.write .mode("append") .json("c://out")...

2019-04-16 10:55:02

spark的DataFrame常用操作

spark的DataFrame常用操作DSL风格语法查看DataFrame中的内容personDF.show查看DataFrame部分列中的内容personDF.select(personDF.col("name")).showpersonDF.select(col("name"),col("age")).showpersonDF.select("name").show...

2019-04-15 09:19:09

Spark的DataFrame创建实例

Spark的DataFrame创建实例说明是一个分布式数据集(是一个数据描述),封装了RDD和Schema信息,底层还是调用的RDD,我们可以像操作二维表的方式进行操作,简单来说,DataFream就是RDD和Schema信息的结合体什么是DataFrames与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数...

2019-04-14 19:02:25

Spark sql理论简介

Sparksql简介什么是sparksqlSparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。了解SparkSql的必要性我们知道hive,它是将HiveSQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行...

2019-04-14 17:02:13

Spark连接mysql数据库的方法

Spark连接mysql数据库的方法引入pom文件在maven项目中的pom.xml中引入mysql连接的依赖<!--mysql驱动依赖--><dependency><groupId>mysql</groupId><artifactId>mysql-conn...

2019-04-13 17:23:21

Spark的将IP转换为Long型的方法

Spark的将IP转换为Long型的方法ip格式192.168.111.4转换方法/***把IP转化为long类型的数据*@paramip*@return*/defip2Long(ip:String):Long={valfragments=ip.split("[.]")varipNum=0L...

2019-04-13 17:13:15

nginx服务器生成访问url格式设置

nginx服务器生成访问url格式设置配置文件编辑配置文件vi/etc/nginx/nginx.conf配置文件详情userroot;#nginx的运行账号(rpm安装时会自动创建这个账号),也可以写成usernginxnginx表示用户和组worker_processes10;#工作进程数(worker),一般等于cpu内核数或者两...

2019-04-13 17:08:30

Spark2.0程序中的持久化数据到数据库中foreachPartition()方法报错

Spark2.0程序中的持久化数据到数据库中foreachPartition()方法报错出错的地方是foreachPartition(data2Mysql)中的方法data2Mysql报错代码valdata2Mysql=(it:Iterable[(String,Int)])=>{varconn:Connection=null;varps:...

2019-04-13 16:55:23

Spark中transformation和Action的RDD算子

Spark中transformation和Action有的区别区别transformationtransformation是在现有的RDD上通过一定方法转换生成新的RDD,转换时延时执行(lazy)的;actionactions是指在RDD上进行计算,得到返回结果给驱动程序或写入文件系统,触发job。综合执行了多次transformation,RDD并不一定会真正执行运算...

2019-04-13 11:03:27

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。