- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 Spark-StructuredStream读取 confluent -kafka-avro数据
一 、数据准备通过kafka-rest 写入kafka-avro数据public class Test { public static void main(String args[]){ String url = "http://node9:8082/topics/ztwo"; int x=1; while (true)...
2019-09-29 10:45:26 950 1
原创 ubuntu系统下postgres安装python语言、postgres安装图数据AgensGraph
一、首先安装python,ubuntu默认有python2.7,python3.5,我采用的是python3.6.5版本。 1.在https://www.python.org/downloads/ 下载python (python3.6.5地址 https://www.python.org/downloads/release/python-365/),文件为 Python...
2018-10-01 20:45:40 884
原创 Sqoop导入hbase
1.全表导入 mysql表名必须大写,(可以指定列名,也可以不指定 –columns中 逗号分隔,不加空格),可以添加条件过滤 --where sqoop import -Dorg.apache.sqoop.splitter.allow_text_splitter=true --connect jdbc:mysql://192.168.0.116:3306/bigdata -driver...
2018-06-08 11:44:04 1481
原创 Hive自定义UDF函数--常用的工具类
注册函数:将自定义函数打成jar包,上传hdfs$hive>create function formattime as 'com.air.udf.FormatTimeUDF' using jar 'hdfs://mycluster/user/centos/air-hive-1.0-SNAPSHOT.jar'自定义函数:1,将long型的时间片格式化成指定日期格式import org.apac...
2018-05-21 21:11:40 2451
原创 Linux之sed,和awk
使用sed命令编辑文件 //删除第一行 $>sed '1d' 1.log //删除最后一行 $>sed '$d' 1.log //删除区间行 $>sed '1,3d' 1.log //删除所有行 $>sed '1,$d' 1.log //p:print $>sed '1,$p' 1.log //-n:安静模式,只显示处理的行 $>sed ...
2018-05-21 20:59:12 151
原创 Hive常用的建表语句
1,创建表,external 外部表 $hive>CREATE external TABLE IF NOT EXISTS customer(id int,name string,age int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '...
2018-05-21 09:22:40 6208
原创 Kafka常用操作
1,集群配置: [kafka/config/server.properties] ... broker.id=202 ... listeners=PLAINTEXT://:9092 ... log.dirs=/home/centos/kafka/logs ... zookeeper.connect=dataone:2181,datatwo:2181,datathree:2181 分发ser...
2018-05-21 08:45:40 187
原创 Flume从Kafka读取数据,并写入到Hdfs上
需求:kafka有五个主题 topic topic-app-startuptopic topic-app-errortopic topic-app-eventtopic topic-app-usagetopic topic-app-pageflume读取Kafka 5个主题数据,并将数据写入到hdfs上,按照主题、年月日建立文件夹以及文件如下,每天新建五个文件夹,并将主题上的数据写入到对应的文件...
2018-05-17 23:16:29 8650 3
原创 Hbase查询工具类,根据时间查询数据
1,需求:已知空气监测数据在hbase中存储,要求按照时间,查询citycode为110000(北京)一个月的数据,数据为每日的监测数据ID ,CITYCODE,SO2 ,CO,NO2 ,O3, PM10,PM2_5,AQI,MEASURE, TIMEPOINT13110000020141120, 110000,31,3.939,141,8,368,301,351,6,2014-11-20511...
2018-05-17 22:46:00 11645
原创 Spark读写mysql数据库
import org.apache.spark.SparkConf;import org.apache.spark.sql.*;import java.util.Properties;public class SparkSqlJdbc { public static void main(String[] args) { SparkConf conf = new...
2018-05-15 21:12:00 424
原创 SparkStream读取Kafka消息
import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka0...
2018-05-15 21:06:04 1907
原创 Spark读写hbase数据
Spark读取hbase的数据 :import org.apache.spark.sql.SparkSessionimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase._import org.apache.hadoop.hbase.client.Scanimport o...
2018-05-15 18:50:48 6413 3
原创 Spark机器学习之空气质量预测和评价
根据空气测得的数据,对空气质量评价以下是部分空气数据:ID,DAYTIME,CITYCODE,SO2 ,CO,NO2 ,O3, PM10,PM2_5,AQI,MEASURE, TIMEPOINT 0:110000:20141120,20141120,110000,31,3.939,141,8,368,301,351,6,2014-11-200:110000:20141208,201...
2018-05-14 18:57:02 6599
原创 Spark实现二次排序的第二种方式
###############################################数据如下:年份:气温2005 192005 402006 302008 502007 352007 32实现效果:(2005,40)(2006,30)(2007,35)(2008,50)import org.apache.spark.{SparkConf, SparkContext}object Wo...
2018-05-11 22:35:47 619
原创 Spark实现全排序、二次排序
###############################################数据如下:年份:气温2005 192005 402006 302008 502007 352007 321,spark实现全排序,即按照年份对数据升序排列,对以上的数据 实现的效果:2005 192005 402006 302007 322007 352008 50代码:import org.apache...
2018-05-11 18:01:13 4357
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人