凯风与海-CSDN博客

原创 Spark-StructuredStream读取 confluent -kafka-avro数据

一、数据准备通过kafka-rest 写入kafka-avro数据public class Test { public static void main(String args[]){ String url = "http://node9:8082/topics/ztwo"; int x=1; while (true)...

2019-09-29 10:45:26 950 1

原创 ubuntu系统下postgres安装python语言、postgres安装图数据AgensGraph

一、首先安装python，ubuntu默认有python2.7，python3.5，我采用的是python3.6.5版本。 1.在https://www.python.org/downloads/ 下载python （python3.6.5地址 https://www.python.org/downloads/release/python-365/），文件为 Python...

2018-10-01 20:45:40 884

原创 Sqoop导入hbase

1.全表导入 mysql表名必须大写，（可以指定列名，也可以不指定 –columns中逗号分隔，不加空格），可以添加条件过滤 --where sqoop import -Dorg.apache.sqoop.splitter.allow_text_splitter=true --connect jdbc:mysql://192.168.0.116:3306/bigdata -driver...

2018-06-08 11:44:04 1481

注册函数：将自定义函数打成jar包，上传hdfs$hive>create function formattime as 'com.air.udf.FormatTimeUDF' using jar 'hdfs://mycluster/user/centos/air-hive-1.0-SNAPSHOT.jar'自定义函数：1，将long型的时间片格式化成指定日期格式import org.apac...

2018-05-21 21:11:40 2451

原创 Linux之sed,和awk

使用sed命令编辑文件 //删除第一行 $>sed '1d' 1.log //删除最后一行 $>sed '$d' 1.log //删除区间行 $>sed '1,3d' 1.log //删除所有行 $>sed '1,$d' 1.log //p:print $>sed '1,$p' 1.log //-n:安静模式，只显示处理的行 $>sed ...

2018-05-21 20:59:12 151

原创 Hive常用的建表语句

1，创建表,external 外部表 $hive>CREATE external TABLE IF NOT EXISTS customer(id int,name string,age int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '...

2018-05-21 09:22:40 6208

原创 Kafka常用操作

1，集群配置： [kafka/config/server.properties] ... broker.id=202 ... listeners=PLAINTEXT://:9092 ... log.dirs=/home/centos/kafka/logs ... zookeeper.connect=dataone:2181,datatwo:2181,datathree:2181 分发ser...

2018-05-21 08:45:40 187

原创 Flume从Kafka读取数据，并写入到Hdfs上

需求：kafka有五个主题 topic topic-app-startuptopic topic-app-errortopic topic-app-eventtopic topic-app-usagetopic topic-app-pageflume读取Kafka 5个主题数据，并将数据写入到hdfs上，按照主题、年月日建立文件夹以及文件如下,每天新建五个文件夹，并将主题上的数据写入到对应的文件...

2018-05-17 23:16:29 8650 3

原创 Hbase查询工具类，根据时间查询数据

1，需求：已知空气监测数据在hbase中存储，要求按照时间，查询citycode为110000（北京）一个月的数据，数据为每日的监测数据ID ,CITYCODE,SO2 ,CO,NO2 ,O3, PM10,PM2_5,AQI,MEASURE, TIMEPOINT13110000020141120, 110000,31,3.939,141,8,368,301,351,6,2014-11-20511...

2018-05-17 22:46:00 11645

原创 Spark读写mysql数据库

import org.apache.spark.SparkConf;import org.apache.spark.sql.*;import java.util.Properties;public class SparkSqlJdbc { public static void main(String[] args) { SparkConf conf = new...

2018-05-15 21:12:00 424

原创 SparkStream读取Kafka消息

import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka0...

2018-05-15 21:06:04 1907

原创 Spark读写hbase数据

Spark读取hbase的数据：import org.apache.spark.sql.SparkSessionimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase._import org.apache.hadoop.hbase.client.Scanimport o...

2018-05-15 18:50:48 6413 3

原创 Spark机器学习之空气质量预测和评价

根据空气测得的数据，对空气质量评价以下是部分空气数据：ID,DAYTIME,CITYCODE,SO2 ,CO,NO2 ,O3, PM10,PM2_5,AQI,MEASURE, TIMEPOINT 0:110000:20141120,20141120,110000,31,3.939,141,8,368,301,351,6,2014-11-200:110000:20141208,201...

2018-05-14 18:57:02 6599

原创 Spark实现二次排序的第二种方式

###############################################数据如下：年份：气温2005 192005 402006 302008 502007 352007 32实现效果：(2005,40)(2006,30)(2007,35)(2008,50)import org.apache.spark.{SparkConf, SparkContext}object Wo...

2018-05-11 22:35:47 619

原创 Spark实现全排序、二次排序

###############################################数据如下：年份：气温2005 192005 402006 302008 502007 352007 321，spark实现全排序，即按照年份对数据升序排列，对以上的数据实现的效果：2005 192005 402006 302007 322007 352008 50代码：import org.apache...

2018-05-11 18:01:13 4357

王凯凯之猿的博客