我的海_-CSDN博客

原创 10.1 spark-sql 10亿级数据交互式秒级查询可行性

当前版本:saprk2.4 cdh 数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org/docs/2.4.0/api/sql/index.htmlOne use of Spark SQL is to execute SQL queries. Spark SQL...

2019-07-25 14:13:25 3881 2

原创数据湖hudi，spark-shell启动

spark-shell启动spark-shell启动,需要指定spark-avro模块，因为默认环境里没有，spark-avro模块版本好需要和spark版本对应，2.4.5。

2023-07-10 10:28:15 362

错误:fatal: unable to access 'https://github.com/kk25114/Hello.git/': OpenSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443参考:https://stackoverflow.com/questions/49345357/fatal-unable-to-access-https-github-com-xxx-openssl-ssl-connect-ss

2021-03-25 09:46:58 328

原创向hbase中写入大数据集报错“RegionTooBusyException: Over memstore limit=1.0G“

环境:hbase3.1.0+cdh6.3.0,数据5g文本1.场景:像hbase中写入数据报错se.RegionTooBusyException: Over memstore limit=1.0G, regionName=36bec2784926eec62efbad8ee750825a, server=hyt-bigdata032.问题:写入小文件不会报错,大文件就报错了代码:(如果是\t,删掉-Dimporttsv.separator=",")默认导入即可了在hbase中建表:

2021-03-04 09:41:18 1517 1

原创大数据hdfs跨集群的数据迁移

将集群hyt-bigdata02的数据同步到10.8.4.170 集群hadoop distcp命令:hadoop distcp hdfs://hyt-bigdata02:8020/user/hdfs/yanke_data/jar hdfs://10.8.4.170:8020/user/hdfs/yanke_data/hyt-bigdata02为主节点master执行后会以一个job运行...

2020-11-30 15:33:48 350

原创 cdh6.3搭建kylin错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty

引用之前的6.11的https://blog.csdn.net/kk25114/article/details/98085785版本兼容问题会报错: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty[root@master01 bin]# vi /opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/hbase/bin/hbase# CLASSPATH i..

2020-07-17 10:42:44 823

原创 HBase行数统计MapReduce

执行MapReduce计算hbase中的表student表的数据条数执行:/opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/hbase/bin/hbase rowcounter student下一篇:hive关联hbase

2020-07-17 10:15:14 335

原创 sparkR调用R的执行分布式计算

环境spark2.4.5,R3.6, install.package("SparkR"),默认sparkR提供的函数支持对应的版本为spark2.4.5不支持2.4.0 如:将data.table,data.frame dt.score数据集转化成sparkR中的dataframe时可以执行sparkR中提供的方法 sparkR默认会覆盖掉R中的方法如需要调用R中的方法需要指定调用 dataframe作为R和sparkR中的桥梁,不同的是sparkR可以进行分布..

2020-05-16 10:58:42 852

原创问题:cdh中设置hive on spark后,hive使用 beeline无法运行,使用hive-client可以运行 ERROR : FAILED: Execution Error, retur

1.使用的hive-client2.使用beenline报错:ERROR : FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session ...

2020-04-02 15:16:54 1631 3

原创 3.saprk集群hdfstest

基于spark的测试对50g数据进行Hdfstest,task,executor划分19/12/27 17:27:37 INFO spark.SparkContext: Created broadcast 10 from broadcast at DAGScheduler.scala:116419/12/27 17:27:37 INFO scheduler.DAGSched...

2020-01-16 10:41:54 343

原创 1.生产集群读写测试50g数据randomwriter

生产硬件规格浪潮：20核，128G，10.98TB浪潮：20核，128G，10.98TB浪潮：20核，128G，10.98TB浪潮：20核，128G，10.98TB浪潮：20核，128G，10.98TB引用1.测试集群http://note.youdao.com/noteshare?id=3332b5f14230918c41f084a1524a7a03&sub=...

2020-01-16 10:34:09 312

原创 2.mr对wordcount性能测试50g数据

1.对4.1中生成50g单词进行统计基于mr磁盘测试开始:19/12/27 16:23:45结束:19/12/27 16:26:2219/12/27 16:26:15 INFO mapreduce.Job: map 100% reduce 75%19/12/27 16:26:16 INFO mapreduce.Job: map 100% reduce 82%...

2020-01-16 10:25:19 521

原创 2.impala支持的math和聚合计算函数

impala 用法同hiveAggregate 聚合函数appx_median([DISTINCT|ALL] T col) avg([DISTINCT|ALL] col) count([DISTINCT|ALL] col) group_concat([ALL] col [, separator]) max([DISTINCT | ALL] T col) min(...

2020-01-16 10:06:25 3607 1

原创 1.hive2支持的math函数聚合计算函数

1.hive自身支持的math函数Mathematical 计算数学函数abs(DOUBLE a) acos(DECIMAL|DOUBLE a) asin(DECIMAL|DOUBLE a) atan(DECIMAL|DOUBLE a) bin(BIGINT a) bround(DOUBLE a [, INT decimals]) SELECT bround(12.25,...

2020-01-16 10:04:59 660

原创各种bi工具支持的数据源

Superset 1M metabase 10Mredash 10Mcboard 4Kdavinci 10kpentaho 10kcboard 4k 国产1.国产cboard 2.finebi支持excel,mysql,hive,spark,impala3.supe...

2020-01-11 18:04:06 1443

原创 ssh免密失效的问题

当前解决:恢复权限7.ssh免密登录ssh-keygen -t rsacat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 600 ~/.ssh/authorized_keysssh hyt-bigdata02ssh-copy-id 10.214.22.46ssh-copy-id 10.214.22.4...

2019-12-08 22:52:33 424

原创 cdh6安装kudu-python问题

引用https://www.libinx.com/2018/how-to-deploy-kudu-and-use-kudu-python-client/https://blog.csdn.net/vkingnew/article/details/89707977无法使用pip安装成功kudu-python参考官方文档kudu1.8文档https://kudu.apache...

2019-11-28 14:37:12 497

原创 UDFRowSequence生成代理键cdh

引用https://www.cnblogs.com/qiuhong10/p/7607655.html原文中指定的类找不到,看了好几篇文章都没有提到failed反编译hive-contrib-2.1.1-cdh6.1.1.jar,按指定类型即可udfrowsequence 改为 UDFRowSequencehive> add jar /opt/cloudera/parcel...

2019-11-27 09:37:09 315

原创错误 hdfs miss block

miss block1.删除节点,副本数量不足 (设置副本数量)2.集群异常3.升级,ha列出删除再查看状态为health此时cdh状态上变绿了引用https://blog.csdn.net/levy_cui/article/details/70226195?utm_source=blogxgwz3https://my.oschina.net/...

2019-09-27 11:03:30 226

原创 8.2 docker指定容器内的ip通信的问题

我之前在https://blog.csdn.net/kk25114/article/details/88639383中演示的操作使用pipework可以给容器桥接网卡直接连ip想要实现容器内可以直接连的centos7系统但是问题是:pipework使用后,退出容器,或者重启docker后ip就发生了变化需要再次重新指定ip,问题是ip根本无法指定,无法指定原ip,重...

2019-08-22 11:27:49 400

原创 15.flink的使用scala steaming wordcount的使用

同步输出按空格切分源码:import org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.api.scala._import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnviron...

2019-08-16 20:33:03 160

原创 11.6 impala和hive之间区别

SQL Differences Between Impala and Hive引用:Impala's SQL syntax follows the SQL-92 standard, and includes many industry extensions in areas such as built-in functions. SeePorting SQL...

2019-08-15 12:23:08 221

原创 14.2 爬虫爬取的长安十二时辰短评微博热门月榜明星微博

已实现的豆瓣电影影评,豆瓣用户微博热门,用户微博,微博评论1.内容昵称,头像,评论,时间短评91页1820条数据资源地址:链接: https://pan.baidu.com/s/1IQDOI8GCw0IDDA3KonNJ0Q 提取码: 267x 复制这段内容后打开百度网盘手机App，操作更方便哦2.微博内容数据对应3.李荣浩微博...

2019-08-10 22:53:42 359

原创 14.1 玩玩爬虫爬取豆瓣广播豆瓣所有电影评分最高电影电影网站

1.爬取了2位豆瓣用户411页的广播几年的内容共48683条去掉电影日志图片哈哈取广播内容2.豆瓣电影评分排名高清mp4电影31156条...

2019-08-10 22:46:06 2489 2

原创 10.5 spark structured streaming在集群模式下运行

版本spark2.4.0-cdh6.1.1继10.2spark structured streaming执行wordcount打包后放在集群交给yarn运行展示输入端输出端linux节点上支持写入idea上设置 batch的时间设置 1 second /1 milliseconds出现了 TimeExecutor: Curren...

2019-08-09 19:59:03 581

原创 11.5 impala3的jdbc的连接cdh版补充

1.版本impala3.1.0-cdh6.1.12.impala的HiveServer2 端口:21050先抛出一个兼容性的问题,impala jdbc不兼容,当前选择的 ClouderaImpalaJDBC41-2.6.11.1012impala jdbc选择兼容版下载地址http://www.cloudera.com/downloads/connectors/impala/...

2019-08-09 18:11:09 930

原创 10.4 spark2 structured streaming 实时计算hdfs文件输入流cdh

继上一篇spark2.4 cdh演示:实时监控hdfsa.文件1b.添加文件代码import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.types.StructTypeobject FileInputStructuredStreaming { de...

2019-08-07 19:45:21 844 1

原创 10.2 spark2 structured streaming执行wordcount

1.参考官方demo cdh2.4.02.展示计算结果为迭代递增session启动后在监听状态周期性完成state无源数据则进入sleep状态代码import org.apache.spark.sql.SparkSessionobject WordCount { def main(args: Array[String]): Unit = {...

2019-08-07 18:33:15 159

转载 13.7 开源数据可视化工具（For Apache Kylin）使用说明

开源数据可视化工具（For Apache Kylin）使用说明Kylin [email protected]年前 (2016-06-20)52388℃49评论Apache Kylin，很好的解决了海量数据OLAP的底层存储与分析引擎，但还缺一个数据可视化工具，可以使用户非常方便的通过图形化分析探索海量数据，而不用写SQL。于是我们发现了Caravel。原生的Caravel并不...

2019-08-06 21:32:36 230

转载 13.6 Apache Kylin和Superset集成，使用开源组件，完美打造OLAP系统

Superset 是一个数据探索和可视化平台，设计用来提供直观的，可视化的，交互式的分析体验。Superset 提供了两种分析数据源的方式：1. 用户可以以单表形式直接查询多种数据源，包括 Presto、Hive、Impala、SparkSQL、MySQL、Postgres、Oracle、Redshift、SQL Server、Druid 等。本文后续内容也会详细介绍Superset...

2019-08-06 21:29:51 334

原创 13.5 kylin jdbc连接支持高并发

1.使用impala执行2.jdbc连接代码import java.sql.*;public class TestKylin { public static void main(String[] args) throws Exception { //Kylin_JDBC 驱动 String KYLIN_DRIVER =...

2019-08-03 14:03:55 476

原创 13.4 使用spark构建cube

配置参考官方文档http://kylin.apache.org/cn/docs/tutorial/cube_spark.html1.默认使用mr构建cube2.选择时间区域构建使用saprk引擎可以看到在执行的spark job在使用执行saprk时会开启一个session,即hive on spark, on yarn启动se...

2019-08-03 13:25:42 479

原创 13.3.kylin关联hive构建modle cube

1.数据准备https://github.com/fayson/cdhproject/tree/master/kylindemohdfs dfs -put employee.csv /tmp/data/kylin/hdfs dfs -put employee.csv /tmp/data/kylin/beeline -u "jdbc:hive2://mini2:10000/d...

2019-08-02 19:09:39 268

原创 13.2 kylin的初步使用对比hive,impala

1.执行官方的demo导入数据[root@mini2 bin]# ./sample.sh Retrieving hadoop conf dir...Loading sample data into HDFS tmp path: /tmp/kylin/sample_cube/dataGoing to create sample tables in hive to database ...

2019-08-02 15:17:15 1115

原创 13.1 kylin2.6.3 cdh6安装错误

当前版本cdh6.1.1apache-kylin-2.6.3-bin-cdh60错误1: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty按参考一设置无效解决方法,修改hbase shellvim/opt/cloudera/parcels/CDH-6.1.1-1.cdh6.1.1.p0.87525...

2019-08-01 19:45:29 896

原创 11.4 impala自定义永久函数及hive自定义函数在cdh hue中使用

演示转大小写的函数1.编写类并打包2.上传到hdfs上/user/hive/udf/hive_udf-1.0-SNAPSHOT.jar3.使用impala创建函数并执行[mini2:21000] default> create function mylower(string) returns string location '/user/hive/udf/hive_...

2019-08-01 14:05:50 1163 1

原创 12.4 datax mongodb写入到hdfs

1.编辑模板{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "ad...

2019-07-31 19:29:07 1230

原创 12.3 datax MongoDB的数据导入MySQL

{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "address": ["12...

2019-07-31 19:26:50 1957

原创 12.2.datax hdfs数据写入mysql

同16编辑后的模板{ "job": { "content": [ { "reader": { "name": "hdfsreader", "parameter": { "column...

2019-07-31 17:42:38 770

原创 12.1 datax的使用mysql to hdfs

参考阿里巴巴开源地址https://github.com/alibaba/DataX与sqoop不同的是datax支持非关系数据库的导入和导出DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，目前支持数据如下图，详情请点击：DataX数据源参考指南类型数据源 Reader(读) Writer(写) ...

2019-07-31 17:26:49 310

query-impala-2000.txt

空空如也