第一次看海-CSDN博客

原创 spark sql实践开发后端引擎

一转眼的时间，2024年了，翻看了一下博客首页，已有8年的码领，自从去年开启博客关注才能预览，至今已有1500个粉丝，比其他短视频平台的粉丝还要多，经年累月，8年一瞬，在码代码的道路上越来越不快乐，为何不快乐，因为寻觅不到快乐的源泉。------------- “何以解忧，唯有暴富”

2024-01-17 10:51:25 594

在docker内编译，可能是centos的原因或者docker版本的原因，我用centos7.9安装docker23.x版本就可以完成编译。可能是protobuf安装的版本有问题，我是直接复制的别人编译hadoop3.1.x版本的需要yum的一些依赖包，但是观察hadoop3.3.4源码包中。缺少googletest的依赖，有梯子应该就直接从google下载了，但是这里没有梯子就手动从github下载。hadoop 3.3.4 注意。make check 通过。

2023-04-04 12:04:20 1092 1

原创 R 安装 devtools 报错信息

在编译spark源码时遇到sparkr有依赖R环境，当然一般用不到sparkr时可以不加入编译。使用yum 安装 * rpm那一行，后面也有centos的提示。再接着安装 ragg,devtools 就都可以安装成功了。在centos 7中直接复制 * rpm 那个提示。在安装R环境和一些依赖包时遇到一些问题。同理，在遇到安装 ragg 时的错误。尝试先安装 textshaping。遇到安装 devtools时。安装完再接着进入R交互命令安装。

2023-04-01 23:09:26 2158 1

原创数仓数据含有特殊字符，如何更方便的导出成excel文件

一般情况，如果遇到数据中含有特殊字符, "\n", "\r", "\t",或者其他的特殊分隔符在数据导出时造成错位，都用sql替换，但是需求是导出的数据要保持原有内容格式，就不能替换剔除这些特殊字符，这种情况下使用json方式。

2022-10-24 13:52:20 653

原创 mysql 表排序规则不同时关联报错解决方法

xxxx_register 是 utf8mb4_general_ci 格式，所以与之关联的表 xxx_regist 要使用。观察两个表的表属性，发现一个是utf8mb4_general_ci ，另一个是 utf8mb4_unicode_ci。但是表只有查询权限，没有其他的操作权限，这种情况下使用 COLLATE 的方式转换使得排序规则相同。utf8mb4_general_ci 将排序规则与之匹配。

2022-10-12 13:57:12 574

原创 python2.7 连接mysql8.x时报错

但是我没有修改数据库的权限，只有查询权限，在多种实践后安装一个低版本的mysql-connector-python，找个低版本，必须 8.0.13 安装后就可以链接mysql8.x版本了。先预览一下mysql-connector-python都有哪些版本。网上的内容主要是修改数据库。

2022-09-22 19:21:05 520

原创爬虫预算方案调研整理

1次取两个，30s取一个商品，1分钟内需要1200个ip，1200/200=6次，请求6次拿到1200个ip在1分钟内发起2次抓取商品 12000/月 *12 = 14.4w/年。按一次取300个ip 1200/300=4次 1分钟内发送4次，分别在第1s，11s，21s，31s取300个ip，1分钟内正好可以抓取完1200个商品 39w/年。1次取两个，30s取一个商品，1分钟需要1200个ip，1200/200=6次，1分钟能取到1200个ip 但是不能完成抓取任务 26w/年。...

2022-08-04 11:49:03 463

原创 StarRocks Broker load 同步hdfs数据

之前安装的starRocks没有同步hdfs的数据，所以一直也没有安装Broker服务，现记录一下部署broker后将数据load进starRocks表的过程，我目前部署的是StarRocks-2.1.4还没有升级，后续记录一次升级。

2022-07-15 18:55:25 1077

原创 R 熵权法计算权重及综合得分

最近工作中需要根据大数据智能计算，预测或者推荐出供应链付款优先/权重来，以往都是人工根据供应商关系等因素做付款的一个优先级，并不能客观的将付款策略分发到其他供应商，现根据大数据客观计算，记录一下获取数据从starRocks，2,指定指标项的正，负向指标像销售额，负卖金额越大越好的指定为正向指标像残次库存，滞销库存，欠收金额这种指标约少越好指定为负向指标3，归一化后计算指标w及为权重将计算完的数据导出csv文件，并streaml

2022-07-04 16:32:02 2349

原创 linux 安装R 环境（最新）

最近工作中遇到一些根据数据项进行回归分析和权重计算的需要，经过调研发现R语言有现成的一些函数很方便的计算回归和权重，准备在线上部署实践，发现linux服务器部署遇到一些坑，记录下来：在查阅资料发现使用yum install R 安装的R版本比较老旧，问题比较多，想要安装最新安装包，在RStudio的官方文档中找到文档RStudio Install R - RStudio DocumentationThis page walks you through installing R for RStudio. Ad

2022-07-01 11:38:26 2681

原创 StarRocks使用过程中遇到的一些问题记录

1，{"status":"FAILED","msg":"There is no 100-continue header"}增加 Expect:100-continue 参数curl --location-trusted -u dxt:'******' -T /app/bigdata_app/data/20220517.txt -H "column_separator:^" -H "Expect:100-continue" http://127.0.0.1:8030/api/ods/ods_x

2022-05-20 11:11:54 3777 2

原创 mac 安装odbc DSN测试连接StarRocks

项目开发的CDP产品需要多源数据的接入，我将部分分析数据存储在StarRocks中，便于CDP的数据分析提取，但是接入过程中要使用ODBC的方式，所以在此使用工具的方式测试是否可以ODBC DSN是否可以连接到数据库。 1，mac os系统先安装 http://www.odbcmanager.net/ 2，再安装mysql 的odbc驱动https://downloads.mysql.com/archives/c-od...

2022-05-16 23:51:29 1344 3

原创 RobotFramework实践系列（一）

一，准备工作1，官网地址https://robotframework.org/2,介绍Robot Framework（RF）是一个通用的开源自动化框架。它可用于测试自动化和机器人过程自动化(RPA)，Robot Framework是开放和可扩展的。Robot Framework几乎可以与任何其他工具集成，以创建强大而灵活的自动化解决方案。Robot Framework是免费使用，无需支付许可费用，Robot Framework有一个简单的语法，利用人类可读的关键字。它的功能可以通过使用Python

2022-04-13 16:30:02 4015 1

原创 Ranger 安装报错日志

1，导入失败，log_bin_trust_function_creators 为 OFFError executing: CREATE FUNCTION `getXportalUIdByLoginId`(input_val VARCHAR(100)) RETURNS int(11) BEGIN DECLARE myid INT; SELECT x_portal_user.id into myid FROM x_portal_user WHERE x_portal_user.login_id = inp

2022-01-05 18:19:05 1485

原创 Apache Ranger 2.2.0 编译

1，安装包下载https://dlcdn.apache.org/ranger/2.2.0/apache-ranger-2.2.0.tar.gz2，环境准备apache-maven-3.6.3git3，执行编译cd /data/softwarewget https://dlcdn.apache.org/ranger/2.2.0/apache-ranger-2.2.0.tar.gzmkdir /data/software/rangertar -zxvf apache-rang

2021-12-31 17:52:59 1263

原创 hadoop 3.x 集群使用命令无法关闭问题

自从集群启动数月从没有关闭过，今天操作发现集群使用命令无法停掉，查询博客发现是 hadoop 的 pid 文件在 /tmp 文件下被系统清理掉，修改配置如下cd /data/module/hadoop-3.1.3mkdir tmpcd /data/module/hadoop-3.1.3/etc/hadoopvim hadoop-env.sh:set nu在 198 行252 行修改配置分发文件至其他节点，重启服务发现在安装路径下的tmp目录生成pid文件，...

2021-12-22 11:51:47 990

原创第8节 hudi 0.9编译在flink 1.12.2中测试发现guava 冲突

hadoop 版本 apache hadoop 3.1.3hive 版本 apache hive 3.1.2flink 版本 1.12.2hudi 0.9.0编译hudi后测试flink sql 操作，insert数据发生错误com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)VCaused by: java.lang.NoSuchMethodError:

2021-10-13 10:22:45 899

原创第7节 hudi 0.9 与Flink 1.12.2 集成测试

安装Flink从hudi 0.9的编译pom中查看，编译时用的 flink版本是1.12.2,在官网下载https://archive.apache.org/dist/flink/flink-1.12.2/（1）上传到集群中因为是测试流程，先单节点上传至cdh06 解压先不做hadoop 环境变量的配置，因为使用的cdh ，先让flink自己识别系统中的hadoop环境（2）启动flink集群cd /data/software/flink-1.12.2/bin

2021-10-08 17:51:23 775

原创第6节 hudi delta Streamer 测试

这一节主要介绍，使用Delta Streamer工具从外部源甚至其他Hudi表中读取和更改的方法，以及使用Hudi数据源通过upserts加速Spark作业的方法。然后使用各种查询引擎来进行查询表数据。1 Write Operations Delta Streamer工具提供3种不同的写入的操作方式（1）Upsert:这是默认操作，输入数据时会通过索引判定为插入或更新。（2）Insert:此操作与upsert类似，但是完全跳过索引，因此效率可能比upsert高的多，但也只适用于允许...

2021-10-08 17:32:58 907 4

原创第5节 Hudi Merge on Read表和Copy on Write 表对比

一. Merge on Read表和Copy on Write表对比1.写对比（1）编写代码，将数据插入到表中，分别指定不同类型的表。pom.xml参考第3节def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("test_operator").setMaster("local[*]") .set("spark.serializer", "org.apache.sp

2021-10-08 16:58:01 2986

原创第4节 hive spark 查询hudi 数据环境cdh6.3.2

使用hive带where条件查询发生错误select uid,fullname from member_ro where uid >=0 and uid <20;发现错误java.io.IOException: cannot find class org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat at org.apache.hadoop.hive.ql.io.CombineHiveInputF

2021-10-08 16:19:58 1876

原创第3节 hudi hive 数据同步，实现湖仓一体 cdh6.3.2存在版本兼容问题，spark可以查询HoodieParquetRealtimeInputFormat格式表，hive查询报错

对接hive（1）将Hudi目录编译好的hudi-hadoop-mr-bundle-0.9.0.jar，复制到hive的lib下让hive支持hudi,需要重启hiveserver2服务,或者不加入也可，在执行hive sql 时add jar也可先复制分发jar包到hiveserver2节点[xxx@xxx target]# rsync -rvl hudi-hadoop-mr-bundle-0.9.0.jar xxx@xxx:/data/software/如下图已经放置在hiv

2021-10-08 16:02:28 2341

原创第2节测试spark操作hudi 0.9 cdh6.3.2 版本不兼容时

spark-shell操作（1）spark-shell启动,需要指定spark-avro模块，因为默认环境里没有，spark-avro模块版本号需要和spark版本对应，(可以在maven仓库https://mvnrepository.com/查看spark 个版本对应的spark-avro有没有再maven仓)，并且使用Hudi编译好的jar包。发现spark-avro使用的3.0.0版本scala 是2.12，如果使用的spark 是apache spark3.0.0之后的可以参考第一节编.

2021-10-08 15:35:06 1920 7

原创第1节 hudi 0.9编译 CDH6.3.2环境

1.准备编译环境1) Maven安装（1）把apache-maven-3.6.1-bin.tar.gz上传到linux的/data/software目录下（2）解压apache-maven-3.6.1-bin.tar.gz到/data/module/目录下面tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /data/module/（3）修改apache-maven-3.6.1的名称为maven（4）添加环境变量到/etc/profile中

2021-10-08 15:06:19 1525

原创 oozie迁移或配置高可用后再迁移下线

参考文章https://www.freesion.com/article/8020529723/1，第一次启用高可用时会报错Command failed to run because service Oozie has an invalid configuration. Review and correct its configuration. First error: Oozie Server (cdh06) is missing these plugins needed for

2021-08-13 10:41:25 371

原创 CDH 集群配置警告信息到钉钉，企业微信，飞书webhook机器人

经过多次尝试发现不是

2021-06-09 19:04:11 601

原创 impala 查询资源调度配置，执行器executor，协调器coordinator 角色组配置优化节点资源分配

记录一下，在用impala作为计算引擎查询hive数据时，经常性的发现资源少的节点由于内存暴增而导致impala Daemon 挂掉，仔细查询cdh中impala执行过程的日志，发现impala的计算会初始化到一个节点

2021-06-08 17:18:03 1242

原创 Hive与ES集成过程，错误记录

一、基础准备1，查看es对应版本，下载版本号一样的jar包，测试环境用的es7.8.0下载地址https://jar-download.com/artifacts/org.elasticsearch/elasticsearch-hadoop-hive2，将下载好的jar包elasticsearch-hadoop-hive-7.8.0.jar上传到hdfs中放在存储hive udf的目录下。3，引入jar包先查看已经引入的jar包有哪些list ja..

2020-12-03 16:03:15 2688 4

原创 Cloudera Manager 中角色迁移和配置的一些操作记录

最近大数据集群中有一台节点磁盘坏掉，因为用的aliyun服务器，在考虑现有业务不需要太多的服务器资源，准备下架这台坏掉的服务器，记录一下其中的一些操作1.先需要造的是 zookeeper 因为依赖他的组件必须先能找到健康的它才能干活停掉坏的 server 节点，添加角色添加完后zookeeper必须是奇数台才行，现在删掉那个坏的配置文件过期需要中心这个zookeeper服务这样依赖 zookeeper 的其他服务就得重新部署这个ser...

2020-07-21 09:26:30 1302

原创 Solr每次在core中新加入字段后，要重建索引

Solr每次加入新字段后，要重建索引这个字段的索引才能生效，不然使用Query查询是查询不到该字段的，因为使用的是增量导数据的方式，所以只配置了schema中的field标签因为使用的是增量导数据的方式，所以只配置了schema中的field标签加入新字段后要重建索引选择delta-import的方式，因为没有配置full-import所需的配置，加上Optimize 执行Execute按钮发现索引已经...

2020-07-17 14:36:19 814

原创二叉查找树（二叉搜索树or二叉排序树）（scala）代码实现-数据结构

二叉查找树：树的左子树的值小于根节点或父节点，右子数的值大于根节点或父节点，用scala实现二叉树的创建，插入，删除等操作package com.dxt.tree/** * 二叉查找树练习 */object Learn2Tree { class Node { var vlaue: Int = _ var leftNode: Node = _ var...

2019-03-01 23:41:10 298

原创斐波那契数列（scala）代码实现- 递归练习-数据结构

基本思想，第一个数，第二个数都是1，从第三个数开始，是前面两个数的和1,1,2，依次 1,1,2,3非递归方式/*** 求第n个斐波那契数 1,1,2,3,5,8,13,21***/def fbn(n: Int): Int = { if (n == 1) { return 1 } if (n == 2) { return 1...

2019-03-01 18:26:40 3666

原创 kylin在build报错10020拒绝链接错误_记录

org.apache.kylin.engine.mr.exception.MapReduceException: Exception: java.net.ConnectException: Call From dxt102/192.168.1.102 to 0.0.0.0:10020 failed on connection exception: java.net.ConnectExceptio...

2019-02-28 13:25:42 2893

原创 MapReducer 计算定位时间问题-面试题

/**数据 * userA,locationA,2018-01-01 08:00:00,60 userA,locationA,2018-01-01 09:00:00,60 userA,locationB,2018-01-01 10:00:00,60 userA,locationA,2018-01-01 11:00:00,60 * * 最终结果 user...

2019-02-21 15:20:34 441

原创操作Zookeeper的web页面zkui

除了命令行客户端的方式访问zookeeper外，现在有一个可以可视化操作zookeeper的web页面，具体的安装步骤1，下载源代码https://github.com/DeemOpen/zkui，如图所示，解压后的目录结构 2，这个代码是idea工具开发，可以直接open到idea中，3,因为需要使用maven工具编译一下，所以直接使用idea中的maven projec...

2019-01-25 19:10:33 9251

原创使用Reflector 反编译 NPOI 查看源码，参考源码修改NPOI创建word 页眉中添加锚点图片

上篇文章使用了inline方式往页眉中插入图片，因为这种方式插入的图片不好按照坐标定位方式调整图片的摆放位置，所以只能参考NPOI 源码中inline的方式修改添加CT_Anchor 锚点的方式首先下载含有页眉添加图片的NPOI dll文件：https://download.csdn.net/download/dengxt/10824550然后打开Reflector，file-open...

2018-12-06 17:27:57 1307

原创 NPOI 操作word 创建页眉页脚，页眉中插入图片

使用NPOI操作word，在制作页眉页脚中有个特殊的需求，在页眉中插入图片，在网上查找许久，终于是有个可以实现在也没中插入图片，但是是以inline方式在页眉中，这种方式不能很好的满足图片位置的调整，需要修改源码，加上可以设置锚点的方式插入图片（还没有实现，实现了再来记录）1，在页眉中插入图片所使用的NPOI版本是 https://download.csdn.net/download/deng...

2018-12-03 14:49:04 6207 4

原创 NPOI 操作word创建柱形图- 单柱

创建单柱形图和创建多柱形图的代码一样，只是里面需要修改一些地方，让柱形图的显示更好看一些（貌似也不咋的好看）结果图： XWPFDocument m_Docx = new XWPFDocument();//测试数据格式//string zxtstr="{report:[{title:'男',data:[{name:'20-30',num:2},{name:'30-40',num:4...

2018-12-03 11:47:11 3385 3

原创 NPOI 操作word创建柱形图-双柱-多柱

是使用NPOI操作word生成数据模板时，遇到创建柱形图的需求，本篇记录创建双柱或者多柱的方式，下一篇记录单柱形图，在制作单柱形图时需要注意一些地方的改动才能更好的展示。代码是经过复制+黏贴+反复调整勉强可实现功能，具体里面的细节并没有深入研究。结果图：XWPFDocument m_Docx = new XWPFDocument();//测试数据格式// string jsons...

2018-12-03 11:30:56 2080 2

原创 NPOI 在word中插入表格包括合并单元格

在使用NPOI操作制作word数据模板时，需要在word中插入表格，包括合并单元格的方式图例：1，没有合并单元的方式创建表格，这种方式是提前创建好所需要的表格，然后再往里面填数XWPFDocument doc= new XWPFDocument();//创建表格-提前创建好表格后填数XWPFTable tableContent = doc.CreateTable(4, 5);...

2018-12-03 11:10:59 10326 4

可以在页眉中插入图片的NPOI

使用NPOI操作制作word

三级联动（省-市-县）js文件

初级sql学习指南

空空如也