DataPulse-辉常努腻-CSDN博客

原创数据开发实习大作战：实习生成长攻略

亲爱的小伙伴们，欢迎来到数据开发的世界！作为一名实习生，。你即将踏上一段充满挑战和机遇的旅程。在这个数据驱动的时代，你的技能和才华将有无限的发挥空间。但请记住，，需要不断地努力和积累。嘿，数据战士们！准备好开启数据实习的征程了吗？**在这个数据为王的时代，努力是我们立足的基石。**这里有一份攻略，带你在数据的战场上冲锋陷阵！

2024-03-25 23:42:34 645

原创数据开发大揭秘：让你的团队协作不再“鸡飞狗跳”！团队协作规范篇

嘿，数据开发的小伙伴们！今天我们要揭开团队协作规范的神秘面纱，让你的团队立即落地，不再“鸡飞狗跳”！准备好迎接一场有趣又实用的规范之旅吧！

2024-03-25 11:44:34 886 2

那么恭喜你这个年龄很适合打工，很适合做开发，很适合当牛马，话糙理不糙，如果牛马都当不了确实没有进入这个赛道的必要了。我建议《听妈妈的话》，读好小学、读好初中、读好高中，把自己人生第一个转折点打在最高点，不要浪费光阴，虚度光阴。家里有没有私企，有没有父母给的铁饭碗，有没有傍上富婆、高富帅，有没有舔狗搁屁股后头，有没有中彩票。首先看到这个话题的时候，我是这样想的，能不能学大数据需要参考本人的自身情况【学历、年龄、决心、具体的岗位的话，相对于其他后端、前端等是要好一点的，没有前后端那么卷。

2023-10-02 08:37:15 333

原创数仓精品理论-做大数据还有没有前途？

尽管大数据领域面临一些挑战，如数据隐私和安全性、技术复杂性和数据治理等，但随着技术的不断发展和创新，大数据仍然具有广阔的前景和无限的潜力。数仓模拟面试：(截至目前共有21战)：https://www.bilibili.com/video/BV1wj411S7a7。学习路线B站视频讲解：https://www.bilibili.com/video/BV1MP411e7VC/大数据生态技术架构在当今世界的数据驱动时代中扮演着重要的角色，并且仍然具有广阔的前景。先说，答案是肯定的，但一定要记住三要三不要。

2023-10-01 18:22:28 299

原创数仓-零基础小白到入土-学习路线

## 讲在前面面向人群：适合零基础、无经验、有一些基础的想在数据开发方面工作的小伙伴。### 涉及基础技术栈：JavaSe -> Git -> Maven -> Mysql -> Jdbc -> linux -> shell -> hadoop -> hive -> sqoop -> scala -> spark -> kafka -> flume -> zookeeper -> flink### 中级：Maxwell、datax、dolphin

2023-07-18 14:53:06 746

原创大数据-你投的简历真的是你认为的工作么？

大数据-你投的简历真的是你认为的工作么？参与公司级湖仓一体化平台建设，包括批流一体计存引擎、多租户国际化任务编排引擎、元数据管理、数据安全管控等，实现高效率、高扩展、高吞吐的湖仓数据处理平台；关键词数据平台需要完成平台建设帮助数仓、数分提升开发效率，关键词熟悉hadoop生态组件、高吞吐、高扩展、架构框架、xxx组件二次开发；打造公司级湖仓数据集成平台，提供多源异构数据源的实时传输服务，具备领先的数据环湖移动能力，支持公司各大业务线数据诉求；对数据集成产品和技术方向进行预研规划，打造行业级别影响力；

2023-04-01 23:06:23 2361 9

原创 JAVA 小工具驼峰命名转下划线命名 parsingCamelCaseToUnderline

驼峰命名转下划线命名 parsingCamelCaseToUnderline

2022-11-24 11:34:31 9134 12

原创开窗函数第一招式(排序聚合我要看顺序)

先看下我找的题目，ENG OMG 放心我给安排了中文。

2022-11-17 23:09:30 8895 11

原创认识一下 ClickHouse

ClickHouse 是面向列的数据库管理系统，主要应用于OLAP业务范畴，用于在线分析处理查询，可以使用SQL查询实时生成数据分析结果。列式存储的好处就是当我们对列进行聚合操作时，效率会大大优于行式存储，而且由于每一列的类型都是相同的，所以对于数据更容易进行压缩，并且可以对不同类型的列选择更合适的压缩算法，以来节约磁盘资源，以及磁盘IO。随着大数据时代的到来，对于OLAP，列存储模式或者说nosql模式比传统意义的行存储模式可能更具优势。

2022-11-16 23:39:22 7461 1

原创 not_in函数致错

not In 相当于 all,如果 Not In 后面跟的是子查询的话，子查询中只要包含一个 null 的返回值，则会造成整个 Not in 字句返回空值，结果就是查询不会返回任何结果。而 in 相当于 =any 的意思,可以有效处理子查询中返回空值的情况,返回正确的结.转一个博客，我能早下班、给小姐姐聊天都靠它我的not in () 致错导师，点击跳转。

2022-10-17 23:13:21 7085 3

原创【JAVA面试题-阿辉】try catch finally ， try 里有 return ， finally 还执行么？

执行，并且finally的执行早于try里面的return结论：1.不管有木有出现异常，finally 块中代码都会执行；2.当try和catch中有return时，finally仍然会执行；3.finally是在return后面的表达式运算后执行的（此时并没有返回运算后的值，而是先把要返回的值保存起来，管finally中的代码怎么样，返回的值都不会改变，任然是之前保存的值），所以函数返回值是在finally执行前确定的；4.finally中最好不要包含return，否则程序会提前退出，返回值不是tr

2022-06-24 17:30:26 701 1

原创 HADOOP MapReduce 处理 Spark 抽取的 Hive 数据【解决方案一】

今天咱先说问题，经过几天测试题的练习，我们有从某题库中找到了新题型，并且成功把我们干趴下，昨天今天就干了一件事，站起来。沙问题？java mapeduce 清洗 hive 中的数据，清晰之后将driver代码进行截图提交。 spark之前抽取的数据是.parquet格式的，对 mapreduce 不太友好，我决定从新抽取，还是用spark技术，换一种文件格式使用新方法进行sink的时候我是直接like别的现成表结构折磨干的，后来hive分割字段都TM乱套啦，赞看看！1.使用scala+sp

2022-06-21 17:26:03 740

原创 Echarts 贴花图案

Apache ECharts 5 新增支持贴花纹理，作为颜色的辅助表达，进一步用以区分数据。在为的前提下，将设为 true 即可采用默认的贴花样式。为系列数据增加贴花纹理，作为颜色的辅助，帮助区分数据。使用默认贴花图案的方式非常简单，只需要开启即可：如果需要自定义贴花图案，可以使用 aria.decal.decals 配置出灵活多变的图案。...

2022-06-16 15:09:01 644 2

原创解决Echarts X轴/Y轴坐标标签显示不下的问题

当然这样还不够我们可以悬浮显示X坐标轴名字解决Echarts X轴/Y轴坐标标签显示不下的问题【不是很长的情况】这里产生了另一个问题，你会发现自己图表太大了，需要将图表向上移动首先通过width height 设置图表的宽高我们这里将所有的图表题添加一个class然后将图表移动一下......

2022-06-16 10:42:50 4924

原创 Echarts X轴强制显示所有标签[X坐标]

Echarts X轴强制显示所有标签[X坐标]

2022-06-16 10:14:51 2250

原创 ubuntu 扫描局域网ip

ubuntu 扫描局域网ip

2022-06-16 09:39:55 1296

原创使用Spark 编码写入 hive 的过程中 hive字段乱码 [解决方案]

由于元数据中的表结构中包含中文，我在抽取到spark过程中已经解决了一次乱码问题，具体显示为问题？？？？,解决方法是在mysql连接上加参数读取mysql成功解决乱码我经过清洗之后，准备写入到hive中，等我写完后，我以为完活啦，可是没想到等我再次使用数据的时候，个别字段值全是null，我在hive查看过数据之后又看表结构，发现表结构中中文是乱码的，我猜想，这应该就导致了字段值无法插入对应字段的结果，找不到对应的字段了，因为乱码了。开始了我的网上冲浪，最后因为我是字段乱码，我翻阅了很多不管用的资料。好啦

2022-06-08 16:38:51 886 1

原创 flink cep 跳过策略 AfterMatchSkipStrategy.skipPastLastEvent() 匹配过的不再匹配碧坑指南

指示匹配过程后的跳过策略今天讲的是 flink cep 如何实现多个窗口之间的滚动匹配即避免以下这种情况出现，当然是否需要避免取决你的工作需求或者要学习什么东西flink cep pattern 代码然而你想要的是这样的匹配规则，则是匹配过一次之后就不再使用这条数据作为其他匹配的数据源修改匹配模式代码得到臆想的数据然后就可以得到我们想要的数据啦看一下我的实际数据前方有危险这个方法的应用实际上是有问题的，我们来分析一下我们的规则是匹配过的数据不可以再次进行匹配，然而当我们设置了我们

2022-06-07 09:42:32 780

原创数据结构-线性表

线性表线性表的定义线性表的抽象数据类型线性表其顺序存储结构顺序表的定义顺序表的特点顺序表的Java代码实现线性表抽象数据类型的Java接口描述线性表类的实现线性表顺序结构的优缺点线性表的定义定义线性表(List)：零个或多个数据元素的有限序列。线性表，顾名思义，是具有像线一样的性质的表。线性表说明首先它是一个序列，也就是说，元素之间是有顺序的若元素存在多个，则第一个元素无前驱，最后一个元素无后继，其他每个元素都有且只有一个前驱和后继。如果一个小朋友去拉两个小

2022-05-21 21:22:35 729 1

原创数据结构-集成算法-随机森林

数据结构-集成算法-随机森林 [内附spark-ml代码]随机森林集成算法随机森林的相关基础知识随机森林梯度提升树多层感知分类器随机森林集成模型指将基础模型组合成为一个模型。Spark 支持两种主要的集成算法：随机森林和梯度提升树。集成算法集成学习（ensemble learning）是目前非常流行的机器学习策略，基本上所有问题都可以借用其思想来得到效果上的提升。基本出发点就是把算法和各种策略集中在一起，说白了就是一个搞不定大家一起上！集成学习既可以用于分类问题，也可以用于回归问题，在机器学习领

2022-05-21 21:10:55 1332

原创数据结构 - 决策树(分类)

数据结构 - 决策树一决策树的介绍二决策树的构造使用决策树做预测需要以下过程：1.信息熵2.条件熵(Conditional Entropy)与[信息增益](https://so.csdn.net/so/search?q=信息增益&spm=1001.2101.3001.7020)（Information Gain）3.信息增益做特征选择的优缺点4.信息增益比(Infomation Gain Ratio)5.Gini系数一决策树的介绍决策树（decision tree）：是一种基本的分类与回归方法，

2022-05-21 19:48:36 9000 1

原创红黑树、平衡二叉查找树

红黑树、平衡二叉查找树非常常用的查找结构，各操作的时间复杂度与树的高度成正比

2022-05-19 20:26:33 1363

原创数据结构基本概念和术语 &时间复杂度&空间复杂度

数据结构数据结构基本概念和术语数据、数据元素和数据项数据：所有被计算机存储、处理的对象。数据元素：数据的基本单位，在程序中作为一个整体而加以考虑和处理。数据元素是运算的基本单位，通常具有完整确定的实际意义。数据元素常常又简称为元素。数据项：一般情况下，数据元素由数据项组成。在数据库中数据项又称为字段或域。它是数据的不可分割的最小标识单位。总结从宏观上看，数据、数据元素和数据项实际上反映了数据组织的三个层次，数据可由若干个数据元素组成，而数据元素又可由若干个数据项组成。数据结构是相互之

2022-05-17 21:11:03 269

原创树、二叉树、存储结构、二叉数遍历& 数据结构基本概念和术语

文章目录树、二叉树、存储结构、二叉数遍历& 数据结构基本概念和术语数据结构基本概念和术语第四章树的基本概念二叉树的基本概念什么是二叉树二叉树的基本/特殊状态二叉树的存储结构链式存储结构顺序结构存储二叉树的遍历二叉树的遍历方法简介来康康代码实现思路：四种遍历方式的时间和空间复杂度根据遍历序列确定二叉树树、二叉树、存储结构、二叉数遍历& 数据结构基本概念和术语数据结构基本概念和术语数据、数据元素和数据项数据：所有被计算机存储、处理的对象。数据元素：数据的基本单位，在程序中作为一个整

2022-05-17 17:06:18 444

原创 spark ml特征转换操作StringIndexer、IndexToString、VectorIndexer、oneHotEncoder、Bucketizer、QuantileDiscretizer

文章目录特征转换方法StringIndexerVectorIndexerIndexToString一、StringIndexer二、IndexToString三、VectorIndexer离散<->连续特征或Label相互转换oneHotEncoderBucketizer输出例子决策树简介运行实例结果展示特征转换方法StringIndexerStringIndexer（字符串-索引变换）是一个估计器，是将字符串列编码为标签索引列。索引位于[0,numLabels),按标签频率排序，频率最高

2022-05-16 19:34:05 857

原创过拟合问题？出现原因？怎么解决？

过拟合问题为了得到一致假设而使假设变得过度复杂称为过拟合(overfitting)，过拟合表现在训练好的模型在训练集上效果很好，但是在测试集上效果差。出现原因？训练集的数量级和模型的复杂度不匹配。训练集的数量要小于模型的复杂度；训练集和测试集特征分布不一致；样本里的噪音数据干扰过大，大到模型过分记住了噪音特征，反而忽略了真实的输入输出间的关系；权值学习迭代次数足够多（overtraining），拟合了训练数据中的噪声和训练样例中没有代表性的特征。怎么解决？数据集扩增（Data A

2022-05-16 17:16:52 280

原创 Flink CEP - Flink的复杂事件处理

1 Flink CEP 是什么FlinkCEP - Flink的复杂事件处理。它可以让你在无限事件流中检测出特定的事件模型，有机会掌握数据中重要的那部分2 Flink CEP 特点目标：从有序的简单事件流中发现一些高阶特征输入：一个或多个由简单事件构成的事件流处理：识别简单事件之间的内在联系，多个符合一定规则的简单事件构成复杂事件输出：满足规则的复杂事件3 Flink CEP 应用场景风险控制：对用户异常行为模式进行实时检测，当一个用户发生了不该发生的行为，判定这个用户是不是有违规操作的嫌

2022-05-15 14:12:39 305

原创数据库写入中文乱码问题编码latin1解决方法

数据库设置alter database shtd_store character set utf8;连接设置jdbc:mysql://master:3306/shtd_store?useSSL=false&characterEncoding=utf-8

2022-05-10 10:28:06 665

原创【Spark Mllib】分类模型——各分类模型使用

一. 数据集这个数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂存在,很快就不流行了)还是长久(长时间流行)。可以查看上面的数据集页面中的简介得知可用的字段。开始四列分别包含 URL 、页面的 ID 、原始的文本内容和分配给页面的类别。接下来 22 列包含各种各样的数值或者类属特征。最后一列为目标值, 1 为长久, 0 为短暂。除去数据集的第一行，然后进行解析：// sed 1d train.tsv > train_noheade

2022-05-09 21:27:45 492

转载 Hadoop HA集群 NameNode 无法自动故障转移（切换active）

在学习 HA 自动化配置，按照hadoop官网:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 配置，最后所有的节点都启动正常。用 kill -9 进程号杀死了当前处于active状态的NameNode后，其他的 Standby 状态的NameNode 并没有自动切换为 Active状态，而且重启杀死的 NameNode 后，可能出现所有NameN

2022-05-07 20:38:03 849 4

原创准确率(Accuracy) 精确率(Precision) 召回率(Recall)和F1-Measure(精确率和召回率的调和平均值)

准确率(Accuracy) 精确率(Precision) 召回率(Recall)和F1-Measure(精确率和召回率的调和平均值)Spark 构建分类模型学习分类模型的基础知识以及如何在各种应用中使用这些模型。分类通常指将事物分成不同的类别。在分类模型中,我们期望根据一组特征来判断事物的类别,这些特征代表了与物品、对象、事件或上下文相关的属性(变量)。最简单的分类形式是分为两个类别,即二分类。一般将其中一类标记为正类(记为 1),另外一类标记为负类(记为1 或者 0)。下图展示了一个二分类的简

2022-04-29 17:12:19 1446

原创降维（Dimensionality Reduction）是机器学习中的一种重要的特征处理手段

降维（Dimensionality Reduction）是机器学习中的一种重要的特征处理手段，package dimensionalityreductionimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.mllib.linalgimport org.apache.spark.mllib.linalg.{Matrix, SingularValueD

2022-04-28 21:46:20 2339

原创 PrincipalComponentAnalysis 主成分分析

PrincipalComponentAnalysis 主成分分析PrincipalComponentAnalysis 主成分分析1、概念介绍2、PCA变换3、“模型式”的PCA变换实现PrincipalComponentAnalysis 主成分分析1、概念介绍主成分分析（PCA）是一种对数据进行旋转变换的统计学方法，其本质是在线性空间中进行一个基变换，使得变换后的数据投影在一组新的“坐标轴”上的方差最大化，随后，裁剪掉变换后方差很小的“坐标轴”，剩下的新“坐标轴”即被称为主成分（Princip

2022-04-28 21:27:36 553

原创十四五规划和2035年远景目标纲要第五篇加快数字化发展建设数字中国

第五篇加快数字化发展建设数字中国迎接数字时代，激活数据要素潜能，推进网络强国建设，加快建设数字经济、数字社会、数字政府，以数字化转型整体驱动生产方式、生活方式和治理方式变革。第十五章　打造数字经济新优势充分发挥海量数据和丰富应用场景优势，促进数字技术与实体经济深度融合，赋能传统产业转型升级，催生新产业新业态新模式，壮大经济发展新引擎。第一节　加强关键数字技术创新应用聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域，加快推进基础理论、基础算法、装备材料等研发突破与迭代应用。加强通用处理

2022-04-25 19:27:13 2804

原创随机数生成 Random data generation

Spark ml 随机数生成器RandomRDDs 是一个工具集，用来生成含有随机数的RDD，可以按各种给定的分布模式生成数据集，Random RDDs包下现支持正态分布、泊松分布和均匀分布三种分布方式。RandomRDDs提供随机double RDDS或vector RDDS。package basicstatisticsimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org

2022-04-23 21:36:07 1868 3

原创相关性Correlations 皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman）

相关性CorrelationsCorrelations，相关度量，目前Spark支持两种相关性系数：皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman）。相关系数是用以反映变量之间相关关系密切程度的统计指标。简单的来说就是相关系数绝对值越大（值越接近1或者-1）, 当取值为0表示不相关，取值为(0~-1]表示负相关，取值为(0, 1]表示正相关。Pearson相关系数表达的是两个数值变量的线性相关性, 它一般适用于正态分布。其取值范围是[-1, 1], 当取值为0表示

2022-04-22 08:18:37 10765

原创 Spark 机器学习概括统计 summary statistics [摘要统计]

概括统计概括统计 summary statistics [摘要统计]读取要分析的数据，把数据转变成RDD[Vector]类型：然后，我们调用colStats()方法，得到一个MultivariateStatisticalSummary类型的变量：结果完整代码概括统计 summary statistics [摘要统计]单词linalg 分开linear + algebra: 线性代数对于RDD[Vector]类型的变量，Spark MLlib提供了一种叫colStats()的统计方法，调用该

2022-04-21 21:17:10 3104

原创机器学习 spark.mllib 数据类型学习

机器学习 spark.mllib 数据类型学习package datatypeimport org.apache.spark.ml.linalg.Vectorsobject Demo1 { def main(args: Array[String]): Unit = { /** * 局部变量 * * 单词 * * dense: 稠密 * sparse: 稀疏 * * indices: index ar

2022-04-20 10:20:32 1252

原创 Java 关键字特性增强-Volatile

Java高级特性增强-Volatile本部分网络上有大量的资源可以参考，在这里做了部分整理，感谢前辈的付出，每节文章末尾有引用列表，源码推荐看JDK1.8以后的版本，注意甄别~多线程集合框架NIOJava并发容器volatile关键字volatile特性volatile就可以说是java虚拟机提供的最轻量级的同步机制。但它同时不容易被正确理解，也至于在并发编程中很多程序员遇到线程安全的问题就会使用synchronized。Java内存模型告诉我们，各个线程会将共享变量从主内存中拷贝到工作内

2022-04-12 21:35:20 272

原创 sqoop to hive GC overhead limit exceeded 大表抽取到hive中发生异常

如果你已经试过了别的博客提供的修改内存的方法，但是美效果的话，不妨看看我的解决办法。为什么Sqoop Import抛出这个异常?22/04/08 16:22:35 INFO mapreduce.Job: Task Id : attempt_1649398255409_0017_m_000000_0, Status : FAILEDException from container-launch.Container id: container_1649398255409_0017_01_000002E

2022-04-08 16:55:19 1684

easyExcel的相关jar包.rar

《空洞机甲》____大一python游戏项目

Python pygame 愤怒小鸟.rar

空空如也