自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 问答 (1)
  • 收藏
  • 关注

原创 计算机机考面试经验

虽然现在很多牛客的题目没要求构造输入输出(牛客叫核心代码模式),但是实际考试还是需要的(牛客叫ACM模式),平时刷题需要注意区分,多刷需要自己构造的。​ 两个平台在我看来都可以,但是考虑到最终机考在牛客,如果平时比较习惯刷LeetCode,一定要在牛客上下面的高频考题都刷几题,熟悉输入输出。两种类型,每个子项排序表示考察的频率,序号越低,考察频率越高,比如数组是考察频率最高的。总分400分,平台在牛客。这篇专栏,不建议大家购买,但是里面的题目描述的确比较详细,大家可以参考,然后根据描述去搜索答案。

2023-08-02 08:53:35 534

原创 seatunnel 2.3.1全流程部署使用

seatunnel部署

2023-07-24 23:15:30 317

原创 大数据集群搭建(长期更新)

大数据搭建详细流程本地,yarn模式

2023-07-24 22:44:54 409 1

原创 解决本地主机没有vmware网络

解决重装系统之后安装大数据环境的各种小Bug

2023-04-25 11:13:29 2047 2

原创 hive常用函数笔记

unix_timestamp:返回当前或指定时间的时间戳。current_timestamp:当前的日期加时间。from_unixtime:将时间戳转为日期格式。dayofmonth:当前时间是一个月中的第几天。months_between: 两个日期间的月份。map_values: 返回map中的value。sort_array: 将array中的元素排序。map_keys: 返回map中的key。last_day:日期的当月的最后一天。current_date:当前日期。to_date:抽取日期部分。

2023-03-10 11:26:13 208

原创 解决docker删除镜像出现Error response from daemon: conflict: unable to delete 4a698e13718a (must be forced) -

解决docker删除镜像报错

2023-02-12 14:28:11 412

原创 解决Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.7.

在spark读取sclickhouse出现这个情况是因为依赖冲突不兼容。使用maven的exclusions排除冲突jar即可解决问题。

2023-02-01 12:30:09 806

原创 解决ClickHouse client version 22.10.2.11 (official build).Connecting to localhost:9000 as user default

clickhouse-client启动客户端 如果此时还报错(因为端口冲突修改tcp端口的情况)systemctl start clickhouse-server.service重新启动服务。将listen注释取消或者打开,同时也要注意自己是否修改了tcp端口号。clickhouse-server下的 config.xml。clickhouse-client --port 端口号启动。原因是未打开远程监听。

2023-01-31 23:31:32 1125

原创 解决ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.java.net.BindExce

java.net.BindException: Problem binding to [hadoop01:9000] java.net.BindException: 地址已在使用;For more details see: http://wiki.apache.org/hadoop/BindException这个原因。解决ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.

2023-01-31 23:12:04 1096

原创 kafka与zk启动脚本

启动脚本

2023-01-16 22:21:10 316

原创 高职大数据赛项增量数据抽取

高职大数据竞赛

2023-01-16 22:11:05 2026

原创 高职大数据赛项离线数据清洗

高职大数据技术赛项

2023-01-16 22:07:06 1294 1

原创 shtd大数据技术与应用赛项pom文件(支持本地调试、集群)

大数据技术与应用赛项pom文件

2022-11-07 21:05:43 817

原创 Spark全量增量从mysql抽取数据静态动态分区存入Hive

【代码】Spark全量增量从mysql抽取数据静态动态分区存入Hive[2]

2022-09-28 21:13:16 2943 7

原创 python数据处理小技巧(echarts学习)【一】

一.针对echarts桑基图的数据处理这是我们想要的数据格式links[{ source: '家具', target: '公司', value: 1879156}]部分源数据截图根据表格数据所致我们需要的数据字段来源于["地区", "类别"]["销售额"]下面我们利于pandas进行数据处理import pandas as pddata = pd.read_excel("超市运营数据.xls")#对地区、类别分组,根据销售额进行求和a = d.

2022-04-23 21:09:03 817

原创 解决:该虚拟机似乎正在使用中。如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。否则,请按“取消(C)”按钮以防损坏。配置文件: E:\vm\hadoop01\hadoop01.vm

删除.lck目录原因是因为上次未正确关闭虚拟机删除之后打开虚拟机继续运行

2022-01-20 13:47:22 2397

原创 解决maven Could not find artifact org.apache.maven.plugins:maven-compiler-plugin:pom:3.8 ....错误

1.设置setting文件<!-- 阿里云镜像 --><mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/repositories/central/</url> <mirrorOf>central</mirrorOf>&lt

2022-01-11 12:41:16 13131 6

原创 hive所遇到的坑(持续更新)

1.启动元数据报错无法进入hive解决方法 修改hive-site.xml<!-- jdbc 连接的 URL --><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://hadoop01:3306/hive?createDatabaseIfNotExist=true&amp;characterEncod...

2022-01-10 17:15:06 1121

原创 解决LinuxMysql1045错误ERROR 1045 (28000): Accessdenied for user ‘root‘@‘localhost‘ (using password: YES)

错误截图解决方法 1.打开vi /etc/my.cnf找到[mysqld]段,并加入一行“skip-grant-tables” 2.输入:wq保存并退出重启数据库服务systemctl restart mysqld 3.进入数据库,免密码 mysql -uroot -p...

2022-01-10 14:54:19 4009 3

原创 Spark全量增量从mysql抽取数据静态动态分区存入Hive

import org.apache.spark.sql.{DataFrame, DataFrameReader, SaveMode, SparkSession}object readmysqlstatic { def main(args: Array[String]): Unit = { System.setProperty("HADOOP_USER_NAME", "root") val spark = SparkSession.builder() .master("l.

2021-12-22 21:04:01 6201 14

原创 Python爬虫lxml实训:使用lxml库爬取以下数据:游戏名称、游戏类型、游戏图片地址、文件大小、游戏热度

题目要求爬取数据的链接:https://down.gamersky.com/pc/ 爬取内容:游戏名称、游戏类型、游戏图片地址、文件大小、游戏热度 将爬取内容写入文件解题思路导入所需要的第三方库 from lxml import etreeimport requests 将所需要爬取的网页下载到本地(避免重复请求网页拒绝访问) url="https://down.gamersky.com/pc/"headers={"User-Agent":"Mozilla/5.0 (W...

2021-12-03 19:18:04 693 1

原创 Hive数据仓库分桶表分区未显示分区的数据

Hive 数据仓库

2021-11-30 23:20:30 3217 1

javaweb图书管理系统(含实训报告、sql文件、截图)

利用Idea创建JavaWeb项目,采用的技术为jdbc,servlet,js,tomcat服务器,Mysql数据库,jsp等。基于Web图书管理系统主要用书实现图书馆相关信息管理,基本功能包括:图书管理、读者管理、图书分类管理、图书借阅信息、图书归还信息等。 1.根据基于图书管理项目的最终目的和系统使用做出一个系统界面雏形。 2.系统需要一个管理图书信息,用户信息和管理员信息的数据库作为技术支持, 该数据库即可以添加新的图书信息和用户信息也可以修改已有的图书信息和用户信息。 3.系统需要实现注册用户和添加管理员的操作,然后需要区分用户和管理员的登录,只有管理员才能对图书进行进一步操作。 4.用户和管理员的都可以任意查询图书的信息。 5.管理员可以对图书信息进行增删改查等操作。

2023-01-17

python爬虫某站某模块mm高清图片

python网络爬通过re,requests模块爬取某站某模块高清mm图片,下载就能用。

2023-01-17

历年软考中级软件设计师资料

软考中级资料

2023-01-16

全国职业技能大赛大数据赛项十套赛题(shtd)

使用Scala编写spark工程代码,将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中。 1、 抽取shtd_store库中user_info的增量数据进入Hive的ods库中表user_info。根据ods.user_info表中operate_time或create_time作为增量字段(即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较),只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.user_info命令,将结果截图粘贴至对应报告中;

2023-01-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除