自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

每日小新

世人笑我太疯癫,我笑世人看不穿

  • 博客(137)
  • 资源 (5)
  • 收藏
  • 关注

原创 Hexo小结

Hexo 是一个基于 Node.js 的快速、简单和强大的博客框架。

2023-09-10 13:49:41 153

原创 AWS Athena SQL基础知识

AWS Athena SQL基础知识。

2023-09-10 13:45:40 741

原创 AWS Glue Pyspark+Athena基础学习汇总

基础知识笔记,随查随用

2023-09-10 13:31:22 1722

原创 推荐算法+机器学习

1、推荐系统的目的解决目的:– 信息过载、物品推荐    推荐系统:推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速推荐出符合用户特点的物品,解决一些人的“选择恐惧症”:面对没有明确需求的人。    – 解决如何从大量信息中找到自己感兴趣的信息    – 解决如何让自己生产的信息脱颖而出,受到大众的喜爱    – 一个好的推荐

2022-03-21 20:08:56 2648 2

原创 关于电影推荐项目知识点

关于电影推荐项目知识点一、常用推荐算法分类1、基于人口统计学的推荐此推荐法较为简单,通过对用户的基本信息或者喜好,来给类似的用户推荐类似喜好,或者通过对用户进行标签标记,通过不同的标签推导出规则或者模型,进而推测同类标签人员的喜好,用户信息的标签化的过程一般被称为用户画像什么是用户画像?– 用户画像,便是企业通过采集用户的基本信息,生活习惯以及购物信息,消费习惯等,推导出一个抽象的商业化用户全貌,作为大数据技术的基础方式。2、基于内容的推荐根据物品之间的关系,推导出类似种类数据,根

2022-03-16 21:39:45 818

原创 Flink总结

Flink总结一、初步了解什么是Flink?Flink是一个实时的流式计算引擎,与sparkStreaming不同的是底层是流式引擎,并且有用事件窗口和时间窗口两种窗口,可以进行离线和实时计算,有着完美的容错机制,以及数据延迟机制,在支持高吞吐的同时保证低延迟,并提出了时间语义的概念,将数据分为有界流和无界流,且拥有FlinkSQL方便操作与学习成本。1、Flink的编程模型Flink API分层1、Stateful Stream Processing:是Flink最底层的接口,提供了对

2022-03-09 16:11:24 3128

原创 Flink状态一致性检查点

Flink状态一致性检查点一致性检查点:是指在某一个时刻所有算子将同一个任务都完成的情况下进行的一个快照(方便后续计算出错时,提供一个数据恢复的快照)

2022-03-05 19:36:31 2275 4

原创 几分钟明白Flink水位线

Flink水位线1、Flink中不同的事件概念Processing time(处理时间): 即事件被机器处理的时间,事件流向某个算子的系统时间Event Time(事件时间): 事件时间是再某个生产设备上发生时间,指事件进入Flink之前嵌入的时间,通常可以从事件中获取一个时间戳,此时间戳可以用来得出水位线,进而解决延迟,乱序,重发等情况Ingestion time(摄入时间): 摄入时间即是事件进入Flink的时间,是在Source Operator中设置的。2、WaterMark(水位

2022-03-02 10:02:23 4301 2

原创 使用SQL实现车流量的计算

卡口转换率将数据导入hive,通过SparkSql编写sql,实现不同业务的数据计算实现,主要讲述车辆卡口转换率,卡口转化率:主要计算不同卡口下车辆之间的流向,求出之间的转换率。1、查出每个地区下每个路段下的车流量select car, monitor_id, action_time, ROW_NUMBER () OVER (PARTITION by carORDER by action_time) as n1FROM traffic.hive_flow_action此

2022-02-25 16:12:07 2792

原创 十分钟让你明白蓄水池算法

蓄水池算法1、蓄水池原理如图,一个游泳池,池内水是活水,也就是有水不断地进入,也有一端不断往外流出,理论上池中水会被全部替换,其实随着水流的流动,会存在一部分水还是之前的水,有一部分会被替换,这也就是蓄水池算法的思想2、蓄水池算法解析⭐蓄水池算法一般用于大量数据,数据流处理,对数据进行一次读取,公平随机抽样。假设一个抽奖场景,设置三个中将名额,规定期间不断有人进行抽奖,直到开奖日,才停止抽奖,进行开奖。3、Java代码实现通过从100个数字中随机抽取5个数据为例,编写代码如下

2022-02-23 11:28:29 3573 1

原创 SparkSql概念总结

SparkSql????1、Spark on Hive和Hive on SparkSpark on Hive:即Hive只作为存储角色,Spark负责sql解析优化,执行Hive on Hive:即Hvie不仅存储又作解析,SPark来负责执行2、DataFrame和DataSetDataFrame:底层依旧是RDD,通过将数据转换成DataFrame对象,即二维表再进行sql,DataFrame对象内表示一行一行的数据,主要是提高执行效率和执行优化DataSet:是分布式的数

2022-02-17 12:00:00 307 1

原创 SparkStreaming概念总结

SparkStreaming????目录SparkStreaming????1、SparkStreaming与Strom2、Spark计算流程3、编程模型DStream4、SparkStreaming检查点和数据源5、offset操作⭐6、数据的反压机制1、SparkStreaming与StromSparkStreaming:是一个分布式的流式准实时计算引擎,Storm是一个实时计算框架。实时性:Storm的实时性比SparkStreaming要高,SparkStreaming可以通过设置达

2022-02-16 20:46:36 1336 1

原创 SparkCore概念总结

SparkCore????目录SparkCore????一、什么是Spark?二、Spark与MapReduce比较三、Spark运行模式四、Spark分区方式?五、RDD五大属性六、Spark系统架构七、算子(单文件)八、算子(多文件)九、窄依赖和宽依赖的认识十、stage切割规则十一、SparkShuffle机制十二、Spark资源调度和任务调度流程十三、谈谈广播变量和累加器一、什么是Spark?Spark专门为大规模数据进行快速处理的计算引擎,主要分为SparkCore、SparkSql、

2022-02-16 15:10:10 1243 1

原创 常见面试题①

常见面试题①1、kafka中zookeeper中只存储Broker id和消费者offsets偏移量,但不存在生产者信息2、kafka压力测试一般都是IO先出现瓶颈3、kafka消息堆压,消费者无法处理怎么办① 通过增加Topic和消费者数量来解决② 通过增大每次的拉去数据量,生成速度远远大于拉取速度也会导致数据的堆压4、kafka过期数据的清理方式:① 策略一:delete删除策略② 策略二:compact压缩策略(配置)5、kafka中的数据是有序的吗?

2022-02-15 22:35:45 730

原创 Flume+Kafka+Spark小案例

????生产者&消费者小案例主要通过Flume进行数据的收集,作为数据的生产者,接入kafka作为消息中间件,用SparkStreaming作为消费者进行数据的消费【前提Linux已准备好Flume+Kafka环境,网上很多教程这里不多赘述,直接进入主要内容】1、准备Flume的配置文件apache-flume-1.9.0-bin/options/exec2kafka.conf文件:## flume-ng agent -n a1 -c options/ -f exec2kafka.c

2022-02-14 22:07:49 1062

原创 关于Spark中Stage的传输Pipeline

关于Spark中Stage的传输Pipeline首先pipeline管道计算模式,pipeline只是一种计算思想,一种模式,跟MR不同于,pipeline是将逻辑完全走完才会进行结果的落地,MR则是计算一下持久化磁盘,再进行计算,这也是MR与Spark速度上差距的根本原因(代码实现Stage中的Pipeline)object Pipeline { def main(args: Array[String]): Unit = { //创建连接 val conf = new Sp

2022-02-14 16:56:05 641 3

原创 知识✧回顾

知识回顾1、请简述 HBase 的数据结构和存储架构数据结构:hbase数据结构包括:命名空间,行键,列簇,列,时间戳,数据ceil。命名空间:类似于关系型的数据库,存放表的空间行键:也就是rowkey,唯一标识列簇:也就是一个大的类,一个数据集,数量是固定的列:列就是通俗的一列,一个列簇可以拥有多个列,列可以增加时间戳:每次的数据更新都会跟新时间戳,可以通过时间戳获取最新的数据,也解决了hdfs不能随时间修改的弊端数据ceil:也就是hbase中的数据全是字符串类型存储架构:Cli

2022-02-11 18:59:01 2094

原创 用Java写出敬业福小程序:人人扫出敬业福

程序员:谁缺敬业福!!!

2022-01-22 11:50:17 11626 32

原创 Java--最大数✧SQL--部门工资前三高的所有员工

一、最大数题目:给定一组非负整数 nums,重新排列每个数的顺序(每个数不可拆分)使之组成一个最大的整数。注意:输出结果可能非常大,所以你需要返回一个字符串而不是整数。示例 1:输入:nums = [10,2]输出:"210"示例 2:输入:nums = [3,30,34,5,9]输出:"9534330"示例 3:输入:nums = [1]输出:"1"示例 4:输入:nums = [10]输出:"10"来源:力扣(LeetCode)【链接:】此题主要是考验

2022-01-19 17:46:37 445

原创 简单理解Lambda表达式

????Lambda表达式一、基础引入首先我们的Lambda表达式主要就是为了提高我们编写匿名接口重写其方法,为我们提供便捷,先看一下最普通的接口方法重写:【什么是Lambda?】(建议案例运行一下,容易理解)/*基本写法重写接口内方法*/public class Lambda1{ public static void main(String[] args) { //重写接口内方法(匿名接口省去Inter1 inter1即可 Inter1 inter1=

2022-01-18 21:31:52 2537

原创 Storm实时处理架构

Storm????Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,1、DAG:有向无循环图它由有限个顶点和有向边组成,每条有向边都从一个顶点指向另一个顶点;从任意一个顶点出发都不能通过这些有向边回到原来的顶点。有向无环图就是从一个图中的任何一点出发,不管走过多少个分叉路口,都没有回到原来这个点的可能性。2、Stor

2022-01-16 20:02:13 3322 1

原创 Kafka【入门篇】

KafkaKafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。面试题:使用消息队列的好处?解耦:允许我们独立的扩展或修改队列两边的处理过程。可恢复性:即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。缓冲:有助于解决生产消息和消费消息的处理速度不一致的情况。灵活性&峰值处理能力:不会因为突发的超负荷的请求而完全崩溃,消息队列能够使关键

2022-01-12 10:25:43 1281

原创 Hadoop体系总结

大数据主要总结大数据中的各种框架架构和执行流程1、HDFS✧MapReduce架构与读写流程之前有过对HDFS和MapReduce的详细总结请自行查看之前文章,【跳转】2、Hive架构以及流程Hive 简单说就是Hadoop的一个【数据仓库】工具,主要作用就是将半结构化和非结构化的数据映射成一张表,并提供简单的sql功能,底层则是MapReduce???? 流程大致流程:首先通过通过客户端访问thrift服务器,连接后,发出sql语句,此时解析器会对sql进行编译成

2022-01-09 00:09:02 780

原创 Java实现简单爬虫

Java实现简单爬虫????超级简单的爬虫,直接引入jsoup依赖,即可编写获取指定网页的信息,很简单的一个爬虫。(一个小案例)//一个小案例仅供参考public class Reptile { public static void main(String[] args) throws IOException { //指定爬取的网页 String url="https://pic.netbian.com/4kdongman/"; //通过J

2022-01-03 18:33:03 365 2

原创 MapReduce实现好友推荐

MapReduce实现好友推荐环境准备,三台虚拟机上已经搭好hadoop和Zookeeper集群,配置好HDFS和MapReduce环境(环境看之前文章),本案例通过使用ava API实现好友推荐(好友推荐思路图如下)。1、启动环境//启动三台zookeeperzkServer.sh start//启动HDFSstart-all.sh启动访问主节点,创建文件加mrxx作为数据存储的位置2、Java API具体实现代码首先创建一个java项目,再通过工具类随机生成好友

2022-01-02 19:20:33 2797 1

原创 Java编写“诸神黄昏“小游戏

????Java编写"诸神黄昏"小游戏此游戏历经10800(3小时)秒独具匠心的精心打造,全人工编写,使用最通俗简单的语句编写“史诗级”作品????,没错,它就是我们的"诸神黄昏"(贪吃蛇)小游戏????。正文:主要就是通过java编写一个简单的贪吃蛇????游戏,有关卡模式和无尽模式,并将此游戏打包,变成.exe程序,并且可以通过玩家手动自由更换贪吃蛇的皮肤,比如一下皮肤(有兴趣的可以直接下载源码以及EXE打包软件)。主要还是教会大家如何把自己辛辛苦苦编写的小程序小游戏变成一个exe文件(项目每行都

2022-01-01 22:49:46 2422 2

原创 HBase✧详解

HBase详解一、HBase优点容量大:Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性面向列:面向列的存储和权限控制,并支持独立检索,可以动态增加列,即,可单独对列进行各方面的操作列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能大大减少读取的数量多版本:Hbase的每一个列的数据存储有多个Version,比如住址列,可能有多个变更,所以该列可以有多个version稀疏性:为空的列并不占用存储空间,表可

2021-12-31 19:17:41 2394

原创 大数据之HBase入门到精通

Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库,通过键值对的形式进行查询key-value)。

2021-12-30 17:15:18 1223

原创 HDFS✧MapReduce具体流程

????HDFS✧MapReduce具体流程????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????HDFS✧MapReduce具体流程一

2021-12-24 20:37:07 1007 2

原创 Hadoop入门篇

Hadoop入门一、环境准备提前准备三台虚拟机,构建三台虚拟机免登录(前提三台虚拟机网络配置与本机名都已经配置,可翻看之前文章)

2021-12-21 17:51:29 1526 2

原创 高并发与一致性算法

????高并发与一致性算法

2021-12-20 09:08:49 464

原创 Nginx✧虚拟主机&资源静态化

????Nginx✧虚拟主机&资源静态化此篇主要是资源静态化和虚拟主机的配置使用,最好先看一下基础篇目录????Nginx✧虚拟主机&资源静态化一、????负载策略的几种配置(常用命令)1、轮询模式(默认)2、权重模式3、最少连接数4、IpHash5、常用命令二、????资源静态化1、配置Nginx服务器2、配置Tomcat服务器3、测试三、????虚拟主机1、修改windons的hosts文件2、修改Nginx配置文件3、 基于端口四、???? Session一致性1、安装并启动

2021-12-18 19:16:48 3291

原创 Linux开机满进度条卡死问题

Linux开机满进度条卡死问题此问题意外发生,原本好好的,再次开机就发现启动时进度条很慢,最后满条卡住,但ssh方式连接还能进去,也就是开机了,但linux界面卡住了,页面如下但我们使用xshell进行ssh链接还是可以用的,但进度条卡在那里很难受所以通过将鼠标点进Linux,按Esc就可以看见系统出现的问题了,卡在哪里了(网上也查了一些,但每个人可能情况不一样,所以还是通过Esc查看到底是哪里出的问题)我的问题warning是说etc/rc.d/rc.local文件里有问题,忘记截图

2021-12-18 16:56:27 2326

原创 Linux常用知识点

Linux常用知识✧目录Linux常用知识✧一、Linux网络1、修改主机名2、DNS解析3、防火墙4、加密算法① 不可逆加密算法② 对称加密③ 非对称加密算法5、主机间的免密登录一、Linux网络1、修改主机名vim /etc/hostname2、DNS解析假设两台虚拟机,我们通过设置两台虚拟机(basenode,node1)的hosts文件里指定另一台的域名名称,直接代替地址访问vim /etc/hosts通过域名进行ping测试:3、防火墙防火墙

2021-12-15 15:47:04 4360 8

原创 Zuul服务网关✧

Zuul服务网关☣

2021-12-11 21:16:23 2230

原创 Hystrix服务容错✧

Hystrix服务容错Hystrix是由Netfix团队于2011年研发,主要就是解决分布式项目中,由于个别服务故障引起的蝴蝶效应,导致的雪崩效应,通过hystrix是一个库,对其添加等待时间和容错措施来解决雪崩效应。

2021-12-10 20:10:18 355

原创 面试题 01.05. 一次编辑

面试题 01.05. 一次编辑字符串有三种编辑操作:插入一个字符、删除一个字符或者替换一个字符。 给定两个字符串,编写一个函数判定它们是否只需要一次(或者零次)编辑。示例 1:输入: first = "pale"second = "ple"输出: True示例 2:输入: first = "pales"second = "pal"输出: False来源:力扣(LeetCode)解题思路① 先将s1和s2的大小关系控制为s1>s2(方便后面判断)② 判断

2021-12-08 16:56:53 866

原创 面试题 01.02. 判定是否互为字符重排

✧判定是否互为字符重排给定两个字符串 s1 和 s2,请编写一个程序,确定其中一个字符串的字符重新排列后,能否变成另一个字符串。示例 1:输入: s1 = “abc”, s2 = “bca”输出: true示例 2:输入: s1 = “abc”, s2 = “bad”输出: false说明:0 <= len(s1) <= 1000 <= len(s2) <= 100来源:力扣(LeetCode)链接解题思路:① s1和s2不一样长肯定不

2021-12-08 11:21:11 265

原创 微服务发展过程

微服务发展过程1、互联网发展web1.0用户只能通过网络获取信息,被动获取信息web2.0用户与网络互动,用户与用户互动,淘宝,直播,qq等,数据由用户产生web3.0网络开始根据人们数据进行预测,比如导航提示哪里堵车,买商铺提示类似商品2、技术架构演变单一架构优点=方便部署,简单,只需要打一个war包便于测试,便于共享缺点=不够灵活,维护麻烦,高耦合,可靠性差,技术限制垂直应用架构优点:方便水平扩展,负载均衡,架构简单,拆分流量解决并发问题缺点:相同

2021-12-07 21:05:21 521

原创 MongoDB✧SpringDataMongoDB

SpringDataMongoDB    使用Spring Data 框架都是按照面向对象思想操作用于的工具。使用Spring Data Mongodb 也是使用面向对象的方式进行操作MongoDB,省略了使用Mongodb的Java客户端API把Document转换为实体类的过程。目录SpringDataMongoDB一、环境搭建① 引入依赖② 编写配置③ 编写启动类二、MongoDB基本操作测试① 测试添加② 修改文档③ 更新文档④ 删除文档⑤ 查询文档⑥

2021-12-07 16:30:14 308

敬业福小程序,扫出敬业福

1、使用Java编写 2、简单易懂,精简代码

2022-01-25

诸神黄昏游戏源码+JSmooth软件+项目EXE

1、项目源码 2、JSmooth软件 3、已经做好的exe程序

2022-01-01

wallpaper_engine(3).zip

壁纸软件

2021-11-17

CRM_project.zip

CRM项目源码

2021-10-24

FlyBird飞翔的小鸟的图片和代码资源包有兴趣自行下载

有兴趣的自行下载

2021-08-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除