每日小新-CSDN博客

原创 Hexo小结

Hexo 是一个基于 Node.js 的快速、简单和强大的博客框架。

2023-09-10 13:49:41 153

原创 AWS Athena SQL基础知识

AWS Athena SQL基础知识。

2023-09-10 13:45:40 741

原创 AWS Glue Pyspark+Athena基础学习汇总

基础知识笔记，随查随用

2023-09-10 13:31:22 1722

原创推荐算法+机器学习

1、推荐系统的目的解决目的：– 信息过载、物品推荐推荐系统：推荐系统是信息过载所采用的措施，面对海量的数据信息，从中快速推荐出符合用户特点的物品，解决一些人的“选择恐惧症”：面对没有明确需求的人。 – 解决如何从大量信息中找到自己感兴趣的信息 – 解决如何让自己生产的信息脱颖而出，受到大众的喜爱 – 一个好的推荐

2022-03-21 20:08:56 2648 2

关于电影推荐项目知识点一、常用推荐算法分类1、基于人口统计学的推荐此推荐法较为简单，通过对用户的基本信息或者喜好，来给类似的用户推荐类似喜好，或者通过对用户进行标签标记，通过不同的标签推导出规则或者模型，进而推测同类标签人员的喜好,用户信息的标签化的过程一般被称为用户画像什么是用户画像？– 用户画像，便是企业通过采集用户的基本信息，生活习惯以及购物信息，消费习惯等，推导出一个抽象的商业化用户全貌，作为大数据技术的基础方式。2、基于内容的推荐根据物品之间的关系，推导出类似种类数据，根

2022-03-16 21:39:45 818

原创 Flink总结

Flink总结一、初步了解什么是Flink？Flink是一个实时的流式计算引擎，与sparkStreaming不同的是底层是流式引擎，并且有用事件窗口和时间窗口两种窗口，可以进行离线和实时计算，有着完美的容错机制，以及数据延迟机制，在支持高吞吐的同时保证低延迟，并提出了时间语义的概念，将数据分为有界流和无界流，且拥有FlinkSQL方便操作与学习成本。1、Flink的编程模型Flink API分层1、Stateful Stream Processing:是Flink最底层的接口，提供了对

2022-03-09 16:11:24 3128

原创 Flink状态一致性检查点

Flink状态一致性检查点一致性检查点：是指在某一个时刻所有算子将同一个任务都完成的情况下进行的一个快照（方便后续计算出错时，提供一个数据恢复的快照）

2022-03-05 19:36:31 2275 4

原创几分钟明白Flink水位线

Flink水位线1、Flink中不同的事件概念Processing time（处理时间）：即事件被机器处理的时间，事件流向某个算子的系统时间Event Time(事件时间）：事件时间是再某个生产设备上发生时间，指事件进入Flink之前嵌入的时间，通常可以从事件中获取一个时间戳，此时间戳可以用来得出水位线，进而解决延迟，乱序，重发等情况Ingestion time(摄入时间）：摄入时间即是事件进入Flink的时间，是在Source Operator中设置的。2、WaterMark(水位

2022-03-02 10:02:23 4301 2

原创使用SQL实现车流量的计算

卡口转换率将数据导入hive，通过SparkSql编写sql,实现不同业务的数据计算实现，主要讲述车辆卡口转换率，卡口转化率：主要计算不同卡口下车辆之间的流向，求出之间的转换率。1、查出每个地区下每个路段下的车流量select car, monitor_id, action_time, ROW_NUMBER () OVER (PARTITION by carORDER by action_time) as n1FROM traffic.hive_flow_action此

2022-02-25 16:12:07 2792

原创十分钟让你明白蓄水池算法

蓄水池算法1、蓄水池原理如图，一个游泳池，池内水是活水，也就是有水不断地进入，也有一端不断往外流出，理论上池中水会被全部替换，其实随着水流的流动，会存在一部分水还是之前的水，有一部分会被替换，这也就是蓄水池算法的思想2、蓄水池算法解析⭐蓄水池算法一般用于大量数据，数据流处理，对数据进行一次读取，公平随机抽样。假设一个抽奖场景，设置三个中将名额，规定期间不断有人进行抽奖，直到开奖日，才停止抽奖，进行开奖。3、Java代码实现通过从100个数字中随机抽取5个数据为例，编写代码如下

2022-02-23 11:28:29 3573 1

原创 SparkSql概念总结

SparkSql????1、Spark on Hive和Hive on SparkSpark on Hive：即Hive只作为存储角色，Spark负责sql解析优化，执行Hive on Hive：即Hvie不仅存储又作解析，SPark来负责执行2、DataFrame和DataSetDataFrame:底层依旧是RDD,通过将数据转换成DataFrame对象，即二维表再进行sql,DataFrame对象内表示一行一行的数据，主要是提高执行效率和执行优化DataSet:是分布式的数

2022-02-17 12:00:00 307 1

原创 SparkStreaming概念总结

SparkStreaming????目录SparkStreaming????1、SparkStreaming与Strom2、Spark计算流程3、编程模型DStream4、SparkStreaming检查点和数据源5、offset操作⭐6、数据的反压机制1、SparkStreaming与StromSparkStreaming:是一个分布式的流式准实时计算引擎，Storm是一个实时计算框架。实时性：Storm的实时性比SparkStreaming要高，SparkStreaming可以通过设置达

2022-02-16 20:46:36 1336 1

原创 SparkCore概念总结

SparkCore????目录SparkCore????一、什么是Spark？二、Spark与MapReduce比较三、Spark运行模式四、Spark分区方式？五、RDD五大属性六、Spark系统架构七、算子（单文件）八、算子（多文件）九、窄依赖和宽依赖的认识十、stage切割规则十一、SparkShuffle机制十二、Spark资源调度和任务调度流程十三、谈谈广播变量和累加器一、什么是Spark？Spark专门为大规模数据进行快速处理的计算引擎，主要分为SparkCore、SparkSql、

2022-02-16 15:10:10 1243 1

原创常见面试题①

常见面试题①1、kafka中zookeeper中只存储Broker id和消费者offsets偏移量，但不存在生产者信息2、kafka压力测试一般都是IO先出现瓶颈3、kafka消息堆压，消费者无法处理怎么办① 通过增加Topic和消费者数量来解决② 通过增大每次的拉去数据量，生成速度远远大于拉取速度也会导致数据的堆压4、kafka过期数据的清理方式:① 策略一：delete删除策略② 策略二：compact压缩策略（配置）5、kafka中的数据是有序的吗？

2022-02-15 22:35:45 730

原创 Flume+Kafka+Spark小案例

????生产者&消费者小案例主要通过Flume进行数据的收集，作为数据的生产者，接入kafka作为消息中间件，用SparkStreaming作为消费者进行数据的消费【前提Linux已准备好Flume+Kafka环境，网上很多教程这里不多赘述，直接进入主要内容】1、准备Flume的配置文件apache-flume-1.9.0-bin/options/exec2kafka.conf文件：## flume-ng agent -n a1 -c options/ -f exec2kafka.c

2022-02-14 22:07:49 1062

原创关于Spark中Stage的传输Pipeline

关于Spark中Stage的传输Pipeline首先pipeline管道计算模式，pipeline只是一种计算思想，一种模式，跟MR不同于，pipeline是将逻辑完全走完才会进行结果的落地，MR则是计算一下持久化磁盘，再进行计算，这也是MR与Spark速度上差距的根本原因（代码实现Stage中的Pipeline)object Pipeline { def main(args: Array[String]): Unit = { //创建连接 val conf = new Sp

2022-02-14 16:56:05 641 3

原创知识✧回顾

知识回顾1、请简述 HBase 的数据结构和存储架构数据结构：hbase数据结构包括：命名空间，行键，列簇，列，时间戳，数据ceil。命名空间:类似于关系型的数据库，存放表的空间行键：也就是rowkey，唯一标识列簇：也就是一个大的类，一个数据集，数量是固定的列：列就是通俗的一列，一个列簇可以拥有多个列，列可以增加时间戳：每次的数据更新都会跟新时间戳，可以通过时间戳获取最新的数据，也解决了hdfs不能随时间修改的弊端数据ceil:也就是hbase中的数据全是字符串类型存储架构：Cli

2022-02-11 18:59:01 2094

原创用Java写出敬业福小程序：人人扫出敬业福

程序员：谁缺敬业福！！！

2022-01-22 11:50:17 11626 32

原创 Java--最大数✧SQL--部门工资前三高的所有员工

一、最大数题目：给定一组非负整数 nums，重新排列每个数的顺序（每个数不可拆分）使之组成一个最大的整数。注意：输出结果可能非常大，所以你需要返回一个字符串而不是整数。示例 1：输入：nums = [10,2]输出："210"示例 2：输入：nums = [3,30,34,5,9]输出："9534330"示例 3：输入：nums = [1]输出："1"示例 4：输入：nums = [10]输出："10"来源：力扣（LeetCode）【链接：】此题主要是考验

2022-01-19 17:46:37 445

原创简单理解Lambda表达式

????Lambda表达式一、基础引入首先我们的Lambda表达式主要就是为了提高我们编写匿名接口重写其方法，为我们提供便捷，先看一下最普通的接口方法重写：【什么是Lambda?】（建议案例运行一下，容易理解）/*基本写法重写接口内方法*/public class Lambda1{ public static void main(String[] args) { //重写接口内方法（匿名接口省去Inter1 inter1即可 Inter1 inter1=

2022-01-18 21:31:52 2537

原创 Storm实时处理架构

Storm????Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等，1、DAG：有向无循环图它由有限个顶点和有向边组成，每条有向边都从一个顶点指向另一个顶点；从任意一个顶点出发都不能通过这些有向边回到原来的顶点。有向无环图就是从一个图中的任何一点出发，不管走过多少个分叉路口，都没有回到原来这个点的可能性。2、Stor

2022-01-16 20:02:13 3322 1

原创 Kafka【入门篇】

KafkaKafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。面试题：使用消息队列的好处？解耦：允许我们独立的扩展或修改队列两边的处理过程。可恢复性：即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。缓冲：有助于解决生产消息和消费消息的处理速度不一致的情况。灵活性&峰值处理能力：不会因为突发的超负荷的请求而完全崩溃，消息队列能够使关键

2022-01-12 10:25:43 1281

原创 Hadoop体系总结

大数据主要总结大数据中的各种框架架构和执行流程1、HDFS✧MapReduce架构与读写流程之前有过对HDFS和MapReduce的详细总结请自行查看之前文章，【跳转】2、Hive架构以及流程Hive 简单说就是Hadoop的一个【数据仓库】工具，主要作用就是将半结构化和非结构化的数据映射成一张表，并提供简单的sql功能，底层则是MapReduce???? 流程大致流程：首先通过通过客户端访问thrift服务器，连接后，发出sql语句，此时解析器会对sql进行编译成

2022-01-09 00:09:02 780

原创 Java实现简单爬虫

Java实现简单爬虫????超级简单的爬虫，直接引入jsoup依赖，即可编写获取指定网页的信息，很简单的一个爬虫。（一个小案例）//一个小案例仅供参考public class Reptile { public static void main(String[] args) throws IOException { //指定爬取的网页 String url="https://pic.netbian.com/4kdongman/"; //通过J

2022-01-03 18:33:03 365 2

原创 MapReduce实现好友推荐

MapReduce实现好友推荐环境准备，三台虚拟机上已经搭好hadoop和Zookeeper集群，配置好HDFS和MapReduce环境（环境看之前文章），本案例通过使用ava API实现好友推荐（好友推荐思路图如下）。1、启动环境//启动三台zookeeperzkServer.sh start//启动HDFSstart-all.sh启动访问主节点，创建文件加mrxx作为数据存储的位置2、Java API具体实现代码首先创建一个java项目，再通过工具类随机生成好友

2022-01-02 19:20:33 2797 1

原创 Java编写“诸神黄昏“小游戏

????Java编写"诸神黄昏"小游戏此游戏历经10800(3小时）秒独具匠心的精心打造，全人工编写，使用最通俗简单的语句编写“史诗级”作品????，没错，它就是我们的"诸神黄昏"（贪吃蛇）小游戏????。正文：主要就是通过java编写一个简单的贪吃蛇????游戏，有关卡模式和无尽模式，并将此游戏打包，变成.exe程序，并且可以通过玩家手动自由更换贪吃蛇的皮肤，比如一下皮肤（有兴趣的可以直接下载源码以及EXE打包软件）。主要还是教会大家如何把自己辛辛苦苦编写的小程序小游戏变成一个exe文件（项目每行都

2022-01-01 22:49:46 2422 2

原创 HBase✧详解

HBase详解一、HBase优点容量大：Hbase单表可以有百亿行、百万列，数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性面向列：面向列的存储和权限控制，并支持独立检索，可以动态增加列，即，可单独对列进行各方面的操作列式存储，其数据在表中是按照某列存储的，这样在查询只需要少数几个字段的时候，能大大减少读取的数量多版本：Hbase的每一个列的数据存储有多个Version，比如住址列，可能有多个变更，所以该列可以有多个version稀疏性：为空的列并不占用存储空间，表可

2021-12-31 19:17:41 2394

原创大数据之HBase入门到精通

Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库,通过键值对的形式进行查询key-value）。

2021-12-30 17:15:18 1223

原创 HDFS✧MapReduce具体流程

????HDFS✧MapReduce具体流程????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????HDFS✧MapReduce具体流程一

2021-12-24 20:37:07 1007 2

敬业福小程序，扫出敬业福

诸神黄昏游戏源码+JSmooth软件+项目EXE

wallpaper_engine(3).zip

CRM_project.zip

FlyBird飞翔的小鸟的图片和代码资源包有兴趣自行下载

空空如也