1024276449-CSDN博客

原创 Mysql 事务的四要素

java虚拟机主要分为以下几个区:1)方法区：a.有时候也成为永久代，在该区内很少发生垃圾回收，但是并不代表不发生GC，在这里进行的GC主要是对方法区里的常量池和对类型的卸载b.方法区主要用来存储已被虚拟机加载的类的信息、常量、静态变量和即时编译器编译后的代码等数据。c.该区域是被线程共享的。d.方法区里有一个运行时常量池，用于存放静态编译产生的字面量和符号引用。该常量池具有动态性，也就是说常量并不一定是编译时确定，运行时生成的常量也会存在这个常量池中。2)虚拟机栈:a.虚拟机栈也就是我们平常

2021-06-26 19:13:37 260

原创精准一次性消费

定义**精准一次性消费：**消费且仅消费一次数据，保证数据不丢不重；**最少一次消费：**主要是保证数据不丢，可能会产生数据的重复；**最多一次消费：**主要是保证数据不会重复，但有可能丢失数据问题如何产生**丢失数据：**在Kafka消费数据时我们的数据还没有处理完就提交了offect，如果此时我们宕机了在重新消费时就会产生数据丢失；**重复数据：**在Kafka消费数据时我们的数据处理过后此时宕机了因为我们还没有提交offect这时我们重新进行消费的话就会产生我们数据的重复如何解决方案一

2021-06-14 16:00:55 182 1

原创 Hive Impala联系与区别

Impala 与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面，但从客户端使用来看Impala与Hive有很多的共同之处，如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如上图所示。Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询，Impala给数据分析人员提供了快速实验、验证想法的大数据分析工具。可以先使用hive进行数据转换处理，之后使用Impala在Hive处理后的结果数.

2021-06-13 20:34:13 179 1

原创 Hql-连续登录N天

连续登录假设我们的字段有 id 和登录日期 dt我们以连续登录3天为例select id,diffdtfrom( select id, sortdt - dt as diffdt from (select id, dt, rownumber() over(partition by id order by dt) as sortdt f

2021-06-07 21:27:36 145

原创数据结构与算法-2的幂

描述：给你一个整数 n，请你判断该整数是否是 2 的幂次方。如果是，返回 true ；否则，返回 false 。如果存在一个整数 x 使得 n == 2x ，则认为 n 是 2 的幂次方。思路：如果我们的数是2的整数其二进制为1后面n个0 所以我们可以将n和其n-1进行于操作如果最后的结果为0 则为true 否则为false代码：class Solution { public boolean isPowerOfTwo(int n) { return n>0 &am

2021-05-30 22:43:45 96 1

原创数据结构与算法-戳气球

描述：有n个气球，编号为0到n-1，每个气球上都标有一个数字，这些数字存在数组nums中。现在要求戳破所有气球，戳破第i个气球可以获得其旁边两位数跟自己的乘积，如果为边界则超出的部分为1；代码：候就把他从list中给删除。来看下代码 public int maxCoins(int[] nums) { List<Integer> list = new LinkedList<>(); //先把nums数组中的元素放到list中 for (int n

2021-05-24 21:35:23 71

原创 Hadoop 怎么分片

HDFS 存储系统中，引入了文件系统的分块概念（block），块是存储的最小单位，HDFS定义其大小为 64MB。与单磁盘文件系统相似，存储在 HDFS 上的文件均存储为多个块，不同的是，如果某文件大小没有到达 64MB，该文件也不会占据整个块空间。在分布式的 HDFS集群上，Hadoop 系统保证一个块存储在一个 datanode 上。HDFS 的 namenode 只存储整个文件系统的元数据镜像，这个镜像由配置 dfs.name.dir 指定，datanode 则存有文件的 metainfo 和具

2021-05-20 22:36:36 580

原创 HQL-留存率计算

留存率既：留存率=登录用户数/新增用户总数 * 100%登录用户数：在统计的时间登陆过的用户新增用户总数：新创建的用户(第一次登录的用户)思路：因为我们现实生产中求的不只是次日留存，还有7日留存或30日留存1.首先我们统计出每个用户最早登录时间2.统计出每日新增人数3.在统计出每日活跃用户4.将两个查询结果进行join形成新表 id atime(每日登录) btime(最早登录)5.通过TIMESTAMPDIFF(DAY,atime,btime)函数，求出两个日期之间相差的天数SELE

2021-05-15 22:24:13 367

原创数据结构与算法-二叉搜索树的第k大节点

二叉搜索树的第k大节点因为二叉搜索树的分布是左子树小于根节点右子树大于根节点，根据这个原理我们对我们的二叉搜索树进行中序遍历，遍历过后的结果就是我们的按照升序排好序的数组，因为我们题目中要求的是返回第K大的节点，所以我们可以逆序遍历，先遍历我们的右节点在根节点，最后左节点。/** * Definition for a binary tree node. * public class TreeNode { * int val; * TreeNode left; * Tr

2021-05-13 22:15:35 67

原创 HBase数据模型

HBase逻辑架构HBase物理存储1. NameSpace命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。HBase两个⾃带的命名空间，分别是hbase和default，hbase中存放的是HBase内置的表，default表是⽤户默认使用的命名空间。一个表可以⾃由选择是否有命名空间，如果创建表的时候加上了命名空间后，这个表名字以:作为区分!2. Table类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，数据属性，比如超时时间(TTL)

2021-05-11 22:40:11 158

原创数据结构与算法-找到缺失的整数

一个长度为n的递增排序数组中的所有数字都是唯一的，并且每个数字都在范围1～n之内。在范围1～n内的n个数字中有且只有一个数字不在该数组中，请找出这个数字。思路：根据题目可知因为是递增的我们可以求其1~n的和在依次减去数组中数据；public int missingNumber(int[] nums) { int n = nums[nums.length-1]; int result = n *(n + 1 ) /2; for(int i=0;i<n

2021-05-09 20:59:32 112

原创数据结构与算法-找到环的入口

package linkedlist;public class LinkedList { public static Node isCycle(Node head){ Node p1 = head; Node p2 = head; while (p2 != null && p2.next != null){ p1 = p1.next; p2 = p2.next.next; if (p1 == p2){ Node index1 = p2;

2021-05-05 21:32:38 90

原创数据结构与算法-合并两个排序的链表

输入两个递增排序的链表，合并这两个链表并使新链表中的节点仍然是递增排序的。示例1：输入：1->2->4, 1->3->4输出：1->1->2->3->4->4 public ListNode mergeTwoLists(ListNode l1, ListNode l2) { ListNode head = new ListNode(0); ListNode temp = head; while(l1

2021-05-03 23:08:51 97

原创数据结构与算法-判断是否有环

package linkedlist;public class LinkedList { public static boolean isCycle(Node head){ Node p1 = head; Node p2 = head; while (p2 != null && p2.next != null){ p1 = p1.next; p2 = p2.next.next; if (p1 == p2){ return true; }

2021-05-01 22:06:27 101

原创数据结构与算法-输出链表倒数第n个元素

输入一个int类型数值n返回链表的倒数第n个元素值public static HeroNode serch(HeroList head,int n){ //首先判断传入的n是否合法既n的值是否小于list的长度 int size = head.size; HeroList temp = head; if (size < n){ return null; } //合法后判断我们的需要遍历的次数为(size - n) for(int i=0;i<size-n;i+

2021-04-30 22:31:14 260 1

原创 Power BI中将度量作为维度进行建模的优缺点

使用“度量维度”方法构建事实表有一些优点，例如：你可以在报告中使用切片器来选择显示在视觉对象中的度量；你可以轻松添加新度量，而不必在事实表中添加新列；你可以使用行级安全性来控制用户可以访问哪些度量；但尽管如此，任何时候只要偏离常规维度建模，都可能会在以后遇到问题，这个方法也不例外。怎么会这么说呢，接下来就让我们一起看看将度量作为维度进行建模的一些缺点。格式设置压缩计算复杂度计算性能...

2021-04-28 22:06:01 294

原创 Spark Shuffle两种ShuffleManager

在Spark的源码中，负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager，也即shuffle管理器。而随着Spark的版本的发展，ShuffleManager也在不断迭代，变得越来越先进。在Spark 1.2以前，默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端，就是会产生大量的中间磁盘文件，进而由大量的磁盘IO操作影响了性能。因此在Spark 1.2以后的版本中

2021-04-27 21:41:16 333

原创如何在不使用递归的情况下遍历一颗二叉树

面试的时候，往往面试官会强制你写出非递归的版本，网上关于非递归版本的介绍也有很多，这里我分享一个自己认为是比较好记的版本。显然，我们需要用一个stack来模拟递归时的函数调用。对于三种遍历，我们都使用push当前节点->push左子树->pop左子树->push右子树->pop右子树的方式。但是cout时机会有所不同。对于前序遍历来说，每次访问到一个节点就cout；对于中序遍历来说，每次将右子节点进栈时，把当前节点cout；对于后序遍历来说，每次pop的时候cout。使用工

2021-04-25 09:52:20 278

原创关于Hash算法和Hash冲突

关于Hash算法和Hash冲突Hash算法:就是根据设定的Hash函数H(key)和处理冲突方法，将一组关键字映射到一个有限的地址区间上的算法。所以Hash算法也被称为散列算法、杂凑算法。Hash表:通过Hash算法后得到的有限地址区间上的集合。数据存放的位置和key之前存在一定的关系(H(key)=stored_value_hash(数据存放位置)),可以实现快速查询。与之相对的，如果数据存放位置和key之间不存在任何关联关系的集合，称之为非Hash表。Hash冲突:由于用于计算的数据是无限的H(k

2021-04-24 15:25:59 243

原创 RDD、DataFrame、DataSet

一、三者的共性1)RDD、DataFrame、DataSet全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利; 2)三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算; 3)三者有许多共同的函数，如filter，排序等;4)在对DataFrame和Dataset进行操作许多操作都需要这个包:import spark.implicits._（在创建好SparkSession对象后尽量直接导入）5)三者都会

2021-04-22 20:24:43 172

原创数据结构与算法-反转链表

代码实现public TreeNode invertTree(TreeNode root) { if (root == null) { return null; } TreeNode right = invertTree(root.right); TreeNode left = invertTree(root.left); root.left = right; root.right = left; return root;}.

2021-04-21 21:34:21 35

原创小文件的产生和解决

一、小文件是如何产生的1.现在的实时场景下基于每小时的每天的和每周的计算越来越多但是产生的数据大小可能不会超过10M。2.可能数据集本身就含有大量小文件，并未通过任何处理就拷贝到我们的HDFS当中时会产生。3.当我们的每个reduce都会产生一个文件，或者我们产生数据倾斜时，某个reduce数据过大，则其它的数据会很小。二、小文件产生的影响1.NameNode：会损耗NameNode的使用寿命，因为没产生一个小文件就会产生一份元数据并存储到NameNode内存中，元数据信息包括：文件名、文件

2021-04-20 21:42:08 763

原创为什么说Spark比Hadoop快

当被问到为什么Spark比Hadoop快时候，得到的答案往往是：Spark是基于内存的计算，而Hadoop是基于磁盘的计算；Spark是一种内存计算技术。事实上，不光Spark是内存计算，Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题：Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁盘。1、Spark vs MapReduce ≠ 内存 vs 磁盘其实Spark和MapReduce的计算都发生在内存中，区别在于：MapReduce通常需要将

2021-04-19 13:58:16 691

原创 Kafka重复消费漏消费有序性

1.消费者自动提交偏移量2.消费者手动提交偏移量当我们的消费者Poll数据到Consumer当要更新offset时挂掉了此时我们的offect并没有被修改成功当Consumer好了时在重新读取的offect还是3所以会造成数据的重复消费那些情景会造成消息漏消费？先提交offset，后消费，有可能造成数据的重复如何保证有序性因为Kafka只能保证分区内有序当我们有多个分区但是想保证我们数据的有序性时我们可以使用一个生产者一个消费者一个分区，或者我们可以指定想要有序的数据到同一个分区生产者发送

2021-04-18 16:24:34 361

原创 Kafka如何保证数据有序

两种方案：方案一，kafka topic 只设置一个partition分区方案二，producer将消息发送到指定partition分区解析：方案一：kafka默认保证同一个partition分区内的消息是有序的，则可以设置topic只使用一个分区，这样消息就是全局有序，缺点是只能被consumer group里的一个消费者消费，降低了性能，不适用高并发的情况方案二：既然kafka默认保证同一个partition分区内的消息是有序的，则producer可以在发送消息时可以指定需要保证顺序的几条消息

2021-04-15 20:47:57 2519

空空如也

空空如也