朱同学-CSDN博客

原创 [回归] 线性回归之解析解的推导过程

线性回归Linear Regression——线性回归是什么?是机器学习中有监督机器学习下的一种简单的回归算法。分为一元线性回归(简单线性回归)和多元线性回归,其中一元线性回归是多元线性回归的一种特殊情况,我们主要讨论多元线性回归做什么?回归问题关注的是一个因变量和一个或多个自变量的关系,根据已知的自变量来预测因变量.如果因变量和自变量之间的关系满足线性关系(自变量的最高幂为一次),...

2020-02-06 16:20:59 5740

原创 [分类] KNN算法

KNN算法KNN，K-NearestNeighbor——K最近邻(不常用)是什么?是一种简单的分类算法.K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表.做什么?用来做分类.怎么做?knn的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。简单地说我们认为’近朱者赤’...

2020-01-06 16:10:13 437

原创 [hive] 经典sql题及答案(三)

推荐:经典sql题及答案(一)经典sql题及答案(二)题目部分22 、使用hive 求出两个数据集的差集？数据t1表：id name1 zs2 lst2表：id name1 zs3 ww结果如下：id name2 ls3 ww2325 、每个用户连续登陆的最大天数？数据:login表uid,date1,2019-08-011,2019-08-02...

2019-11-17 20:25:53 1149

原创 [leetcode] 搜索插入位置

题目给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。你可以假设数组中无重复元素。示例 1:输入: [1,3,5,6], 5输出: 2示例 2:输入: [1,3,5,6], 2输出: 1示例 3:输入: [1,3,5,6], 7输出: 4示例 4:输入: [1,3,5,6], 0输出: 0思...

2019-11-16 10:32:19 182

原创 [leetcode] 移除元素

推荐删除排序数组中的重复项题目给定一个数组 nums 和一个值 val，你需要原地移除所有数值等于 val 的元素，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。示例 1:给定 nums = [3,2,2,3], val = 3,函数应该返回新的长度 ...

2019-11-16 10:28:09 136

原创 [leetcode] 删除排序数组中的重复项

题目给定一个排序数组，你需要在原地删除重复出现的元素，使得每个元素只出现一次，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例 1:给定数组 nums = [1,1,2], 函数应该返回新的长度 2, 并且原数组 nums 的前两个元素被修改为 1, 2。你不需要考虑数组中超出新长度后面的元素。示例 2:...

2019-11-16 10:22:00 169

原创 [leetcode] 合并两个有序链表

题目将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例：输入：1->2->4, 1->3->4输出：1->1->2->3->4->4思路将两个有序的序列合并成一个有序的序列,可以使用归并的思想.类似于小学老师安排学生排队,男生一排依次从矮到高,女生一排依次从矮到高,每次比较男生和女生...

2019-11-16 10:17:52 211

原创 [leetcode] 有效的括号

题目给定一个只包括 ‘(’，’)’，’{’，’}’，’[’，’]’ 的字符串，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: "()"输出: true示例 2:输入: "()[]{}"输出: true示例 3:输入: "(]"输出: false示例 4:输入...

2019-11-16 10:13:08 104

原创 [leetcode] 最长公共前缀

题目编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀，返回空字符串 “”。示例 1:输入: ["flower","flow","flight"]输出: "fl"示例 2:输入: ["dog","racecar","car"]输出: ""解释: 输入不存在公共前缀。说明:所有输入只包含小写字母 a-z 。思路既然是公共的前缀,那么必然是数组中所有元素都共...

2019-11-16 10:07:50 107

原创 [leetcode] 罗马数字转整数

题目罗马数字包含以下七种字符: I， V， X， L，C，D 和 M。字符数值I 1V 5X 10L 50C 100D 500M 1000例如，罗马数字 2 写做 II ，即为两个并列的 ...

2019-11-16 09:53:11 88

原创 [leetcode] 回文数

推荐整数反转题目判断一个整数是否是回文数。回文数是指正序（从左向右）和倒序（从右向左）读都是一样的整数。示例 1:输入: 121输出: true示例 2:输入: -121输出: false解释: 从左向右读, 为 -121 。从右向左读, 为 121- 。因此它不是一个回文数。示例 3:输入: 10输出: false解释: 从右向左读, 为 01 。因此它不是一个回文...

2019-11-16 09:46:55 96

原创 [hive] 总结hive只能有一个reduce运行的情况及改善方法

推荐hive的调优手段总结hive在什么情况下只能有一个reduce运行有时不管怎么设置调整reduce个数的参数，任务中一直都只有一个reduce任务,此时所有数据都发往一个reduce会导致任务执行缓慢甚至失败,因此实际工作过程中要尽量避免这种情况的发生.有以下情况会导致只有一个reduce执行任务:1 使用udtf聚集函数却没带group by比如select count...

2019-11-16 09:17:56 3539 2

原创 [hive] hive的调优手段总结

hive调优1 fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走mapreduce。[hive-site.xml]...

2019-11-16 09:07:38 401

原创 [hive] 经典sql题及答案(二)

推荐:经典sql题及答案(一)题目部分4 、编写连续7 天登录的总人数：数据:t1表Uid dt login_status(1登录成功,0异常)1 2019-07-11 11 2019-07-12 11 2019-07-13 11 2019-07-14 11 2019-07-15 11 2019-07-16 11 2019-07-17 11 2019...

2019-11-16 08:10:51 1572

原创 [leetcode] 整数反转

题目给出一个 32 位的有符号整数，你需要将这个整数中每位上的数字进行反转。示例 1:输入: 123输出: 321示例 2:输入: -123输出: -321示例 3:输入: 120输出: 21注意:假设我们的环境只能存储得下 32 位的有符号整数，则其数值范围为 [−231, 231 − 1]。请根据这个假设，如果反转后整数溢出那么就返回 0。思路可以逐个取出输...

2019-11-14 15:49:03 99

原创 [leetcode] 两数之和

题目给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]思路涉及到...

2019-11-14 15:38:40 114

原创 [hadoop] hadoop-ha中由谁来合并fsimage和edits

大家都知道,在hadoop1.x中由SecondaryName负责fsimage和edits文件的合并,但是由于SecondaryName不支持namenode的热备份,会造成hdfs的单点故障问题,在hadoop2.x中已被弃用.那么在hadoop2.x中的hadoop-ha由谁来合并fsimage和edits呢?答案是StandybyNameNode.1 首先edits文件会同步到Jou...

2019-11-14 08:19:07 814

原创 [hadoop] hdfs的并发写问题

总所周知,hadoop的hdfs组件有一个缺点就是不支持并发写入,不支持文件随即修改.但是很多人不太了解并发写入是指什么.有以下两种情况两个客户端同时向hdfs上传不同名文件:全都上传成功.两个客户端同时向hdfs上传同名文件:两个文件全部上传失败.因此hdfs不能并发写指的是不能同时上传同位置同名文件.额外一种情况两个同名文件,一个文件成功上传,再用另一个客户端上传同名文...

2019-11-13 20:59:15 4763

原创 [hadoop] hdfs的block块大小为什么是128MB

block块大小的设置:HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在Hadoop2.x版本中是128M，老版本中是64M。为什么是128MB:块的大小与磁盘传输速率有关.一般hdfs的寻址时间为10ms左右.当寻址时间为传输时间的1%时为最佳状态,因此传输时间大概在1s左右.机械硬盘文件顺序读写的速度为10...

2019-11-13 20:20:12 2628

原创 [hive] 蚂蚁金服的两道sql题

题目背景说明：以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。table_name：user_low_carbonuser_id data_dt low_carbon用户日期减少碳排放（g）蚂蚁森林植物换购表，用于记录申领环保植物所需要减少的碳排放量table_name: plant_carbonplant_id plant_name low_car...

2019-11-13 16:33:50 1079 1

原创 [spark] RDD的特点及弹性分布式数据集的弹性是什么意思

spark主要是基于内存做运算操作,把数据加载到内存然后形成了RDD.但是如果内存资源不足的情况下，Spark会自动将RDD数据写入磁盘,这里就体现了弹性分布式数据集中的"弹性".顺便再提一下RDD的几个特点RDD特点分区RDD逻辑上是分区的，每个分区的数据是抽象存在的，计算的时候会通过一个compute函数得到每个分区的数据。只读RDD是只读的，要想改变RDD中的数据，只能...

2019-11-13 11:16:46 960 1

原创 [hive] 经典sql题及答案(一)

题目部分第1题我们有如下的用户访问数据userId visitDate visitCountu01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2017/2/21 8U02 2017/1/23 6U01 2017/2/22 4要求使用SQL统计出每个用户的累积访问次数，...

2019-11-05 21:41:59 8675

原创 [linux] 集群分发脚本和集群操作脚本

集群分发脚本#!/bin/bash #1 获取输入参数个数，如果没有参数，直接退出 pcount=$# if((pcount==0)); then echo no args; exit; fi #2 获取文件名称 p1=$1 fname=`basename $p1` echo fname=$fname #3 获取上级目录到绝对路径 pdir=`cd...

2019-10-30 09:35:04 479

原创 [hive] 在sql中使用一次函数然后做嵌套查询速度快,还是反复使用函数不做嵌套查询速度快

表中的数据是百万级别有两种sql一种是用到dtt字段的地方直接使用date_format(dt,‘yyyy-MM’),如sql01.一种是将dtt字段作为视图,嵌套在最内层,使得外层sql可以直接使用dtt别名,如sql02.问题是两种sql查询速度会更快呢?sql01:select date_format(dt,'yyyy-MM') dtt,count(*) from sql0...

2019-10-26 15:48:18 692

原创 [hive] 两个类型为string的字段能否相加

分两种情况1 值为数值的情况此时能相加,结果为double类型数据准备a 1 2a 2 2b 3 3c 4 4create table teststring(userid string,num1 string,num2 string)row format delimited fields terminated by '\t'stored as textfile;load ...

2019-10-26 09:27:07 6689

原创 [hive] 任务提交到yarn执行时没有响应,连接失败

很可能是resourceManager出了问题解决办法是关闭当前的主resourceManager,使从nodeManager转正.

2019-10-24 21:36:50 817

原创 [hbase] hbase写操作时对wal和memstore的操作顺序

一般我们说先记录在预写日志(wal),然后再写入缓存(memstore),实际上我们从源码中可以发现有一些小小的偏差.实际操作顺序应该是:1 hbase做写操作时,写记录在wal(Write-Ahead logfile)中,但是不同步到hdfs2 然后再把数据写入到memstore3 开始将wal同步到hdfs4 最后如果wal同步成功则结束,如果同步失败则回滚memstore源码参考...

2019-10-10 20:46:16 933

原创 [hbase] hbase的读写流程步骤

写在前面hbase读的速度比写的速度慢,是一个读慢写快的数据库,因为hbase的读的时候要做很多事.写流程1）Client 先访问zookeeper，获取hbase:meta 表位于哪个Region Server。2）访问对应的Region Server，获取hbase:meta 表，根据读请求的namespace:table/rowkey，查询出目标数据位于哪个Region Serve...

2019-10-10 20:35:04 313

原创 [hbase] hbase的架构及其各角色功能

架构图各组件及其功能:1）ClientClient包含了访问Hbase的接口，另外Client还维护了对应的cache来加速Hbase的访问，比如cache的.META.元数据的信息。2）ZookeeperHBase通过Zookeeper来做master的高可用、RegionServer的监控、元数据的入口以及集群配置的维护等工作。具体工作如下：通过Zoopkeeper来保证集群中只有...

2019-10-10 17:22:25 3671

原创 [hadoop] 异常处理org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/Stri

本地模式运行mapreduce时发现bug,报错信息为Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V at org.apache.hado...

2019-10-10 10:08:48 566

原创 [hive] 关于内部表和外部表区别的误区

网上相当一部分博客如此描述内外部表的区别创建表时：创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。创建表时数据会不会移动取决于以下两点1 数据来源是本地还是hdf...

2019-10-09 09:51:08 954

原创 [hadoop] 重新格式化HDFS的详细步骤

使用ZKFC组件的情况下1 删除两个目录core-site.xml配置文件中指定的目录(默认位置在/mnt目录下)<property> <name>dfs.name.dir</name> <value>/home/hadoop/hdfs/name</value> <description>name...

2019-10-08 19:30:25 2744

原创 [hadoop] HDFS的新节点上线和旧节点退役

新节点上线1 准备一个全新的节点,使用root账户登录2 修改ip和host主机名3 在管理节点端配置SSH免密码登录4 关闭防火墙5 安装JDK,解压hadoop安装包并配置相关环境变量6 将以前节点的hadoop配置文件同步到新节点7 直接启动新节点的DataNode即可关联到集群sbin/hadoop-daemon.sh start datanodesbin/yarn-da...

2019-09-26 10:10:59 326 1

原创 [hadoop] DataNode的工作流程和工作机制

工作流程1 DataNode启动后先向NameNode注册2 注册成功后NameNode响应注册成功3 DataNode每周期(1小时)上报所有块信息4 DataNode每三秒与NameNode做一次心跳连接,心跳返回结果带有NameNode给该DataNode的命令工作机制1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块...

2019-09-26 09:30:06 405

原创 [hadoop] yarn的组成架构及其各角色的作用

yarn工作机制详细步骤及流程图:https://blog.csdn.net/a755199443/article/details/101381503yarn是hadoop2.0后推出的资源调度框架,它由以下部分组成:1）ResourceManager（RM）（1）处理客户端请求（2）监控NodeManager（3）启动或监控ApplicationMaster（4）资源的分配与调度...

2019-09-25 19:54:28 2047

原创 [hadoop] yarn工作机制详细步骤及流程图

详细步骤（1）MR程序提交到客户端所在的节点。（2）YarnRunner向ResourceManager申请一个Application。（3）RM将该应用程序的资源路径返回给YarnRunner。（4）该程序将运行所需资源提交到HDFS上。（5）程序资源提交完毕后，申请运行mrAppMaster。（6）RM将用户的请求初始化成一个Task。（7）其中一个NodeManager领取到T...

2019-09-25 19:53:33 2232

原创 [hadoop] HDFS的读写详细流程

HDFS的写入过程1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。2）namenode返回是否可以上传。如果可以上传,客户端给上传文件做逻辑分块。3）客户端请求第一个 block上传到哪几个datanode服务器上。4）namenode返回3个datanode节点，分别为dn1、dn2、dn3。5）客户端请求dn1上传数据，dn1收到请求...

2019-09-25 17:32:21 141

原创 [hadoop] HDFS默认的副本存放策略

默认的副本数量为3个第一份：如果是单节点提交则存放在提交节点的客户端节点上,如果是集群提交则存放到提交集群中任一节点第二份：存放到第一份副本所在的机架上的另外一个不同的节点上第三份：存放到第一份所在的机架外的另外一个不同的节点上更多的副本：随机选择与第一份副本所在节点同一数据中心上的任一节点进行存储原文For the common case, when the replication...

2019-09-25 17:16:21 2291

原创 [hadoop] HDFS组成架构及其作用

1)NameNode:就是Master,它是一个主管,管理者1 管理HDFS的目录结构;2 配置副本策略3 管理数据块(Block)映射信息4 处理客户端读写请求2)DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作1 存储实际的数据块2 执行数据块的读/写操作.3)Client:就是客户端1 文件切分.文件上传HDFS的时候,Client...

2019-09-25 16:51:05 3258

原创 [hadoop] hadoop的优缺点总结

hadoop有以下四个优点:1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。2）高扩展性：能在廉价机器组成的集群间分配任务数据，可方便的扩展数以干计的节点。3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。4）高容错性：能够自动将失败的任务重新分配。同时hadoop 1.x有以下三...

2019-09-25 16:44:47 6187