阿布的进击-CSDN博客

原创输出一下前十个18周岁男孩中借书最多的名字以及书本数量

一道阿里的大数据面试sql题目，输出一下前十个18周岁男孩中借书最多的名字以及书本数量，检验代码能力

2023-02-01 18:51:19 388

原创 anaconda 环境启动报错 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9a in position 287: illegal mult

Python 3.8.8 (default, Apr 13 2021, 15:08:03) [MSC v.1916 64 bit (AMD64)] :: Anaconda, Inc. on win32Type "help", "copyright", "credits" or "license" for more information.Failed calling sys.__interactivehook__Traceback (most recent call last): File "F.

2021-07-16 19:36:07 998 2

原创 leetcode刷题java、c++、go语言三合一版本谷歌师兄的刷题笔记、东哥的算法小抄、 Guide哥的Java面试突击版

不久前火爆 GitHub 的 LeetCode 中文刷题手册，分享给大家，让正在找工作的朋友能够快速找到心仪的offer！《LeetCode Cookbook》目前已经收录了 520 道题的题解，这是最新版本！这是之前分享

2021-06-03 17:03:46 606

原创 Spark Sql查询Hive 数据不一致

请问，你的梦想是什么？在大数据公司中，任何一家公司都不会只使用一个框架吧？！skr，skr~~那我们今天就来聊一段 Hive 与 Spark的爱恨情仇就像在一些场景中，需要将外部的数据导入到Hive表中，然后再对这些数据进行额外的处理，提供给不同的部门使用。当导完数据之后，需要用到Spark进行后续的处理时，发现数据多了一条Spark：Omg，我顶你个肺~这种情况的排查，我们需要从数据源头一步步检验，找出来这突然多出来的数据究竟是何方妖怪，想想是一件很恐怖的事情Hiv

2020-11-06 11:43:07 1479

转载 LeetCode 中文刷题手册：LeetCode Cookbook下载

不久前火爆 GitHub 的 LeetCode 中文刷题手册，分享给大家，让正在找工作的朋友能够快速找到心仪的offer！《LeetCode Cookbook》目前已经收录了 520 道题的题解，这是最新版本！下载地址：链接地址提取码: s8fn...

2020-10-23 18:49:50 6818 2

转载 Linux g++ 提示/usr/bin/ld: 找不到 -lthrift 问题解决办法

在使用g++ 编译 thrift的时候，返回报错提示：/usr/bin/ld: 找不到 -lthrift错误代码展示：[root@master gen-cpp]# g++ -I /usr/local/src/thrift-0.10.0/lib/cpp/src/thrift/ -lthrift RecSys.cpp RecSys_constants.cpp RecSys_types.cpp RecSys_server.skeleton.cpp -o server/usr/bin/ld: 找不到 -

2020-09-01 10:25:59 1294

转载 python链表之单向链表实践

python链表之单向链表实践链表是一种常见的数据结构，属于线性表的一种，但不会按照线性的顺序存储数据。由于不按照顺序存储，链表在存储的时候是O(1)的复杂度。链表包含：单向链表、双向链表、循环链表、块状链表本文主要是单向链表的实践，也是链表中最简单的一种，它包含了两个域，一个用于数据存储，一个指向下一个节点，而最后一个节点指向None。单向链表只可以往一个方向遍历，这也是名字的由来。实践代码：# -*- encoding: utf-8 -*-"""@File : singleLin

2020-06-16 20:01:12 184

原创 Windows环境下Anaconda启动Jupyter报错：UnicodeError

环境windows 7anaconda3 5.x版本Jupyter 6.0.3过程打开anaconda，在anaconda图形界面中打开jupyter，报错提示：UnicodeError xxxx.py 186lins xxxx文件路径大概是（8-9点左右出错解决，凌晨下想起来写这篇文章）：path/anaconda\Lib\site-packages\jinja2\loaders.p...

2020-05-06 00:59:03 690

转载链表及链表与数组的区别优缺点

链表的概念链表是一种物理存储结构上非连续，非顺序的存储结构，数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表的结构是多式多样的，当时通常用的也就是两种：无头单向非循环列表：结构简单，一般不会单独用来存放数据。实际中更多是作为其他数据结构的子结构，比如说哈希桶等等。带头双向循环链表：结构最复杂，一般单独存储数据。实际中经常使用的链表数据结构...

2020-04-19 11:45:28 6436

转载 python版Leetcode刷题：两数之和

整了个idea的leetcode插件，方便刷题，记录下刷的第一题！三种方法中最后一个是最开始想出来的，后来修改nums之后发现不能返回，就有了1和2两种方法！题目中有说明：假设每种输入只会对应一个答案。有想法的朋友可以自己实现一下。# 给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。 # # 你...

2020-04-18 00:48:57 229

原创 Linux：ssh连接报错 Invalid argument

错误代码：errorssh: connect to host 001 port 22: Invalid argument无效参数？！尝试修改配置文件按无果，开始用ip代替hostname（001），可以ssh连接，判断问题出现在hostname上。解决办法：修改hostname为字符串解决问题...

2020-02-26 15:09:27 9053

原创 python max函数中使用key

代码：a = dict(((1,3),(0,-1),(3,21)))m = max(a, key=a.get)为什么这返回与最大值对应的键？字典“a”是python中的一个可迭代的结构。当您在a中循环使用x时，您将循环使用字典中的键。在第二行中，max函数有两个参数：一个可迭代对象(a)和一个可选的“key”函数。 Key功能将用于评估a中最大的项目的值。例子：>>...

2018-12-20 17:57:47 19728 1

转载极大似然估计思想的最简单解释

极大似然估计法的理解可以从三个角度入手，一个是整体性的思想，然后两个分别是离散状态的极大似然估计和连续状态的极大似然估计的简单例子。一、思想极大似然估计可以拆成三个词，分别是“极大”、“似然”、“估计”，分别的意思如下：极大：最大的概率似然：看起来是这个样子的估计：就是这个样子的连起来就是，最大的概率看起来是这个样子的那就是这个样子的。举个例子：有两个妈妈带着一个小孩到了你的面...

2018-08-15 16:56:37 5407 1

原创 Linux CentOS7安装MySQL

MySQL安装检查是否已经安装mysqlrpm -qa | grep mysql如果已经安装，卸载掉原mysqlrpm -e mysql 【一般删除，如果提示依赖的其他文件，则不能删除】rpm -e --nodeps mysql 【强力删除，包含各种依赖包】通过yum来进行mysql安装yum install -y mysql-server mys...

2018-06-04 13:48:42 208

原创 Hadoop排序工具用法小结

Hadoop用于对key的排序和分桶的设置选项比较多和复杂，目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。基本概念Partition：分桶过程，用户输出的key经过partition分发到不同的reduce里，因而partitioner就是分桶器，一般用平台默认的hash分桶也可以自己指定。Key：是需要...

2018-05-31 14:23:07 1342

原创 hadoop坏死节点的重启

当你的主从节点配置好之后，但是由于部分原因，子节点坏死掉，打不开【不管怎么说，你的子节点重启了】子节点操作：进入bin目录，执行：1.hadoop-daemon.sh start datanode 2.hadoop-daemon.sh start tasktracker主节点操作：进入bin目录，执行：hadoop d...

2018-05-31 13:06:09 2130

转载大数据项目性能优化实战

项目背景领导：项目 X 二期接近交付，目前性能问题比较严重，解决一下；原因可能是 kafka 单线程效率不足。客户：该模块每 2 分钟经清洗计算生成的处理结果量应该在 13 万，实际查询到的数量只有 7 万。原研发：可能是 kafka 性能问题，因为硬件上不足以修改多进程，多线程版本应该可以。该模块数据流是读取 kafka--> 过滤 --> 写入 snappy。Part 1: 头痛的...

2018-05-29 14:10:24 5736

原创 hadoop集群之物理机通过master:50030访问web界面

通过修改物理机的hosts文件达到这个目的。文件位置：添加对应关系：【并保存】执行结果：

2018-05-21 15:44:41 468

原创 linux系统中关闭/开启防火墙详解

从配置菜单关闭防火墙是不起作用的，索性在安装的时候就不要装防火墙查看防火墙状态：/etc/init.d/iptables status暂时关闭防火墙：/etc/init.d/iptables stop禁止防火墙在系统启动时启动/sbin/chkconfig --level 2345 iptables off重启iptables:/etc/init.d/iptables restart题外话：BT或...

2018-05-18 15:00:52 390

原创 CentOS下安装Anaconda3详细步骤（实现python2和python3共存）

一：Anaconda的安装安装过程中会有两次提示选择yes/no，都选yes就ok。【安装完anaconda，修改~/.bash_profile文件，添加anaconda的bin目录到PATH中（如果最后一个提示你yes/no，选择yes就不需要更改）】然后重开一个terminal终端，你会发现，Centos自带的python2和python3是共存的。二：A...

2018-05-15 18:32:09 11466 1

转载 sys.stdin读取数据

用python尝试了几天的算法题，发现在用sys.stdin读取数据的时候很容易出错，就是while循环和for循环的区别。看下例子(对于输入的一个整数，希望得到整数值。例如：输入31，最后得到的结果为31)：使用while循环：继续看for循环：可以发现，使用for循环是对每一行数据都进行迭代...

2018-05-15 16:38:28 4973

转载 hive启动时报错

问题： hive启动时报错 Access denied for user 'hive'@'master' (using password: YES)环境： hive1.2.2 hadoop2.6.1步骤：1 mysql安装配置和权限安装完成后，执行update user set host='%' where host='localhost'这个可以使外部本机访问虚拟机的m...

2018-05-14 12:07:46 1504

转载 Hive分区、分桶操作及其区别

1，Hive分区。是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找。下面从...

2018-05-11 18:31:46 10001

转载 MapReduce面试题1

简述MapReduce的流程Mapreduce数据倾斜原因和解决方案https://blog.csdn.net/wypersist/article/details/79797075MapReduce执行过程分析https://blog.csdn.net/WYpersist/article/details/80045044MapReduce文件切分个数计算方法https://blog.csdn.n...

2018-05-11 13:23:56 3991

转载 Hdfs面试题1

Hdfs原理读写过程https://blog.csdn.net/wypersist/article/details/79797565存储机制https://blog.csdn.net/wypersist/article/details/79797569HDFS FSimage和edit合并过程https://blog.csdn.net/WYpersist/article/details/80...

2018-05-11 13:22:37 1525

原创 HDFS 四个配置文件(core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml )的简单介绍

一 core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value>...

2018-05-11 13:19:57 2093

转载关于spark RDD trans action算子、lineage、宽窄依赖详解

这篇文章想从spark当初设计时为何提出RDD概念，相对于hadoop，RDD真的能给spark带来何等优势。之前本想开篇是想总体介绍spark，以及环境搭建过程，但个人感觉RDD更为重要铺垫在hadoop中一个独立的计算，例如在一个迭代过程中，除可复制的文件系统（HDFS）外没有提供其他存储的概念，这就导致在网络上进行数据复制而增加了大量的消耗，而对于两个的MapReduce作业之间数据共享只有...

2018-05-11 13:19:18 2005

转载 Hadoop面试题

1）列出Hadoop集群的Hadoop守护进程和相关的角色。Namenode：它运行上Master节点上，负责存储的文件和目录所有元数据。它管理文件的块信息，以及块在集群中分布的信息。Datanode：它是一个存储实际数据的Slave节点。它定时向Namenode发送本节点上块的信息。Secondary Namenode：它会定期通过Editlog合并NameNode的变化，从而它r的日志不会过大...

2018-05-11 13:19:05 555

转载 hadoop 三个配置文件的参数含义说明(core-site.xml、hdfs-site.xml、mapred-site.xml)

配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到core-default.xml,hdfs-...

2018-05-10 15:16:26 5919 1

转载 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实...

2018-05-10 13:46:14 154

转载这棵树上，哪个是你？

生活中，一个好的心态，可以使你乐观豁达；一个好的心态，可以使你战胜面临的苦难；一个好的心态，可以使你淡泊名利，过上真正快乐的生活。人类几千年的文明史告诉我们，积极的心态能帮助我们获取健康、幸福和财富。一、心态决定人生:　　　　　　一位哲人说过：“你的心态就是你的主人。”在现实生活中，我们不能控制自己的遭遇，却可以控制自己的心态；我们不能改变别人，却可以改变自己。其实，人与人之间并无太大的区别，真...

2018-05-10 13:25:39 228

转载用python实现Hive中的UDF函数

简介Hive为我们提供了众多的内置函数，但是在实际的运用过程中仍然不能满足我们所有的需求.hive是用java开发的，本身提供了使用java去开发UDF的方式.而这里我们采用python的方式去实现UDF函数.DEMO实现我们这里用python自定义函数，去实现一个方法，利用身份证号去判断性别(18位身份证的倒数第二位偶数为女，奇数为男.15位身份证的倒数第一位偶数为女,奇数为男.)....

2018-05-10 11:59:47 19264 10

转载 python实现Spark(Hive) SQL中UDF的使用

相对于使用MapReduce或者Spark Application的方式进行数据分析，使用Hive SQL或Spark SQL能为我们省去不少的代码工作量，而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具，当这些内置的UDF不能满足于我们的需要时，Hive SQL或Spark SQL还为我们提供了自定义UDF的相关接口，方便我们根据自己的需求进行扩展...

2018-05-10 11:55:58 2464

转载 MapReduce之：大白话讲解Map/Reduce原理

Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等.这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop：1.什么是Map/Reduce，...

2018-05-10 11:31:41 2963 2

转载 MapReduce工作原理图文详解

目录：1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文： 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图：流程分析：1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入...

2018-05-10 11:30:10 199

转载 MapReduce原理与设计思想

简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃？MapReduce方法则是：给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃，然后把这个数目汇报给你你把所有玩家告诉你的数字加起来，得到最后的结论拆分MapReduce合并了两种经典函数：映射（Mapping）对集合里的每个目标应用同一个操作。即，如果你想把表...

2018-05-10 11:28:12 196

转载 Spark和hadoop对比之spark解析

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里...

2018-05-10 11:23:48 783

转载 MapReduce之：详解shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里...

2018-05-10 11:20:10 260 1

转载 python之math模块的使用方法详解

函数说明实例 math.e 自然常数e >>> math.e2.718281828459045 math.pi 圆周率pi >>> math.pi3.141592653589793 math.degrees(x) 弧度转度 >>> math.degrees(math.pi)180.0 math.radians(x) 度转弧度 >&g...

2018-05-08 18:24:00 6892

转载 CentOS关机与重启命令详解

Linux centos关机与重启命令详解与实战　Linux centos重启命令：　　1、reboot　　2、shutdown -r now 立刻重启(root用户使用)　　3、shutdown -r 10 过10分钟自动重启(root用户使用)　　4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用)　　如果是通过shutdown命令设置重启的话，可以用shut...

2018-05-06 23:29:21 441

吴恩达机器学习个人笔记

空空如也