自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

成功唯有积累,没有奇迹。

工棕号:diting_dapeng

  • 博客(201)
  • 资源 (15)
  • 收藏
  • 关注

原创 Spark

文章目录一. 入门初始spark 核心RDD算子一. 入门初始spark基于内存计算(速度快),且会把任务切分成很多块来运行。借助YARN来调度资源。2.3版本的,py的spark有很多没有实现。YARN中给spark提供调度资源的功能,YARN中资源管理的主节点是RS,从节点是NodeManager。(2版本);资源由YARN管理,任务由application master来管理。spark读取数据源可以来自hdfs,也可以来自本地。hdfs是基于磁盘进行存储,block块是128M。hd

2021-02-05 15:18:42 168

原创 《大数据技术原理与应用》林子雨(第二版)--总结

文章目录第一篇 大数据基础大数据处理架构Hadoop厦大子雨老师的这本书内容不多,但是很全面,推荐适合大数据入门。本篇文章主要是根据书中内容,对书中的课后答案做下总结。第一篇 大数据基础大数据处理架构Hadoop试述 hadoop 和谷歌的 mapreduce、gfs 等技术之间的关系答:Hadoop 的核心是分布式文件系统 HDFS 和 MapReduce。HDFS 是谷歌文件系统 GFS 的开源实现,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储。MapReduce

2021-01-22 21:11:28 7338 1

原创 面试题总结

美团垃圾回收java垃圾回收,如何判断一个对象需要回收jvm 要做垃圾回收时,首先要判断一个对象是否还有可能被使用。那么如何判断一个对象是否还有可能被用到?如果我们的程序无法再引用到该对象,那么这个对象就肯定可以被回收,这个状态称为不可达。当对象不可达,该对象就可以作为回收对象被垃圾回收器回收。接着就是可达or不可达怎么判断,一般是通过GC roots相关题目:1.1 垃圾回收的优点和原理。并考虑2 种回收机制。Java 语言中一个显著的特点就是引入了垃圾回收机制,使c++程序员最头疼的内

2021-01-14 15:25:10 644

原创 Hadoop整理

HadoopQ1:现在有1T 文件,以数字、行进行存储,其中有两行文本是相同的,请找出这两行;划分文件: 根据内存对 hashcode 来取模,(根据内存限制大致划分n个文件,hashcode%n),得到的余数作为文件的名字,文件的内容是行的内容;对文件内容进行遍历,相同的两行数据都在同一个文件中;Q2:给整个数值文件做一个正序的全排序;采用两部排序的方式:思路一每次拿出一部分小数据来排序,这些排序好的小文件的特点是内部有序,但是区间无序。最后再采用归并算法来对数据进行合并;思路二

2020-12-22 14:29:46 136

原创 Pythonic骚操作知识点总结(持续更新)

1.urlencodeurlencode的参数是词典,它可以将key-value这样的键值对转换成我们想要的格式。python2中:urlencode在urllib.urlencodepython3中:urlencode在urllib.parse.urlencodeparams = { &

2018-10-31 19:46:37 1354

原创 Flink 奈学P6笔记

Flink 奈学课程P6学习笔记

2023-02-07 21:03:56 271 1

原创 doris insert数据时出现问题:Invalid floating-point literal

doris Invalid floating-point literal 插入数据错误解决

2022-11-11 20:51:42 834

原创 Hive内置函数

Hive内置函数

2022-08-24 16:09:28 821

原创 Hive数据类型总结

Hive数据类型总结

2022-08-24 14:42:32 1508

原创 Hive全操作(总结)

hive全操作总结

2022-08-22 23:39:30 171

原创 窗口函数的5种方法总结

窗口函数的5种方法总结

2022-07-20 13:22:56 575

原创 对文件夹下所有的文件一键改名

对文件夹所有文件一键换名

2022-06-18 23:40:14 270

原创 怎样通过explain执行计划,来优化SQL(以hive为例)

怎样通过explain执行计划,来优化SQL(以hive为例)

2022-06-10 19:51:38 1093

原创 一文速通Scala

一文速通scala

2022-04-26 16:21:05 1712

原创 报错doris Doris BrokerLoad No source file in this table

错误详情[INFO] 2022-04-24 23:05:04.373 - {"State":"CANCELLED","LogTime":"2022-04-24 23:05:04", "ErrorMsg":"type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = No source file in this table(ods_grow_minusscreen_ad_info).", "Process":"ETL:N/A; LOAD:N/A","u

2022-04-24 23:13:13 1045

原创 数据库系统工程师软考复习

文章目录计算机基础硬件基础体系结构安全性可靠性数据库基础三级模式两级架构数据模型ER图计算机基础硬件基础体系结构安全性可靠性数据库基础三级模式两级架构三级模式:从上到下的模式:外模式 -> 模式(逻辑模式、概念模式)-> 内模式从上到下对应的层:视图层 -> 逻辑层 -> 物理层从上到下的视图:用户视图->概念视图->内部视图逻辑独立性指的是:外模式到逻辑模式;物理独立性指的是:模式到内模式视图从基本表过来的,视图和基本表对应表现了逻辑独立性

2022-04-20 23:20:52 468

原创 如何听清楚、说明白--《结构思考力》

要把自己认为的结构,化成是大家公认的、通用的一个结构,这样才能更高效的去给别人讲或解释清楚,或者更好的去接收别人传达的信息。

2022-04-11 11:07:31 492

原创 技术工作中怎么去提高基础

技术人怎么去提高基础做技术,我们经常听到的一句话是:基础很重要,一定要打好基础啊。我们都知道基础很重要,那么对于我们来说,什么是基础?突然有感,记录下自己现在对于基础的理解。基础是什么相信有的盆友和我一样,我记得以前在学校时,有的同学经常和我说–“基础就是底层啊,就是源码,所有源码都看过才算是打好基础”。也有老师上课时说,“基础就是抓住不变,数据结构、计组、网络必须扎实学会”。这些说法对于学生来说没错,对于工作党而言,如果还按照学校的方式来去追求源码、把基础知识打扎实的方式来提高基础。会发现这种“

2022-03-15 00:34:50 359 1

原创 百度新闻资讯类信息爬虫--统计一年内关键词新闻的条数

背景临时接了个小需求,通过百度词条搜索,来查找300个关键词,在一年内发布新闻的条数。最终效果实现如下:实现思路实现思路依然是:先根据多页的url,来找到规律,构建起一页的url;对单页的url解析,拿到其时间,按时间做dict求数目。同时注意如何判断最末页的条件。因为这里的末页改变后,页面仍然能响应出内容,因此我的解决方法是每次获取单页的第一条url,如果下一页的url与这条一致,那就属于到最后一页了,退出。先生成一年的date,然后拿date去取该日对应的资讯条数。结

2022-03-11 20:18:00 1937 14

原创 了解Hbase吗?说下Hbase的架构原理

了解Hbase吗?说下Hbase的架构原理了解Hbase吗?说下Hbase的架构原理基本描述Hbase作为NoSQL数据库的代表,属于三驾马车之一BigTable的对应实现。问到数据库的问题时,常常会问到行列式存储、关系数据库的不足,从而引出Hbase的问题。再者根据”实时即未来“理念,Hbase也经常作为流式数据的缓存存储。下面总结了下自己被问到这类题目的回答,依然是–最好能边讲边画出图。总结回答1 简单解释Hbase设计的目的ok,首先Hbase设计的目的是,去存储可伸缩的海量数据,从而实

2022-02-11 22:41:04 1123

原创 说下Hive 中join的运行原理

Hive中Join的运行原理、运行过程

2022-02-09 22:31:02 1826

原创 下一次对称日期是几号?

下一次对称日期是几号?

2021-12-02 17:49:01 346

原创 用户行为电商数仓

数仓采集项目技术选型数据采集传输:Flume,消峰Kafka,Sqoop,Logstash,DataX数据存储:Mysql,Hdfs,Hbase,Redis,MongoDB数据计算:Hive,Tez,Spark,Flink,Storm系统数据流程设计埋点用户行为数据业务交互数据...

2021-09-09 21:31:41 82

原创 python web--Flask工作流程

WSGIWSGI其实是作为一个接口,来接受Server传递过来的信息,然后通过这个接口调用后台app里的view function来进行响应。在调用app的时候,其实是在调用app内部的wsgi_app这个功能,而wsgi_app是包含在webapp框架内的,所以可以把wsgi区域和最右端的看作是一个整体,只不过在功能上,wsgi区域的功能和view function是分开的。WSGI具体的功能WSGI可以起到一个接口的功能,前面对接服务器,后面对接app的具体功能;作为app本身,就算启动了程序

2021-04-23 23:02:30 2206

原创 Python 将可变数量的参数格式化为字符串(不带引号)

https://www.coder.work/article/97352

2021-04-16 19:37:06 531

原创 大数据面试总结-2021年4月

文章目录一. 小文件的问题1.1 HDFS架构2. HDFS读写流程一. 小文件的问题HDFS架构;HDFS读写流程;HDFS HA;小文件是什么小文件给Hadoop集群带来的瓶颈问题;从HDFS架构中看到Hadoop各个组件的作用是什么?把问题向尼所知道的方面去引导;1.1 HDFS架构Hadoop:HDFS/YARN/MapReduceHDFS:NameNode,DataNode, SecondaryNameNode;概念:Client、NN:– 一个,容易出现单点故障问题

2021-04-10 15:43:40 227

原创 Linux使用总结

添加个人配置路径# 1. 打开bash_profile vim ~/.bash_profile# 2. 在其中添加自定义路径alias mfs="cd /mfs/user/xuuss"# 3. source更新source ~/.bash_profile

2021-03-24 16:34:19 110

原创 面试自我介绍总结

如何进入自我介绍?一小时之内如果问问题超过了10个问题,那你就肯定不会过了。面试时最主要时你来表述;说一下对面试这家公司的了解,企业背调。面试官,上面就是窝的个人简介,您看您还有什么想了解的?面试官打断你,说明对你有兴趣,没兴趣的时候才什么都不会问。如何陈述自己的项目?不要把所有的项目都说一遍,这样显得没有重点。拿一个最近最熟练的项目来进行表述。记住逻辑性和条理性–总分总。先表述当前项目的核心价值,包含的功能。说明当前项目中你参与的核心技术模块。职务描述,技能栈(项目架构)。自带a4纸;电

2021-02-18 21:26:40 1176

原创 部分笔试题总结

最长子字符串给定一个字符串 s 和正整数 n,请使用你熟悉的编程语言输出 s 中包含不超过 n 种字符的最长子串,如 s=“uabbcadbaef”,n=4 时应该输出 “abbcadba”。package Test;import java.util.ArrayList;public class LongSr { // 判断一个字符串里面有几个不同字目 public int countDiff(String s){ ArrayList<Character&g

2021-02-05 18:04:56 135

原创 Java面向对象编程总结

类与对象面向对象的设计中更多情况下考虑的是标准的模块化设计,在使用时根据标准进行拼装。面向过程是面对于一个问题的解决方案,更多情况下不会做出可重用的模块化设计。面向对象是三个主要特征:封装内部的操作对外部而言不可见。当内部的操作都不可直接使用时,才是安全的;继承在已经有的结构的基础上继续进行功能的扩充;多态范围内可以变化的处理形式;进行面向对象的程序开发中一般有三个步骤:OOA:面向对象分析OOD:面向对象设计OOP:面向对象编程设计原则:生活中说得通的场景在程序中也可以

2021-02-04 16:53:19 172

原创 《大数据处理之道》读书总结

11111

2021-01-25 20:39:02 209

原创 电商网站日志分析系统总结

电商项目有些烂大街,但是作为学习,目的是通过此项目来学习各个模块的使用。文章目录一. 项目需求及数据流图需求数据流图二. JS和Java端数据来源三. Flume(本地log通过flume发送到hdfs)四. ETL五. MapReduce分析模块六. Hive与Hbase整合七. sqoop的数据导入及导出八. SQL分析模块九. 项目总结一. 项目需求及数据流图需求通过对网站的apache common日志进行分析,计算该网站的一些关键指标,供运营者进行决策时参考。开发该系统的目的是为了获取一

2021-01-25 04:26:46 1306

原创 MapReduce案例总结

案例一:找出每个月中气温最高的2天1949-10-01 14:21:02 34c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 37c1951-12-01 11:21:02 23c1950-10-02 12:21:02 41c1950-10-03 11:21:02 27c1951-07-01 12:21:02 45c1951-07-02 11:21:02 46c1951-07-03 12:21:03 47

2021-01-24 17:06:45 1103

原创 hive架构、搭建、sql语法、函数

hive架构、搭建、sql语法、函数hive介绍及架构设计回顾mapreduce的6个小案例:好友推荐,天气二次排序,pagerank,wordcount。相同的key一组,reduce端把相同的key做处理。MR的思想:分而治之。Hive产生:非java编程者对hdfs数据做mapreduce的操作。数据库和数据仓库的区别,数据仓库中需要保存的是什么东西?数据仓库里东西不允许修改,不允许删除。hdfs放的是纯文本文件;driver是一个jvm进程,limit是限制输出,分页是限制输出

2021-01-21 10:02:03 105 1

原创 Hadoop(一)--hadoop历史、hadoop存储模型、架构模型、读写流程、伪分布式安装

Hadoop (一)01hadoop历史、hadoop存储模型、架构模型、读写流程、伪分布式安装01场景一:现在有1T 文件,数字,行存储。其中有两行文本是相同的。找出这两行。第一步:用hashcode的方式来进行遍历,把每行来存成文件,那么这个文件可以以hashcode来命名。最后会形成一堆的文件,文件的内容是行的内容。当遍历到相同的行时,只需要放在相同hashcode的文件中即可;第二步:遍历每一个文件,只要遍历两个hashcode相同的,那么就找到了两行相同的文本。用多个服务器来进行优化,

2021-01-05 19:09:18 351

原创 MySQL面试总结

1. 谈一下你对mysql索引的理解;mysql索引用来加快对数据的访问,对于不同类型的索引,是和不同的存储引擎相关的。如果是MyISAM和InnoDB的存储引擎,是B+树,如果是Memory存储引擎的话,是哈希表。不同的存储引擎表示的是不同数据在磁盘的存储形式,k-v 格式的数据,不管任何类型的二叉树,都会让树变高,从而影响了 IO 的效率。B+树就是让树变低,从而提高访问速率。...

2020-12-29 22:17:45 110

原创 Hadoop(三)–MapReduce

文章目录Hadoop(三)–MapReducemrHadoop(三)–MapReducemrmr的框架:宏观作业角度,有maptask和reduceTask,这两者有宏观的依赖关系。先有map,才有reduce。没有做中间级映射,产生规范的数据集,怎么来进行reduce。map:就是maptask的计算框架。那么map的数量该怎么确定呢?开始需要把文件切分为不同的块,散列在不同的节点之上。接下来要做的就是把map的计算框架移动到map所在的服务器之上。块的数量要小于map的数量。map和spl

2020-12-28 10:31:29 150

原创 MySQL索引总结

索引用来加快对数据的访问。通过B+树对于不同类型的索引,是和不同的存储引擎相关的。如果使用的是xx, 是B+树;如果是。。。是哈希表。不同的存储引擎表示的是不同数据在磁盘的存储形式。k-v格式的数据。不管任何类型的二叉树,都会让树变高,从而影响了IO的效率。从而让树变低,从而提高访问速率。主键索引和组合索引。存储引擎,数据结构,索引的分类,索引涉及到的常问的几个名词,执行计划,索引优化。(把该提的点都提到;把细节点都描述清除)存储引擎数据在磁盘上的不同组织形式。innodb,myi.

2020-12-26 22:10:02 163

原创 Hadoop(二)--全分布式安装、hadoop 高可用

文章目录Hadoop(二)--全分布式安装、hadoop 高可用一. 全分布式安装Hadoop(二)–全分布式安装、hadoop 高可用一. 全分布式安装之前的搭建是所有的角色进程在同一个节点hadoop0上, 真实的应该namenode单独部署一台服务器。所有环境都要有jdk;同步所有服务器的时间;查看别名:cat /etc/hosts,互相有映射ip地址才可以ping通;cat /etc/sysconfig/selinux 检查是否是关闭状态;全分布式的免密登录一定要有:谁是主节点,谁

2020-12-07 22:39:16 292

原创 数据结构与算法模板总结(一) 排序+二分查找+双指针

数据结构与算法模板总结(一) 排序+二分查找+双指针

2020-11-22 01:06:32 139

nlp-requirements安装包

NLP开发工具集成包,其中包括numpy,nltk,gensim,tensorflow,jieba,Stanford NLP,Hanlp, 通过pip install -r nlp-requirements.txt 一键进行下载

2019-06-08

hanlp词性列表.docx

Hanlp词性列表,包括词性及注解,以及常用及不常用词的选择

2019-06-07

神经网络设计 . 美国 Hagan.清晰版

神经网络设计 . 美国 Hagan.清晰版,深度学习入门必备!

2019-01-03

MATLAB神经网络原理与实例精解pdf

MATLAB神经网络原理与实例精解,含有深度学习中的所有模型及文档及程序说明,深度学习入门必备!

2019-01-03

《机器学习实战:基于Scikit-Learn和TensorFlow 》高清中文

《机器学习实战:基于Scikit-Learn和TensorFlow 》高清中文,必备书籍!!!!

2018-12-25

selenium webdriver第三版

对于Selenium更加详细的操作和使用,推荐一本书《selenium webdriver(python)第三版》,该书详细的讲解了webdriver的用法

2018-09-03

时序分析经典教程

时序分析经典教程,由老师推荐,里面论述详细合理,具有逻辑性,是本好读物!

2018-08-24

phantomjs.exe

用于python的自动化登陆phantomjs的使用,以及对自动化测试会有很大帮助,资源确信可用,放心1!!

2018-04-05

python自动化登陆chromdriver

用于python的自动化登陆senlenium的使用,以及对自动化测试会有很大帮助,资源确信可用,放心1!!

2018-04-05

中文识别语言库tesseract.ocr

中文识别语言库tesseract.ocr,可以进行图片中文识别,而且亲测没有乱码!!!!

2018-03-10

女士品茶-统计方法

概率论与数理统计,机器学习的基础,统计学的方法快速入门!

2018-03-06

tesseract-ocr-setup-3.02.02-图片识别

tesseract-ocr-setup-3.02.02-图片识别,可以使用,尽情放心!~!

2018-01-22

使用python以及工具包进行简单的验证码识别

一份非常好的例子demo,带尼学会验证码识别,轻松的步入大门!

2018-01-22

链栈程序总结(比课本上的简单)

链栈的程序,相当简单方便!你值得拥有!比课本上的还要简单噢!

2015-11-17

蓝桥杯真题软件类

蓝桥杯软件真题,软件类,马上快要比赛了,这是比不可多得的宝藏噢!

2015-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除