精神抖擞王大鹏-CSDN博客

原创 Spark

文章目录一. 入门初始spark 核心RDD算子一. 入门初始spark基于内存计算(速度快)，且会把任务切分成很多块来运行。借助YARN来调度资源。2.3版本的，py的spark有很多没有实现。YARN中给spark提供调度资源的功能，YARN中资源管理的主节点是RS，从节点是NodeManager。(2版本)；资源由YARN管理，任务由application master来管理。spark读取数据源可以来自hdfs，也可以来自本地。hdfs是基于磁盘进行存储，block块是128M。hd

2021-02-05 15:18:42 168

原创《大数据技术原理与应用》林子雨(第二版)--总结

文章目录第一篇大数据基础大数据处理架构Hadoop厦大子雨老师的这本书内容不多，但是很全面，推荐适合大数据入门。本篇文章主要是根据书中内容，对书中的课后答案做下总结。第一篇大数据基础大数据处理架构Hadoop试述 hadoop 和谷歌的 mapreduce、gfs 等技术之间的关系答：Hadoop 的核心是分布式文件系统 HDFS 和 MapReduce。HDFS 是谷歌文件系统 GFS 的开源实现，具有较高的读写速度、很好的容错性和可伸缩性，支持大规模数据的分布式存储。MapReduce

2021-01-22 21:11:28 7338 1

原创面试题总结

美团垃圾回收java垃圾回收，如何判断一个对象需要回收jvm 要做垃圾回收时，首先要判断一个对象是否还有可能被使用。那么如何判断一个对象是否还有可能被用到？如果我们的程序无法再引用到该对象，那么这个对象就肯定可以被回收，这个状态称为不可达。当对象不可达，该对象就可以作为回收对象被垃圾回收器回收。接着就是可达or不可达怎么判断，一般是通过GC roots相关题目：1.1 垃圾回收的优点和原理。并考虑2 种回收机制。Java 语言中一个显著的特点就是引入了垃圾回收机制，使c++程序员最头疼的内

2021-01-14 15:25:10 644

原创 Hadoop整理

HadoopQ1：现在有1T 文件，以数字、行进行存储，其中有两行文本是相同的，请找出这两行；划分文件：根据内存对 hashcode 来取模，(根据内存限制大致划分n个文件，hashcode%n)，得到的余数作为文件的名字，文件的内容是行的内容；对文件内容进行遍历，相同的两行数据都在同一个文件中；Q2：给整个数值文件做一个正序的全排序；采用两部排序的方式：思路一每次拿出一部分小数据来排序，这些排序好的小文件的特点是内部有序，但是区间无序。最后再采用归并算法来对数据进行合并；思路二

2020-12-22 14:29:46 136

原创 Pythonic骚操作知识点总结(持续更新)

1.urlencodeurlencode的参数是词典，它可以将key-value这样的键值对转换成我们想要的格式。python2中：urlencode在urllib.urlencodepython3中：urlencode在urllib.parse.urlencodeparams = { &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;

2018-10-31 19:46:37 1354

原创 Flink 奈学P6笔记

Flink 奈学课程P6学习笔记

2023-02-07 21:03:56 271 1

原创 doris insert数据时出现问题：Invalid floating-point literal

doris Invalid floating-point literal 插入数据错误解决

2022-11-11 20:51:42 834

原创 Hive内置函数

Hive内置函数

2022-08-24 16:09:28 821

原创 Hive数据类型总结

Hive数据类型总结

2022-08-24 14:42:32 1508

原创 Hive全操作（总结）

hive全操作总结

2022-08-22 23:39:30 171

原创窗口函数的5种方法总结

窗口函数的5种方法总结

2022-07-20 13:22:56 575

原创对文件夹下所有的文件一键改名

对文件夹所有文件一键换名

2022-06-18 23:40:14 270

原创怎样通过explain执行计划，来优化SQL（以hive为例）

怎样通过explain执行计划，来优化SQL（以hive为例）

2022-06-10 19:51:38 1093

原创一文速通Scala

一文速通scala

2022-04-26 16:21:05 1712

原创报错doris Doris BrokerLoad No source file in this table

错误详情[INFO] 2022-04-24 23:05:04.373 - {"State":"CANCELLED","LogTime":"2022-04-24 23:05:04", "ErrorMsg":"type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = No source file in this table(ods_grow_minusscreen_ad_info).", "Process":"ETL:N/A; LOAD:N/A","u

2022-04-24 23:13:13 1045

原创数据库系统工程师软考复习

文章目录计算机基础硬件基础体系结构安全性可靠性数据库基础三级模式两级架构数据模型ER图计算机基础硬件基础体系结构安全性可靠性数据库基础三级模式两级架构三级模式：从上到下的模式：外模式 -> 模式（逻辑模式、概念模式）-> 内模式从上到下对应的层：视图层 -> 逻辑层 -> 物理层从上到下的视图：用户视图->概念视图->内部视图逻辑独立性指的是：外模式到逻辑模式；物理独立性指的是：模式到内模式视图从基本表过来的，视图和基本表对应表现了逻辑独立性

2022-04-20 23:20:52 468

原创如何听清楚、说明白--《结构思考力》

要把自己认为的结构，化成是大家公认的、通用的一个结构，这样才能更高效的去给别人讲或解释清楚，或者更好的去接收别人传达的信息。

2022-04-11 11:07:31 492

原创技术工作中怎么去提高基础

技术人怎么去提高基础做技术，我们经常听到的一句话是：基础很重要，一定要打好基础啊。我们都知道基础很重要，那么对于我们来说，什么是基础？突然有感，记录下自己现在对于基础的理解。基础是什么相信有的盆友和我一样，我记得以前在学校时，有的同学经常和我说–“基础就是底层啊，就是源码，所有源码都看过才算是打好基础”。也有老师上课时说，“基础就是抓住不变，数据结构、计组、网络必须扎实学会”。这些说法对于学生来说没错，对于工作党而言，如果还按照学校的方式来去追求源码、把基础知识打扎实的方式来提高基础。会发现这种“

2022-03-15 00:34:50 359 1

原创百度新闻资讯类信息爬虫--统计一年内关键词新闻的条数

背景临时接了个小需求，通过百度词条搜索，来查找300个关键词，在一年内发布新闻的条数。最终效果实现如下：实现思路实现思路依然是：先根据多页的url，来找到规律，构建起一页的url；对单页的url解析，拿到其时间，按时间做dict求数目。同时注意如何判断最末页的条件。因为这里的末页改变后，页面仍然能响应出内容，因此我的解决方法是每次获取单页的第一条url，如果下一页的url与这条一致，那就属于到最后一页了，退出。先生成一年的date，然后拿date去取该日对应的资讯条数。结

2022-03-11 20:18:00 1937 14

原创了解Hbase吗？说下Hbase的架构原理

了解Hbase吗？说下Hbase的架构原理了解Hbase吗？说下Hbase的架构原理基本描述Hbase作为NoSQL数据库的代表，属于三驾马车之一BigTable的对应实现。问到数据库的问题时，常常会问到行列式存储、关系数据库的不足，从而引出Hbase的问题。再者根据”实时即未来“理念，Hbase也经常作为流式数据的缓存存储。下面总结了下自己被问到这类题目的回答，依然是–最好能边讲边画出图。总结回答1 简单解释Hbase设计的目的ok，首先Hbase设计的目的是，去存储可伸缩的海量数据，从而实

2022-02-11 22:41:04 1123

原创说下Hive 中join的运行原理

Hive中Join的运行原理、运行过程

2022-02-09 22:31:02 1826

原创下一次对称日期是几号？

下一次对称日期是几号？

2021-12-02 17:49:01 346

原创用户行为电商数仓

数仓采集项目技术选型数据采集传输：Flume，消峰Kafka，Sqoop，Logstash，DataX数据存储：Mysql，Hdfs，Hbase，Redis，MongoDB数据计算：Hive，Tez，Spark，Flink，Storm系统数据流程设计埋点用户行为数据业务交互数据...

2021-09-09 21:31:41 82

原创 python web--Flask工作流程

WSGIWSGI其实是作为一个接口，来接受Server传递过来的信息，然后通过这个接口调用后台app里的view function来进行响应。在调用app的时候，其实是在调用app内部的wsgi_app这个功能，而wsgi_app是包含在webapp框架内的，所以可以把wsgi区域和最右端的看作是一个整体，只不过在功能上，wsgi区域的功能和view function是分开的。WSGI具体的功能WSGI可以起到一个接口的功能，前面对接服务器，后面对接app的具体功能；作为app本身，就算启动了程序

2021-04-23 23:02:30 2206

原创 Python 将可变数量的参数格式化为字符串(不带引号)

https://www.coder.work/article/97352

2021-04-16 19:37:06 531

原创大数据面试总结-2021年4月

文章目录一. 小文件的问题1.1 HDFS架构2. HDFS读写流程一. 小文件的问题HDFS架构；HDFS读写流程；HDFS HA；小文件是什么小文件给Hadoop集群带来的瓶颈问题；从HDFS架构中看到Hadoop各个组件的作用是什么？把问题向尼所知道的方面去引导；1.1 HDFS架构Hadoop：HDFS/YARN/MapReduceHDFS：NameNode，DataNode, SecondaryNameNode；概念：Client、NN：– 一个，容易出现单点故障问题

2021-04-10 15:43:40 227

原创 Linux使用总结

添加个人配置路径# 1. 打开bash_profile vim ~/.bash_profile# 2. 在其中添加自定义路径alias mfs="cd /mfs/user/xuuss"# 3. source更新source ~/.bash_profile

2021-03-24 16:34:19 110

原创面试自我介绍总结

如何进入自我介绍？一小时之内如果问问题超过了10个问题，那你就肯定不会过了。面试时最主要时你来表述;说一下对面试这家公司的了解，企业背调。面试官，上面就是窝的个人简介，您看您还有什么想了解的？面试官打断你，说明对你有兴趣，没兴趣的时候才什么都不会问。如何陈述自己的项目？不要把所有的项目都说一遍，这样显得没有重点。拿一个最近最熟练的项目来进行表述。记住逻辑性和条理性–总分总。先表述当前项目的核心价值，包含的功能。说明当前项目中你参与的核心技术模块。职务描述，技能栈(项目架构)。自带a4纸；电

2021-02-18 21:26:40 1176

原创部分笔试题总结

最长子字符串给定一个字符串 s 和正整数 n，请使用你熟悉的编程语言输出 s 中包含不超过 n 种字符的最长子串，如 s=“uabbcadbaef”，n=4 时应该输出 “abbcadba”。package Test;import java.util.ArrayList;public class LongSr { // 判断一个字符串里面有几个不同字目 public int countDiff(String s){ ArrayList<Character&g

2021-02-05 18:04:56 135

原创 Java面向对象编程总结

类与对象面向对象的设计中更多情况下考虑的是标准的模块化设计，在使用时根据标准进行拼装。面向过程是面对于一个问题的解决方案，更多情况下不会做出可重用的模块化设计。面向对象是三个主要特征：封装内部的操作对外部而言不可见。当内部的操作都不可直接使用时，才是安全的；继承在已经有的结构的基础上继续进行功能的扩充；多态范围内可以变化的处理形式；进行面向对象的程序开发中一般有三个步骤：OOA：面向对象分析OOD：面向对象设计OOP：面向对象编程设计原则：生活中说得通的场景在程序中也可以

2021-02-04 16:53:19 172

原创《大数据处理之道》读书总结

11111

2021-01-25 20:39:02 209

原创电商网站日志分析系统总结

电商项目有些烂大街，但是作为学习，目的是通过此项目来学习各个模块的使用。文章目录一. 项目需求及数据流图需求数据流图二. JS和Java端数据来源三. Flume(本地log通过flume发送到hdfs)四. ETL五. MapReduce分析模块六. Hive与Hbase整合七. sqoop的数据导入及导出八. SQL分析模块九. 项目总结一. 项目需求及数据流图需求通过对网站的apache common日志进行分析，计算该网站的一些关键指标，供运营者进行决策时参考。开发该系统的目的是为了获取一

2021-01-25 04:26:46 1306

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

nlp-requirements安装包

hanlp词性列表.docx

神经网络设计 . 美国 Hagan.清晰版

MATLAB神经网络原理与实例精解pdf

《机器学习实战：基于Scikit-Learn和TensorFlow 》高清中文

selenium webdriver第三版

时序分析经典教程

phantomjs.exe

python自动化登陆chromdriver

中文识别语言库tesseract.ocr

女士品茶-统计方法

tesseract-ocr-setup-3.02.02-图片识别

使用python以及工具包进行简单的验证码识别

链栈程序总结（比课本上的简单）

蓝桥杯真题软件类

空空如也