自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

patrick_big_data的博客

保持一颗持续学习的心,学无止境

  • 博客(51)
  • 资源 (8)
  • 收藏
  • 关注

原创 爬虫系列03 ---- lxml模块通过XPath解析网页内容

学习Xpath语法,即如何使用python的lxml模块解析网页

2023-04-06 18:06:00 1713 1

原创 爬虫系列02 ---- bs模块处理及实战

BeautifulSoup使用

2023-02-27 01:25:29 190

原创 Hudi学习03 -- Spark操作hudi(Spark-shell 和 PySpark)

spark操作hudispark-shellpyspark

2023-01-03 17:04:56 2166 4

原创 Hudi学习02 -- Hudi核心概念

hudi核心概念

2022-12-31 11:58:49 1399

原创 Hudi学习01 -- Hudi简介及编译安装

hudi编译和hudi介绍

2022-12-30 20:36:33 1495 1

原创 Flink流处理API

Flink流处理APIEnvironment// 创建流式API执行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();创建一个执行环境,表示当前执行程序的上下文,类似于SparkContext。如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境。Source从集合和元素读取数据package c

2021-04-16 02:58:33 528

原创 Flink运行架构

Flink运行时组件参考网址

2021-04-06 21:23:48 172

原创 Flink简介、快速上手及部署

Flink简介Flink是什么

2021-03-17 01:43:58 327 1

原创 ElasticSearch 介绍、安装及简单使用

介绍Elasticsearch 是大数据时代下的分布式搜索引擎,底层基于 Lucene 实现。Elasticsearch 屏蔽了 Lucene 的底层细节,提供了分布式特性,同时对外提供了 Restful API,数据交互格式为JSON。Elasticsearch 以其易用性迅速赢得了许多用户,被用在网站搜索、日志分析等诸多方面。由于 ES 强大的横向扩展能力,甚至很多人也会直接把 ES 当做 NoSQL 来用。基本概念全文搜索(Full-text Search)全文检索是指计算机索引程序通过扫描文

2021-01-04 21:14:03 561

原创 Java命令详解(根据官网)

语法介绍java命令是用于启动Java应用的。其语法有如下两种。java [options] classname [args]java [options] -jar filename [args]选项描述options用空格分隔的命令行optionsclassname用于启动的类的全限定名filename将被调用的JAR文件,只能和-jar联合使用args传递给main()方法的参数, 用空格分隔java命令通过启动一个Java Runtime

2020-08-07 01:38:15 807 1

原创 Python简单Web开发

WSGI介绍HTTP协议和HTML的介绍不在这里说明,可以去看廖雪峰老师的教程了解这方面内容。一个web应用的本质是:浏览器发送一个HTTP请求服务器收到请求,生成一个HTML文档服务器把HTML文档作为HTTP响应的Body发送给浏览器浏览器收到HTTP响应,从HTTP响应Body中取出HTML并显示最简单的web应用就是先把HTML保存好,然后需要时直接响应给HTTP请求。对Python而言,正确的做法是底层代码由专门的服务器软件实现,我们只需用Python专注于生成HTML文档即可

2020-07-06 00:07:36 430

原创 Python访问数据库

文章目录数据库简单介绍python操作sqlitepython操作mysqlPython的ORM技术SQLAlchemy参考网址数据库简单介绍下面表格就是常见数据库的类比(不包含NoSql)名字类别介绍Oracle付费典型的高富帅SQL Server付费微软自家产品,Windows定制专款DB2付费IBM的产品,听起来挺高端Sybase付费曾经跟微软是好基友,后来关系破裂,现在家境惨淡MySQL开源大家都在用,一般错不了Postg

2020-06-26 02:33:41 399

原创 Python电子邮件

电子邮件介绍电子邮件的运作流程基本可以参考传统信封邮寄的过程。假设我的电子邮件地址是[email protected],对方的电子邮件地址是[email protected]。然后我们通过Foxmail等软件写好信息后点击发送,电子邮件就发送出去了。注意:这些电子邮件被称为MUA即Mail User Agent -- 邮件用户代理。邮件发送出去后并不是直接到达对方电脑,而是发到MTA即Mail Transfer Agent -- 邮件传输代理,也就是那些邮件服务提供商,如腾讯、网易等。由于我的电子邮件是@qq.com,属于腾讯

2020-06-25 16:30:27 1712 2

原创 Python网络编程基础

网络编程介绍网络通信其实就是两台计算机上的两个进程之间的通信。例如通过浏览器访问百度,就是浏览器进程和百度服务器的某个进程之间进行网络通信。网络通信需要遵守一定的规则也就是网络协议,互联网协议包含了上百种协议标准,但是最重要的两个协议是TCP和IP协议,所以,大家把互联网的协议简称TCP/IP协议。通信双方必须知道对方的标识,也就是互联网上每个计算机的唯一标识即IP地址。但是一台计算机可以同时接入多个网络,即多网卡,所以IP地址对应的实际上是计算机的网络接口。IP协议负责把数据按块分割并以块为单位

2020-06-20 16:00:53 1818 1

原创 psutil模块学习--进程和系统监控工具

文章目录介绍简单使用进阶和参考网址介绍我们可以通过top、free、iostat、ps等命令获取服务器的内存、CPU、网络、进程等信息。Python可以通过使用subprocess模块去执行命令获取这些信息,不过需要写额外的解析代码。psutil库提供这些系统信息,psutil = process and system utilities,可以跨平台使用获取CPU、内存、磁盘、网络、传感器等信息。可以通过pip install psutil来安装该模块。简单使用下面代码可以在windows上运行

2020-06-11 23:58:42 334

原创 requests模块学习(比urllib更简单易用的HTTP库)

requests介绍我们已经学过Python内置的urllib模块,也能访问网页,但是用起来比较麻烦。然而requests模块提供了更简单易用的功能。可通过pip install requests来安装。简单使用requests的例子resp = requests.get(url, params={})其中可以通过params来传递参数,注意params是dict类型。属性描述resp.status_code返回HTTP Statusresp.headers返回re

2020-06-04 01:28:28 271

原创 Pillow模块学习

文章目录Pillow介绍pillow的简单使用生成验证码pillow进阶参考网址Pillow介绍PIL:Python Imaging Library,已经是Python平台事实上的图像处理标准库了。PIL功能非常强大,但API却非常简单易用。由于PIL仅支持到Python 2.7,加上年久失修,于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新Python 3.x,又加入了许多新特性,因此,我们可以直接安装使用Pillow。安装的方式很简单,执行pip install pi

2020-06-01 23:44:45 732

原创 python虚拟环境virtualenv安装使用

virtualenv介绍在开发Python应用程序的时候,所有的第三方包都会被放到${PYTHON_HOME}/Lib/site-packages目录下。如下图所示。但是如果某个程序需要A模块的V1版本,另一个程序却需要A模块的V2版本,如果两个程序共用同一个python环境的话就会有冲突。virtualenv就是用来解决上面提到的问题的,它给每个Python开发程序提供一套独立的Python环境,各个Python开发程序相互独立,互不干扰。windows安装首先通过pip install vi

2020-06-01 21:36:38 674

原创 Python常用内建模块(内含实例)

datetimedatetime是Python处理日期和时间的标准库。collectionsbase64structhashlibhmacitertoolscontextliburllibXMLHTMLParser

2020-05-31 20:05:30 2238

原创 Python正则表达式

介绍正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。正则表达式是繁琐的,但它是强大的,学会之后真的受益无穷。表达式描述举例\d匹配一个数字‘00\d‘能匹配’007’,但是不能匹配’00A’\w匹配一个字母或数字‘00\w‘能匹配’007’和’00A’,但是不能匹配’00A$’\s匹配任何空白字符,包括空格、制表符、换页符等等'

2020-05-21 23:08:11 416

原创 python的进程与线程

进程与线程的简介首先说下并发和并行的区别。并发(concurrency)。操作系统轮流让单个CPU执行各个任务,即某一时刻该CPU只能执行一个任务,只是由于CPU在任务之间来回切换的时间很少让用户感知不到,所以感觉是同时执行多个任务。并行(parallelism)。真正的并行任务只能在多核CPU上实现,每个任务一个CPU,所以某一时刻会存在多个任务同时执行,但是由于任务的数量远远多于CPU...

2020-04-22 23:51:50 391

原创 python中的IO编程

IO简介IO在计算机中指的是输入输出即Input/Output。这是针对于内存来说的。例如将一个文件读到内存里就是输入,将内存中的数据写到外部系统如文件就是输出。IO编程中,Stream(流)是一个非常重要的概念,可以想象成水管,数据就是水管里的水,但是水只能单向流动。Input Stream就是数据从外面如磁盘、网络等流进内存,Output Stream就是数据从内存流出到外面。这里顺便提...

2020-04-18 02:56:01 430

原创 python中的 错误处理、调试和测试

文章目录错误处理调试print断言assertloggingpdbIDE单元测试setUp与tearDown单元测试小结文档测试参考网址错误处理和Java类似,Python提供了一套错误处理机制,语法是 try...except...finally...。可以将你认为会发生错误的代码用try包裹起来并用except捕获指定的错误或异常,最后使用finally执行语句块如发生错误后也要进行资源...

2020-04-12 02:41:49 546

原创 python继承(super()、多继承、钻石继承)

python继承简介Java只支持单继承多接口模式。Python支持多继承模式。在多继承模式中有个难题就是钻石继承也叫做菱形继承。下图就是钻石继承的例子。一般来说,Leaf类初始化时会初始化Medium1类和Medium2类,然后Medium1类初始化时会初始化Base类,Medium2类初始化时也会初始化Base类,所以这就导致Leaf类初始化时对Base类进行了两次初始化操作。pyth...

2020-04-11 18:51:07 488

原创 python面向对象编程

面向对象基础面向对象编程----Object Oriented Programming,简称OOP,是一种程序设计思想。OOP把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。这个和Java的面向对象是一样的。以下面打印学生成绩为例。面向过程的思想如下# 面向过程的思想def print_score(std): print('%s: %s' % (std['na...

2020-04-11 04:02:50 342

原创 python基础(数据类型、函数、模块与包、高级特性)

文章目录python简介查看python版本python注释python解释器使用IPythonpython基础python变量类型python字符串与编码python空值Nonepython变量命名规则变量使用和类型转换输入和输出函数python运算符分支结构循环结构python字符串列表生成式和生成器元组集合字典不可变对象与可变对象参考网址python简介python是什么?python能...

2020-04-09 02:49:14 866

原创 pycharm配置flake8语法插件和autopep8代码规范插件

安装flake8和autopep8flake8是python语法静态检查器。autopep8是python代码规范。pip install flake8pip install autopep8pycharm配置flake8打开Settings --> Tools --> External Tools,然后点击添加设置如下所示。需要说明的是\$PyInterpreter...

2020-04-06 17:34:23 3171

原创 Git 学习笔记

该文章仅仅作为一个基于廖雪峰老师的Git教程所记录的学习笔记。后面有关git相关命令的问题也会在此更新和记录。

2020-04-05 17:30:41 128

原创 虚拟机安装、hadoop集群安装

文章目录安装虚拟机CentOS7配置网络设置hostname关闭防火墙永久禁用selinux配置本地yum源配置免密登录配置JDK简单的集群操作脚本安装hadoop集群测试hdfs和yarn安装虚拟机CentOS7首先下载镜像文件如CentOS-7-x86_64-DVD-1908.iso,然后通过VMWare workstation安装CentOS7,采用自定义的方式安装,过程比较简单此处就不...

2020-03-19 18:27:34 254

原创 Spark --如何合理地设置executor-memory、executor-cores、num-executors

文章目录参数介绍以下4点建议需要牢记配置参数方法一:Tiny executors(One Executor per core)方法二:Fat executors (One Executor per node)方法三:Balance between Fat (vs) Tiny方法四:在方法三基础上每个executor不需要这么多内存参考网址参数介绍executor-memory 表示分配给每个e...

2020-03-15 21:05:56 10826 1

原创 HIVE学习五:自定义函数UDF、transform脚本和lateral view

文章目录自定义函数UDFtransform脚本lateral viewMultiple Lateral Views一个包容万象的小例子参考网址自定义函数UDF虽然hive已经提供了足够多的内置函数供我们使用,但是有时候需要自己去写函数来处理业务数据。以官方给的UDF例子来说明,代码如下创建一个将字符串转换成小写的函数,Lower类需要继承UDF类,并在Lower类定义访问类型为public...

2020-03-12 23:47:05 560

原创 HIVE学习四:Window And Analytical Function

文章目录标准sql里的窗口函数和分析函数标准sql里的窗口函数和分析函数

2020-03-12 16:25:31 294

原创 数据库mysql、mariadb、postgresql:安装

文章目录安装mariadb安装mariadb服务器环境:CentOS7[root@slave2 yum.repos.d]# uname -aLinux slave2 3.10.0-1062.el7.x86_64 #1 SMP Wed Aug 7 18:08:02 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux[root@slave2 yum.repos.d...

2020-03-11 15:05:55 585

原创 HIVE LanguageManual Select

文章目录select语法where语句ALL and DISTINCT 语句Partition Based QueriesPartition Filter SyntaxGroup ByMap-side Aggregation for Group ByOrder BySort By 和 Distribute ByDifference between Sort By and Order BySetti...

2020-03-07 16:24:43 1166

原创 HIVE Tutorial

文章目录介绍Hive ArchitechtureHive ClientHive ServiceProcessing Framework and Resource ManagementDistributed StorageHive的运行流程参考网址介绍Hive是开源的数据仓库工具,用于执行分布式处理和数据分析的。由Facebook开发来解决替代JAVA MR程序的。Hive使用HQL(Hive...

2020-03-06 12:04:07 205

原创 HIVE学习三:partition和bucket及Join

文章目录Partition为什么需要Partition如何创建PartitionPartition的两种类型 static VS dynamic生成测试数据动态分区验证Bucket为什么要引入Bucket特点及优点创建BucketTable Sampling VS limitPartition和Bucket数据模型图示Join介绍官方的join exmaplesMap Join原理介绍参数hive...

2020-03-05 23:22:15 1542

原创 SequenceFile文件原理及使用

文章目录介绍Sync points(同步点)SequenceFile的压缩形式SequenceFile的文件格式SequenceFile文件的`header`格式无压缩的SequenceFile文件格式Record压缩的SequenceFile文件格式Block压缩的SequenceFile文件格式SequenceFile的相关类Java API读写SequenceFile将HDFS某个目录下所有...

2020-03-03 16:44:33 2737 1

原创 HIVE学习二:hive on tez

文章目录环境介绍下载、安装、配置TEZ测试hive on tez参考网址环境介绍组件版本hadoop2.6.5hive2.3.6tez0.8.5tez对hadoop版本是有要求的。tez 0.8及以上需要hadoop 2.6及以上。tez 0.9及以上需要hadoop 2.7及以上。下载、安装、配置TEZ从清华镜像站下载对应版本的tez如apa...

2020-03-02 09:13:41 904

原创 HIVE学习一:安装及介绍

文章目录前提条件下载安装包修改配置文件验证前提条件安装好Hadoop集群和Spark,安装好数据库mysql或者postgresql。数据库的安装请参考我写的这篇博客数据库安装下载安装包从清华大学镜像网站下载最新的hive安装包 apache-hive-2.3.6-bin.tar.gz。下载后解压并建立软连接,修改 /etc/profile 文件。比较简单就不在这里赘述。export...

2020-02-26 15:19:09 191

原创 Spark学习四:Spark架构设计和RDD的stage划分

文章目录架构设计Spark运行基本流程RDD之间的依赖关系stage的划分RDD运行过程参考网址架构设计学习完Spark学习二:spark基础理论知识,我们可以对Spark的一些组件和术语应该有了基本的认识,下面介绍Spark的架构设计。本节内容主要参考厦门大学林子雨老师的Spark课程。非常感谢林子雨老师!如下图所示。Spark运行架构包括集群资源管理器(Cluster Manager)...

2020-02-25 19:05:12 467

大数据+Spark+Hadoop+winutils

hadoop环境在Windows的winutils环境。 将压缩包里的bin目录的文件放掉hadoop解压目录里的bin即可

2023-01-03

ElasticSearch的Head插件

适用于Chrome的ES之Head插件

2021-01-04

resources.tar.gz

hadoop配置文件 集群操作脚本 get-pip.py文件 免密登录配置脚本 hadoop配置文件 集群操作脚本 get-pip.py文件 免密登录配置脚本

2020-03-19

sql-connect.zip

数据库的连接工具 Navicat Premium SQLyog Navicat Premium SQLyog Navicat Premium SQLyog Navicat Premium SQLyog

2020-03-11

content.zip

SequenceFile学习的Java Demo代码 里面包括合并小文件,读取SequenceFile文件,写SequenceFile文件

2020-03-03

secondarysort.zip

在官方自定义SecondarySort例子的基础上添加了自定义Counter的功能,并为其添加.properties文件实现ResourceBundle

2020-02-15

SecondarySort.java

在官方例子SecondarySort的基础上修改来。 新增不同于官方例子的comparator的实现方式。 新增倒序输出。 新增输出second最大的一条数据。

2020-02-14

vimtutor-cn.txt

2012年10月01日 赵涛 <[email protected]> 将 vimtutor 中译版从 1.5 升级到 1.7。 2002年08月30日 梁昌泰 <[email protected]> 感谢 RMS@SMTH 的指正,将多处错误修正。 2002年04月22日 梁昌泰 <[email protected]> 感谢 [email protected] 的指正,将两处错别字修正。 2002年03月18日 梁昌泰 <[email protected]> 根据Bram Moolenaar先生在2002年03月16日的来信要求,将vimtutor1.4中译 版升级到vimtutor1.5。 2001年11月15日 梁昌泰 <[email protected]> 将vimtutor1.4中译版提交给Bram Moolenaar和Sven Guckes

2020-02-12

.vimrc配置文件.vimrc配置文件

个人常用的vimrc文件配置,包含了vim常用的配置,即使用vundle插件的配置,和一些常用vim插件配置如AutoPairs等

2020-02-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除