自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 问答 (3)
  • 收藏
  • 关注

原创 分布式之基石: 可靠性——What a tangled web we weave

系统地介绍软件系统中的可靠性,这对于大多数的软件系统至关重要。

2022-07-09 20:49:25 1203 1

原创 源码解析Spark各个ShuffleWriter的实现机制(四)——UnsafeShuffleWriter

源码解析Spark shuffle过程中的SortShuffleWriter,对其默认采用的基数排序有详细说明

2022-02-21 23:59:17 855

原创 源码解析Spark各个ShuffleWriter的实现机制(一)——Shuffle Writer的选择

源码解析Spark shuffle过程中的Shuffle Writer的选择

2022-02-13 01:08:12 1516

原创 源码解析Spark各个ShuffleWriter的实现机制(三)——SortShuffleWriter

源码解析Spark shuffle过程中的SortShuffleWriter

2022-02-09 23:19:57 1064

原创 源码解析Spark各个ShuffleWriter的实现机制(二)——BypassMergeSortShuffleWriter

源码解析Spark shuffle过程中的BypassMergeSortShuffleWriter

2022-02-09 23:18:18 2310

原创 Spark with Kerberos认证异常问题整理

Spark with Kerberos认证出现的各种异常,实际开发发现异常提示和问题本质相关性不高,因为认证过程高度封装。因此不记录异常提示,而是记录下排查思路。

2022-02-09 19:17:14 2352

原创 Spark SQL优化之路——Hive篇

Spark SQL针对Hive数据源的优化指南。

2021-10-31 11:46:27 3951

原创 Spark读取小文件调优参数

Spark读取小文件的调优参数,避免过多的Task

2021-10-31 03:03:52 894

原创 Spark SQL on Hive,为什么小文件多task也多?

从源码层面分析Spark SQL小文件和task数量之间的关系。

2021-10-15 09:56:29 698 1

原创 wine微信切换窗口透明框——解决方案

wine+微信出现透明框的解决方案

2021-10-14 15:51:39 1985 2

原创 Scala学习日记 Day3

快速学习Scala的定长数组、不定长数组、多维数组和操作数组的方式。

2021-09-22 22:26:30 185

原创 Scala学习日记 Day2

快速学习Scala的函数、过程、懒加载和异常机制。

2021-09-10 12:11:21 196

原创 Scala学习日记 Day1

Scala程序控制流,条件表达式,代码块,用户输入输出和循环体。

2021-08-30 22:52:47 334

原创 Scala学习日记 Day0

快速学习Scala

2021-08-24 23:00:01 305

原创 Spring Boot源码解析.2.解析refreshContext

Spring Boot启动过程源码解析——refreshContext解析。

2021-07-12 21:58:06 202

原创 Spring Boot源码解析.1.解析prepareContext

Spring Boot启动过程源码解析——prepareContext解析。

2021-07-12 21:57:57 164

原创 Spring Boot源码解析.0.overview

Spring Boot启动过程自顶向下的源码解析。

2021-07-12 21:57:44 168

原创 记一次Java错误解析用户终端命令

Java执行终端命令的方法

2021-01-27 22:50:56 266 1

原创 JVM学习笔记——处理异常

JVM处理异常的机制

2020-12-20 23:55:08 231

原创 JVM学习笔记——Java和JVM在重写语义上的差异

理解Java和JVM在重写语义上的差异,并了解编译器为统一差异生成的桥接方法。

2020-12-06 21:29:49 203

原创 责任链模式

责任链模式(Chain of Responsibility)

2020-07-19 15:06:03 150

原创 策略模式下的思考

对于策略模式的思考

2020-03-15 16:09:26 225

原创 windows批处理 文件指定字符串计数器

使用场景:文件内指定字符串数量较多,使用文本编辑器搜索卡顿严重时,可使用。@echo offrem Usage:countingStars pattern filename 支持通配符set count=0for /f %%i in ('findstr "%~1" %~2') do (set /a count+=1)echo %count%...

2020-03-02 20:01:41 925

原创 windows批处理 文件备份

批处理实现文件自动备份,原计划是想:开机自启,当插入自己的U盘时,自动将我的一些重要文件备份进去。但是考虑到一种情形,如果我想到U盘中来恢复我的文件,这样就与原计划相悖,因此把自动搜索盘符和开机自启的部分删去,等插入U盘,自己判断后再手动启动这个批处理。默认会复制空目录,如不复制空目录,将/E全部替换为/S。默认不显示复制目录的@echo off::设置需要备份的路径set b

2020-03-02 19:55:43 346

原创 shell技巧记录

Shellj技巧,包含:控制台输出颜色、参数判空、参数默认值、长选项方案、获取脚本的绝对路径、提取路径中的文件名、按进程名kill和rm防误删。

2020-01-22 15:26:49 2866

原创 门面模式与Builder模式下必要与默认参数设置的思考

门面模式与Builder模式下必要和默认参数设置的思考,尝试以一种用户友好的方式设置参数。

2019-12-15 00:20:21 581

原创 打造集群间HIVE数据库表半自动迁移(overwrite)工具

本文旨在打造一个集群间HIVE数据库表半自动拷贝的工具,减少拷贝过程机械的重复。

2019-11-17 15:32:24 616

原创 Hadoop伪分布部署

本文完整地部署了Hadoop伪分布模式,并整理了一些部署过程中遇到的问题。

2019-11-02 20:41:13 857

原创 Python 浅复制的特性还是缺陷?

概述我们首先来看官方对列表/字典中copy方法的描述:>>> help(dict.copy)Help on method_descriptor:copy(...)    D.copy() -> a shallow copy of D>>>>>> help(list.copy)Help on method_desc...

2019-02-09 14:54:05 401 1

原创 Python——copy/deepcopy

Shallow Copy浅复制,也就是copy,指的是创建一个对象以指向原有对象中各元素的地址。>>> from copy import copy, deepcopy>>> old_instance = ['copyme', [1, 2, 3]]>>> new_instance = copy(old_instance)>&...

2019-02-07 11:21:21 379

原创 《python print -> print() 》

写这个的起因是每次看到往上有好用的代码,拷贝下来却发现是python2.x的,我遇到的2->3大多数问题还是在print上,模块的迁移看看异常搜一搜就能改,一些代码里面一堆print,就写个脚本方便工作。和IDE里的替换一个效果,等同于把print .*?\n 替换为 print(.*?\n)。该脚本无法实现多行的print替换,遇到手动改。usage: python QuickPrint.py some.py替换至new.py

2017-08-25 23:27:24 865

原创 《批处理添加防火墙过滤危险端口规则》

复制内容至文本,保存为xx.bat。后缀名为bat,若隐藏了后缀名,请先自行百度显示隐藏后缀名再命名文件。用管理员权限打开即可。实现开启防火墙,添加过滤135,139,445端口的规则。自行替换数字,自由添加禁用规则。

2017-05-13 13:27:04 3645

原创 《Linux学习笔记——整理自马哥Linux运维》_待完成

linux学习笔记

2017-05-10 12:40:21 5791 1

原创 《爬取京东机票一周最低价格》

这是上周四给人讲课的时候现写的,没加注释,看不懂就评论,我会解答的。之后不再研究爬虫了,转个方向。

2017-04-24 12:42:26 930

原创 《Python实现DNS解析查询》

需安装dnspython第三方库,可pip install dnspython

2017-04-24 12:39:47 3421

原创 《五分钟速学技巧_利用ip代理绕过ip访问限制防爬策略》

批量获取代理IP详见上篇文章《分享项目_python爬取可用代理ip》,在大量爬取某个指定网站时,若该网站做了限制单位时间内同个ip的访问次数,则需要利用代理ip来帮助我们的爬虫项目完成请求。获取免费的代理IP很简单,百度免费代理IP即可,本文中在点击打开链接获取代理IP

2017-04-20 22:05:07 6395

原创 《分享项目_python爬取可用代理ip》

这里面已经带上了绕过限制ip访问的防爬策略的方法了,自己找找,下一篇文章再重点说明。# coding = utf-8# Author = ChristopherLam# Deadline = 2017-04-19# qq = 770304694# csdn = http://blog.csdn.net/christopher_l1nfrom urllib import reques

2017-04-19 19:00:31 1797

翻译 《python核心编程第三版网络编程章节》

原书籍 《core PYTHON APPLICATIONS programming》THIRD EDITION Wesley J.Chun 参考书籍《Python核心编程》第三版 孙波翔 李斌 李晗 译 Wesley J.Chun 著禁止转载2.1 介绍  在本节中,我们会先简单介绍网络编程套接字的使用。但是在此之前,我们应研究下一些关于网络编程的基本知识,对于python来说套接

2017-04-18 20:13:07 1431

原创 《五分钟速学技巧_利用random模块实现随机切换header》

0x00序言Author:ChristopherLam 未经允许,禁止转载我们知道,一些网站对于爬虫是不甚欢迎的,因此有一些基础的防爬措施,比如不允许相同的header在短时间内大量访问,今天就讲一种简单的绕过这种防爬策略的方法。0x01关键代码实现机理首先准备充足的User-Agent,既然不允许相同的header,那我改一改其中的User-Agent不就实现了吗?那么要

2017-04-17 21:09:56 1612

原创 《百度URL采集器》

本程序用于爬取百度搜索结果的真实url未经允许,禁止上传网络。本程序仅供测试用,因测试可能带来的法律责任,作者概不负责。Version 0.11.可修改要爬取的关键词2.可修改要爬取的页码3.自行在脚本文件中修改,已用注释标明。Version 0.21.修改了程序逻辑错误2.重写了翻页爬取3.可在命令行中指定翻页爬取的页码Version 0.31.加入自定义搜索词2.删除了程序多余的循环

2017-03-14 15:36:43 5279 5

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除