自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Spark写Parquet源码分析

Spark层面Spark层面我们从dataframe.write.parquet("path")说起。In DataFrameDataset中的write()方法:/** * Interface for saving the content of the non-streaming Dataset out into external storage. * * @group...

2019-01-23 00:36:30 2257

原创 Spark2.1和2.2 SQL物理执行策略关键源码分析

1. 文章开始之前先附上一句SQL,使用tpc-ds的表结构,我们围绕这句SQL讲。SQL:SQL> selectavg(cs_ext_discount_amt)fromcatalog_sales, date_dimwhered_date between '1999-02-22'andcast('1999-05-22' as date)andd_date_sk ...

2018-10-14 10:35:58 462

原创 Storm的可靠性与ack机制

无论是实时处理还是离线处理,都会遇到一个不可避免的问题是,失败任务如何重做?Storm提供了一个ack机制。首先来看一下ISpout接口的方法。1 Spout的可靠性ISpout.java部分源码:public interface ISpout extends Serializable { /** * Called when a task for this comp...

2018-08-26 12:46:23 364

原创 Python爬虫简单笔记之BeautifulSoup4的简单用法

本文首发:http://blog.orisonchan.cc/2018/08/16/44记录一下Python爬虫常用库BeautifulSoup4的简单用法。其中demo均以自己的博客网站为对象。1 urllib和urllib2Python中包含了两个网络模块,分别是urllib与urllib2,urllib2是urllib的升级版,拥有更强大的功能。urllib,让我们可以像读文件一...

2018-08-16 23:51:50 987

原创 常见“树”概念解析(1)

树是许多成熟的项目所使用的基本数据结构,也是面试常考、程序员必备的重中之重。1 底层基础概念1.1 平衡树所谓平衡树的平衡,就是树上某节点的所有子树的高度差的绝对值不超过1,该规律应用在树中所有节点上。如果该树是二叉树,则该树是常见的是平衡二叉树。1.2 平衡二叉树满足平衡树概念的二叉树,常见实现有:红黑树 AVL树(平衡二叉树) 替罪羊树 Treap(树堆) 伸展...

2018-08-14 23:45:29 634

原创 写一个Spark DataSource的随手笔记

真的只是个随手笔记。记录下一些操作过程。背景最近需要实现一些Spark逻辑计划和物理计划的优化,遂打算写一点简单的数据源来测试。突然想到了Oracle常见的scott/tiger里的数据。遂打算使用该数据。获得数据毕竟装Oracle是个大工程,没有必要为了做个测试单独安装一个Oracle,于是用Docker,这里推荐一下阿里的Docker Oracle镜像库:https://d...

2018-08-09 23:22:48 404

原创 Hadoop 集中式的缓存管理demo

参考文献: http://www.infoq.com/cn/articles/hdfs-centralized-cachehttps://blog.csdn.net/javastart/article/details/50586743从Hadoop 2.3.0 开始,加入了集中式缓存管理(HDFS centralized cache management)。特点:由nameno...

2018-08-09 23:21:23 334

原创 关于Kafka远程生产和消费的额外说明

网上有太多此类帖子,然而本帖比他们全面。背景有一台阿里云服务器A,用作测试服务器,一台华为服务器B,用作生产服务器。均搭建相同配置和版本Apache Kafka。现在需远程生产和消费Kafka。在服务器B均无错误,在服务器A死活不通。问题排查 iptable input和output均打开Kafka端口。 telnet通。 log没有任何报错,就是没接收到。...

2018-08-09 23:19:36 1227 1

原创 记一次阿里云磁盘挂载

其实本来磁盘挂载这件事情已经做过很多次了,但是从来没有一个详细的记录。借有次机会,做个记录。背景因为做一些自己的项目对服务器的依赖越来越大,又正好狗年春节发生了一件极其打击我的事情,个人PC机装的Ubuntu系统崩了并且再也重装不上任何Linux系统,所以只能把测试环境移到自己的私人服务器上。 私人服务器还是几年前阿里云优惠买的学生机,虽然后面升过配置,但是磁盘依旧是20G,所以肯定会有不...

2018-08-09 23:18:42 860

原创 记一次Redis漏洞导致服务器被入侵以及解决的过程

其实这个问题在网上都有说明。然而因为本人是开发出身,运维方面比较欠缺,所以才会遇到此问题,遂记录下来,以此为戒。被入侵现象 服务器多了很多莫名其妙的操作,根据查看操作记录命令history得到。 服务器会莫名其妙重启。 经常ssh免密登录失效。 apt-get使用报错。 报错log如下: insserv: warning: script 'S01w...

2018-08-09 23:17:45 2642 2

原创 Kafka 架构与分布式使用

名词解释BrokerKafka集群包含一个或多个服务器,这种服务器被称为broker。Topic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)。PartitionParition是物理上的...

2018-08-09 23:16:45 220

原创 Jira搭建踩坑

准备工作下载 官网下载Server版本。下载完后缀名是.bin(Linux版本) JDK 1.8。 MySQL 可以建立给Jira单独的数据库用户。 但是建库是个大坑,必须要如下建立: create database jira default character set utf8 collate utf8_bin; 本人由于最开始只用create database jira建库...

2018-08-09 23:15:42 2548

翻译 翻译:Apache Spark : RDD vs DataFrame vs Dataset

 在Spark 2.0 Release中,官方提供了3种数据抽象结构供使用:RDD,DataFrame and DataSet。    对于新手来说,可能会对理解三种结构间的关系和决定使用不使用哪一种感到迷惑。本文会详细介绍区别。简要综述    在分开讨论前,来一个简述,三种结构产生顺序如下:RDD (Spark1.0) —> Dataframe(Spark1.3) —&gt...

2018-08-09 23:14:15 203

原创 Hive查询HBase调用MapReduce性能优化

折腾了很久,被领导天天督促&指点,算是有个最基本的性能优化。1. 背景介绍:Hive使用hive-hbase-handler建立HBase external table。在hive查询包含count(*)、join、以及Predicate Pushdown等操作时,会调用MapReduce进行处理。本文旨在查询性能方面的优化,算是对工作中的一点记录。优化主要分为两个方面:1)...

2018-08-09 23:11:24 913

原创 在Spring中配置Hibernate和单独配置Hibernate的区别

首先说下Spring和Hibernate的几个特征:Spring:自动依赖注入,类都可以被当成bean使用。Hibernate:会话工厂sessionfactory,事务管理器transaction。如果只使用Hibernate,那么当你操作数据库的时候,需要敲诸如:Configuration conf = new Configuration().configure

2015-12-20 16:52:46 404

原创 新手学Struts2的几个小注意事项

1、关于filter-class的类名也许你厌倦了总是到网上找或者是翻书找类名,那么该去哪里找?在你struts的文件夹下,找到libs,找到struts-core的jar包,用压缩文件管理器打开,相信你一定对原本的类路径有印象,很快就可以找得到。2、关于加上filter以后有可能出现访问任何都是404的情况怎么办?这个问题着实困扰了我很久。后来发现其实是有jar包

2015-10-14 22:48:50 365

原创 Oracle 11g 发行版2 新安装后关于登录的一些基本操作

首先要注意,在安装时候提示你输入的密码,是SYS用户的密码。当你想要用这个身份登录时,打开SQL plus,用户名:SYS as SYSDBA。这里注意,如果你不输入as SYSDBA的话,系统会提示你,SYS用户必须作为SYSDBA登录,如果你输入as sysdba的话也不行,因为,SYSDBA必须大写!密码就是你安装时候填的密码。如果你忘记这个密码,怎么办呢?这时候关闭

2015-10-08 16:08:25 526

原创 CentOS7下mariaDB和phpmyadmin的一些安装和配置问题

linux新手。。这个问题拖到现在终于下定决心解决,用了一个下午加上一个晚上减去去电影院看一部电影和吃晚饭的时间。还是蛮久的。首先说一下,在centos7下,用yum安装的mysql都变成了mariaDB,最开始我还怕phpmyadmin不支持maria,后来网上一查是支持的。那么话不多说,首先是安装php、apache服务器(httpd)和phpmyadmin,因为这个比较简单嘛

2015-10-06 22:47:03 478

2012年9月计算机二级考试C语言真题

2012年9月份的计算机二级试题,图片格式

2013-03-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除