瞧德-CSDN博客

原创 Cython：.py目录转换.so文件脚本(python转so动态库)

此脚本能够编译整个目录下的python文件，并且会将存在错误的.py文件和__init__.py复制到build对应目录下，同时删除编译过程生成的.c和.o文件# coding:utf-8import sys, os, time, shutilfrom distutils.core import setupfrom Cython.Build import cythonize"""...

2019-10-03 16:41:38 2859

原创 Structed Streaming（Continuous Processing报错）：StreamingQueryException；java.util.NoSuchElementException

问题描述我在查询中使用了udf导致报错，因为目前spark2.4对Continuous Processing的查询仅支持投影类(projections)，如select, map, flatMap, mapPartitions,etc。或者是选择类(selections)，如where, filter, etc。官网描述As of Spark 2.4, only the ...

2019-09-29 11:42:08 1597

原创 Python 部分魔术方法Magit Method

Python魔术方法 Magic Method魔术方法不过是一种特殊的方法，它不需要人工调用，在特定的时刻会自动执行。比如像a-b其实"魔术"般地执行了a.__sub__(b),像__sub__这样的以**“__”双下划线包起来**的方法，都统称魔术方法。魔术方法的分类魔法方法大致可以分为两类：与运算符相关以及与运算符无关的，而两大类下还有很多小类1、与运算符相关的魔术方法很简单，即触...

2019-09-21 15:12:36 900

原创 Hive知识点总结(面试)

目录Hive元数据为何不存放在内置的derby数据库中？Hive中的四种排序？Hive与MySQL数据库区别？HQL的执行流程？Hive 工作原理？内部表与外部表？Hive分组排序的方式？Hive中的文件格式？Hive中的分区和分桶？lateral view 与 explode函数？Hive表关联查询时的数据倾斜？Hive中的谓词下...

2019-08-24 10:58:58 2248

原创 HBase知识点总结(面试)

阅读摘记，更新中...目录LSM-Tree是什么？为何HBase速度很快？HBase与Hive区别？HBase与传统关系型数据库区别？HBase的读写流程？Rolling WAL？Hbase memstore 的刷写时机？为什么不建议在 HBase 中使用过多的列族？HRegionServer 宕机如何处理？HBase合并机制？HBase读性能优...

2019-08-23 00:43:46 2318

原创 Spark：Spark Streaming概述、DStream离散流、flume+kafka+Spark Streaming

目录1、Spark Streaming概述1.1、Spark Streaming是什么1.2、Spark Streaming特点1.3、与其他流处理产品对比2、Spark Streaming 快速开始3、DStream离散流3.1、DStream概述3.2、DStream的输入3.2.1、基本数据源文件数据源自...

2019-08-18 15:55:01 968

原创 Flink：standalone模式下start-cluster.sh之后taskmanager没起来

我的版本：Flink1.7.2、jdk1.8.0_201下午照着Flink官网部署了一下standalone模式，通过start-cluster.sh命令启动Flink集群后发现只有StandaloneSessionClusterEntrypoint进程起来了，并没有TaskManagerRunner，并且8081网页中taskmanager个数为0后来查看了taskmanager节点lo...

2019-08-15 20:55:12 7277

原创 Kafka：Kafka API(0.10.0.X)总结、Flume 与 kafka 集成

目录1、环境准备2、生产者API2.1、创建生产者并推送消息2.2、生产者与分区2.3、创建生产者带回调函数2.4、自定义分区3、消费者API3.1、创建消费者3.2、Producer拦截器(interceptor)4、Flume 与 kafka 集成1、环境准备1）启动zk、kafka集群，并创建topic名为"test"，分区数为32）导入p...

2019-08-13 22:47:01 900

原创 Kafka：概述、体系架构、Kafka集群部署、命令行操作、工作流程

目录1、Kafka(0.10.0.1)概述1.1、消息队列JMS1.2、消息队列的优点1.3、Kafka是什么2、Kafka体系架构1）消息 / 键 / 批次 2）Topic3）Producer 4）Consumer5）Consumer Group 6）Partition7）brocker3、Kafka集群部署...

2019-08-13 01:25:32 2159

原创 Flume：HDFS Sink频繁生成小文件，不按照设定属性滚动文件解决方案(源码)、hdfs.minBlockReplicas作用

比如我们想要通过Flume将数据输出到HDFS中，并且希望每个文件100K左右，可以这么设置sink属性a1.channels = c1a1.sinks = k1 a1.sinks.k1.type = hdfsa1.sinks.k1.channel = c1#目录名为/flume/小时-分钟/秒a1.sinks.k1.hdfs.path = /flume/%H-%M/%Sa1....

2019-08-10 13:11:00 2861

原创 Flume：概述、安装部署、常用Source/Sink/Channel属性、案例

目录1、Flume概述1.1、Flume是什么1.2、Flume基本架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3、Flume优点1.4、Flume常用模型2、Flume的安装部署3、Flume常用属性配置3.1、Source3.1.1、Avro Source3...

2019-08-08 21:56:04 1613 1

原创 Spark：JVM内存管理

目录1、Heap2、Minor GC & Full GC2.1、垃圾回收流程2.2、Spark中JVM优化原因3、Spark内存管理3.1、Spark 1.5.X及之前-静态内存管理3.2、Spark1.6.X及之后-Spark Unified Memory4、Spark(2.1.X)的JVM调优1、Heap由于Spark中的RDD实际上是Java...

2019-08-07 00:22:06 1233

原创 Spark：SparkSQL学习总结

目录1、SparkSQL概述1.1、SparkSQL是什么1.2、Spark SQL 的特点1.3、RDD/DataFrame/DataSet1.3.1、RDD1.3.2、DataFrame1.3.3、DataSet1.3.4、三者的共同点/区别1.4、SparkSQL执行流程2、SparkSQL查询解析2.1、SparkSession2.2、Dat...

2019-08-06 21:30:17 2110

原创 Spark：RDD编程总结(概述、算子、分区、共享变量)

目录1、RDD概述1.1、RDD是什么1.2、RDD的弹性1.3、RDD的特点1.3.1、分区1.3.2、只读1.3.3、依赖1.3.4、缓存1.3.5、检查点2、RDD编程2.1、RDD创建2.1.1、并行化集合2.1.2、读取外部数据集2.2、RDD的操作2.2.1、转换2.2.2、行动2.2.3、控制 1）缓...

2019-08-04 16:35:22 1407

原创 Spark(2.1.2)：DAGScheduler、TaskScheduler源码跟踪分析

Spark调度的基本概念Task：任务，单个分区数据集上的最小处理流程单元 TaskSet：任务集，由一组关联的，但互相之间没有shuffle依赖关系的任务组成的集合 Stage：步骤，一个任务集的调度阶段 Job：作业，由一个RDD Action操作生成的一个或多个Stage组成的一次计算作业 Application：应用程序，由一个或多个Job组成在SparkContext中...

2019-08-03 01:38:08 798

原创 Spark：概述、体系架构、三种模式部署

目录1、概述1.1、spark是什么1.2、spark特点1.3、spark软件栈1.3.1、Spark Core1.3.2、Spark Streaming1.3.3、Spark SQL1.3.4、Spark MLlib1.3.4、GraphX2、体系架构2.1、驱动器节点2.2、执行器节点2.3、集群管理器2.4、Spark编程模型3、...

2019-07-28 16:27:23 1508

原创 Spark：RDD数据分区数量总结(并行化集合parallelize与外部数据集textFile)

目录1、创建RDD2、RDD分区有关操作2.1、查看分区方式2.2、查看分区数2.3、查看不同分区内的数据2.4、重新分区2.5、设置分区数3、分区数3.1、并行化集合3.2、外部数据集textFile4、新版API中FileInputFormat的分片1、创建RDDSpark提供了两种方式创建RDD：读取外部数据集，如SparkContex...

2019-07-27 13:47:02 2867

原创 Scala：WordCount有关函数浅析

目录map/flatMap/flattengroupByreduce/reduceLeft/reduceRightsortBymapValuesfoldLeft/foldRight/foldWordCount的多种写法map/flatMap/flattenmap()接受一个函数，然后对集合中的每个元素调用该函数//列表中有3个字符串，每个字符串对应一行，一行...

2019-07-24 23:27:04 698

原创 Scala：par并行集合计算(fold、aggregate)结果与cpu内核线程的关系

下午在运行以下代码时，结果有两种可能：25或30val list = (1 to 4).toListvar res = list.par.aggregate(5)(_+_,_+_)关于aggregate函数，这是一个具有柯里化特征的函数；可以传入自定义两个方法，将计算过程打印一遍 val list = (1 to 4).toList // 第一个()...

2019-07-24 00:15:00 3704 1

原创 MapReduce案例：组合键、自定义分组器实现不同文件中的WordCount

需求：统计单词分别在不同文件中出现频率组合键：单词-文件名import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;...

2019-07-19 12:55:59 742

原创 Hive案例：用户画像

1）原文件如下字段分别为用户号，下单时间(unixtime)，拿到数据的日期、地址、电话；字段间以\t分割，20160219可作为分区名11723 1249488000 20160219 阳光大道101号8号楼158 138748364717955 1259488367 20160219 阳光大道101号8号楼158 ...

2019-07-18 14:10:51 2328

原创 Hive：查询、排序、索引、存储格式、函数、调优

目录1、查询1.1、基本查询(select from)Hive避免进行MapReduce的情况1.2、where语句like和rlike1.3、分组1.4、join语句join优化map端join优化2、排序2.1、order/soted by2.2、含有sort by 的 ditribute by2.3、cluster by2.4、抽...

2019-07-17 21:10:35 1239

原创 Hive：命令行界面、数据类型、DDL数据定义(数据库及表操作/分区分桶)、DML数据操作(数据导入导出)

目录1、Hive命令行界面1.1、选项列表1.2、变量和属性1.2.1、Hive中变量和属性命名空间1.2.2、用户自定义变量1.2.3、.hiverc文件1.3、一次使用的命令1.4、从文件中执行Hive查询1.5、操作命令历史1.6、Hive内部可直接使用dfs命令2、数据类型和文件格式2.1、基本数据类型2.2、集合数据类型2.3、基本...

2019-07-17 10:53:10 816

原创 Hive：概述、体系架构、工作流程

目录1、Hive概述1.1、Hive是什么1.2、数据仓库的特点1.3、Hive优缺点1.3.1、优点1.3.2、缺点1.4、Hive与传统数据库对比1.4.1、读时模式与写时模式1.4.2、更新1.4.3、索引1.4.4、数据存储1.4.5、可扩展性1.5、Hive与HBase2、Hive体系架构3、工作流程1、Hive概述1....

2019-07-14 21:02:44 1048

原创 Hive：基于MySQL的Hive安装搭建、Hive JDBC访问(hiverserver2和beeline)

目录1、基于MySQL的Hive安装搭建1.1、Hive安装1.2、MySql安装1.2.1、在线模式1.2.2、离线安装Mysql1.3、Hive设置使用MySQL2、Hive JDBC访问2.1、hiverserver22.2、beeline2.3、配置1、基于MySQL的Hive安装搭建1.1、Hive安装Hive的安装比较简单，解压...

2019-07-13 22:11:02 833

原创 HBase与MapReduce整合：TableMapper与TableReducer部分源码分析

目录关于TableMapper和TableReducerTableMapReduceUtilinitTableMapperJobinitTableReducerJobTableInputFormatTableRecordReaderTableOutputFormat关于TableMapper和TableReducer在自定义TableMapper时需要指定两个泛...

2019-07-12 19:13:34 4132

原创 HBase：客户端API之CompareFilter过滤器、与MapReduce集成

目录过滤器CompareFilterMapReduce集成 hdfs->hbase hbase->hdfs hbase->hbase过滤器HBase中可以通过get()和scan()指定列族、列、时间戳及版本号来查询数据，但缺少一些细粒度的筛选功能，比如正则表达式对行键或值进行筛选。Get和Sc...

2019-07-12 15:55:09 2100

原创 HBase：客户端API之Admin与Table类的操作

目录连接HBaseTable类：CRUDput单行put客户端的写缓冲区多行Put原子性Putget单行GetResult类多行Getdelete单行delete多行delete原子性Delete批量处理操作扫描ScanResultScanner缓存和批量处理Admin类：管理类操作连接HBase在H...

2019-07-11 18:16:17 2739

原创 Hadoop集群配置文件(hadoop-ha、hdfs、zookeeper、hbase、yarn、hive、spark)

host ip master1 192.168.80.120 slave1 192.168.80.121 slave2 192.168.80.122 slave3 192.168.80.123 hdfsnamenode：master1，slave1secondarynamenode：master1datanode：slave1，slav...

2019-07-10 11:46:11 623

原创 Zookeeper：概述、数据模型、选举机制

目录概述数据模型ZnodeZookeeper特性Zookeeper应用举例zoo.cfg参数分析选举机制全新集群选举机制数据恢复的选举机制概述ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务，它提供了一项基本服务：分布式服务。ZooKeeper设计了一种新的数据结构Znode；并在数据结构的基础上定义了一些原语，用来操作...

2019-07-08 15:39:57 749

原创 HBase：HBase Shell常用命令

目录进入HBase shell、查看所有表、创建表、插入数据扫描表、获取一行记录、获取单元格、单元格内容追加删除单元格、查看检索结构、新增列族并指定版本扫描表并查看多版本值、指定时间戳删除单元格删除列族、清空表记录、禁用表、删除表将表映射成变量、列出命名空间、列出命名空间内的表创建命令空间并添加描述、查看命令空间的描述删除表空间、冲刷表数据、支持Ruby语法建表...

2019-07-08 12:00:25 745

原创 HBase：体系结构工作原理

目录体系结构、工作原理ClientZookeeperHMasterHRegionserverHRegionHStoreMemStoreHFileHLog相关属性分析体系结构、工作原理HBase服务器体系结构遵从总从服务器架构，HMaster负责管理所有HRegionserver，并且HBase中所有服务器是由Zookeeper进行协调。HBase...

2019-07-08 00:37:17 567

原创 Python：Pandas学习笔记（二）通过DataFrame读写各种类型数据

目录CSV文本文件htmlXMLEXCELJSONHDF5pickle对象序列化数据库 SQLite MySQLread_X()通常是pandas模块下的，to_X()是dataframe的方法CSV读取使用pandas.read_csv()方法，返回的是一个dataframecsv默认是以"，"分割的csv...

2019-06-29 15:29:27 7278

原创 Python：Pandas学习笔记（一）Series和DataFrame、相关性及NaN处理

目录pandas核心数据结构SeriesDataFrameIndex对象算数和数据对齐numpy函数应用与自定义函数Series和DataFrame的排序和排位相关性和协方差NaN的数据处理pandas核心数据结构pandas是以numpy为基础的，还提供了一些额外的方法Seriesseries用来表示一维数据结构，与python内部的数组类似，...

2019-06-27 22:03:06 7409

原创 HBase简介、数据模型

目录HBase简介HBase数据模型自动分区HBase数据操作的实现HBase体系结构HBase简介HBase是一个在HDFS上开发的高可靠、高性能、面向列、可伸缩的分布式数据库。HBase适用于实时地随意访问超大规模数据集。NoSQL发展前景关于GFS和MapReduceGFS是HDFS的前身，它使用商用硬件集群存储海量数据。文件系统将数据在节点之间冗...

2019-06-19 23:08:11 932

原创 HBase：独立模式、伪分布式和完全分布式的安装部署

目录独立模式伪分布式完全分布式使用独立安装的zookeeper现有三台机器，主机名分别为hmaster1,hslave1,hslave2，并且已经搭建了完全分布式hdfs集群独立模式在独立模式下，HBase产生的数据存储于本地文件系统，所以并不能保证HBase的高可靠安全运行。这适用于本地开发和测试用例，其中集群故障的成本得到很好的控制。它不适合生产部署，最终会丢失数据...

2019-06-18 02:19:15 1925

原创 Hadoop：YARN集群中资源管理器RM的高可用HA配置

RM运行失败资源管理器失败是个很严重的问题，这意味着作业和任务容器都将无法启动，默认情况下RM也是个单点故障。所以为了得到高可用性，运行一对RM是很有必要的。当活动RM失败了，备用RM通过zookeeper管理能自动顶替上。所有运行中的应用的信息存储在一个高可用的状态存储区中（由ZK或HDFS备份），这样备用RM可以恢复失败的活动RM的关键状态，这与通过QJM实现namenode的高可用是...

2019-06-13 01:44:49 1228 2

原创 MapReduce：作业运行机制

目录作业提交作业初始化任务分配任务执行关于进度监控作业完成MapReduce应用实际上是以YARN应用运行，若理解了YARN运行机制，MR不过是多了一些细节处理MapReduce作业运行的整个过程中有5个独立的实体：客户端：调用Job对象的submit()方法提交作业，或者调用waitForComplete()提交之前没有提交过的作业并等待它的完成 YA...

2019-06-12 03:17:02 1060

原创 Hadoop：YARN基本架构与工作流程

目录YARN概述YARN的基本架构MapReduce1YARNResource ManagerApplication MasterNode ManagerMR1与YARN比较RM中的调度YARN应用工作流程YARN概述Yarn(Yet Another Resource Negotiator)是hadoop的集群资源管理系统。Yarn在hadoop...

2019-06-08 14:36:29 717

原创 Hadoop：使用QJM搭建HDFS高可用性(HA)集群及使用zookeeper自动故障转移

目录高可靠性与高可用性日志管理器QJM搭建HA集群ZooKeeper简介自动故障转移高可靠性与高可用性高可靠性也可以称为高容错性，体现在一份数据以多份副本的形式存储在datanode中，并且通过自身持续的状态监控快速检测到冗余错误，并且能够快速、自动恢复失效的组件。可以说高可靠性是保证了datanode上的数据可靠，而普通集群中只有一个namenode，如果唯一na...

2019-06-05 14:41:36 1016

Java：俄罗斯方块JPanel版

jdbc+servlet+jsp员工信息管理(emp表)

空空如也