自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Hive的HQL的执行过程(怎么转换成MR、Spark等任务)

Hive的HQL是怎么转换成MapReduce任务

2022-09-25 17:06:21 946

原创 两种列式存储格式的比较:ORC VS Parquet

列式存储 ORC VS Parquet关于列式数据库的一些说明列式存储格式的适用场景行列存储的优缺点ORC VS Parquet二者的文件结构图选择哪一种列式存储较好欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程

2020-07-26 01:03:08 1475

转载 Spark 两个RDD按key合并(join算子和cogroup算子)

在工作中经常遇到需要合并RDD的情况,记录下处理情况。join和cogroup算子都能达到要求,按key合并,只是当rdd存在多个相同的key时候,最终的输出结果不一样。网上找到了处理情况,自己也测试了,代码如下:object Test { def main(args: Array[String]): Unit = { val spark = SparkSession.buil...

2018-07-17 13:24:41 9192

原创 Intellij Idea远程调试利用docker部署的spark集群(standalone)的端口问题

    因正式环境和本地网络策略不通(docker宿主机无法和我自己的电脑互相ping通),无法通过Idea直接调试任务,总不能每次都打包吧,太痛苦了。一直使用本地模式,也无法测试任务的真实运行情况。打开网络策略,运维需要指定端口号,借机了解了spark的两个参数:spark.driver.host、spark.driver.port和spark.blockManager.port。  host就...

2018-07-12 17:20:53 1241

原创 Python中 numpy.random和random.random的区别

    工作中,遇到需要使用随机抽样的业务类型,然后就遇到了numpy.random和python自带的random包,查找了下二者本质上的区别,在此记录下。    总的来说,两个包本质上就是没有区别!我是在stackoverflow上面找到的,贴出来源:  https://stackoverflow.com/questions/7029993/differences-between-numpy-...

2018-07-12 16:52:18 818

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除