4 NeverMore丶

尚未进行身份认证

暂无相关简介

等级
TA的排名 54w+

Spark 两个RDD按key合并(join算子和cogroup算子)

在工作中经常遇到需要合并RDD的情况,记录下处理情况。join和cogroup算子都能达到要求,按key合并,只是当rdd存在多个相同的key时候,最终的输出结果不一样。网上找到了处理情况,自己也测试了,代码如下:object Test { def main(args: Array[String]): Unit = { val spark = SparkSession.buil...

2018-07-17 13:24:41

Intellij Idea远程调试利用docker部署的spark集群(standalone)的端口问题

    因正式环境和本地网络策略不通(docker宿主机无法和我自己的电脑互相ping通),无法通过Idea直接调试任务,总不能每次都打包吧,太痛苦了。一直使用本地模式,也无法测试任务的真实运行情况。打开网络策略,运维需要指定端口号,借机了解了spark的两个参数:spark.driver.host、spark.driver.port和spark.blockManager.port。  host就...

2018-07-12 17:20:53

Python中 numpy.random和random.random的区别

    工作中,遇到需要使用随机抽样的业务类型,然后就遇到了numpy.random和python自带的random包,查找了下二者本质上的区别,在此记录下。    总的来说,两个包本质上就是没有区别!我是在stackoverflow上面找到的,贴出来源:  https://stackoverflow.com/questions/7029993/differences-between-numpy-...

2018-07-12 16:52:18
勋章 我的勋章
    暂无奖章