自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 时空碰撞系列·终

我决定放弃所有花里胡哨的发言,就简单直接的上干货吧①业务场景:1.需要计算时间和空间都在一定范围内的数据对,数据来源可能有多种类型,人、车、码等2.单机计算,数据量上亿②当前方案:拆分join流程,把三个维度拆成2+1,先用in逻辑过滤一部分数据,再扩充一次,再join③当前痛点:1.步骤过于繁琐,会重复调用全量数据2.join的时候是按时空块join的,按块join会导致每个join成功的块中数据量较大,集群版无所谓,单机版计算上亿数据量shuffle会比...

2020-11-30 15:53:46 421

原创 时空碰撞优化系列·二

优化源于痛点(┬_┬)有没有痛点取决于业务场景的需求;有多痛取决于当前方案对业务的契合度让我们从业务场景①、当前方案②切入,联立①②来推导当前痛点③吧!话不多说,开始分析①业务场景:1.需要计算时间和空间都在一定范围内的数据对,数据来源可能有多种类型,人、车、码等2.计算需要并行进行,每次计算一天的数据量,大约亿级②当前方案:按照时间、经度、纬度三个维度扩充27倍数据,然后join③当前痛点:1.27倍太大了,从执行计划上来看,是真的扩了27倍的数据...

2020-09-22 20:51:42 195

原创 时空碰撞优化系列·一

优化源于痛点(┬_┬)有没有痛点取决于业务场景的需求;有多痛取决于当前方案对业务的契合度让我们从业务场景①、当前方案②切入,联立①②来推导当前痛点③吧!话不多说,开始分析①业务场景:1.需要计算时间和空间都在一定范围内的数据对,数据来源可能有多种类型,人、车、码等2.计算需要并行进行,每次计算一天的数据量,大约亿级②当前方案:先按照前文的同行从时间上划分,然后按照geohash从空间上划分,在边界点处理上用的是先计算好所有数据的geohash映射,然后广播到所有节..

2020-09-22 17:44:13 420

原创 windows平台python3使用impyla连接hive问题汇总

①背景windows+python3+连接已有hive集群且已经开启hiveserver2 服务linux下用pyhive可能会方便一些,windows下pyhive需要在集群和连接代码中同时指定auth_mechanism参数,会影响到集群里的hue服务(我司使用的是CDH集群),因此建议在windows下使用impyla来连接②正确安装方式1.pip install pure-sasl2.pip install thrift_sasl==0.2.1 --no-deps3.p.

2020-09-16 21:09:53 1023

原创 同行分析优化

优化源于痛点(┬_┬)有没有痛点取决于业务场景的需求;有多痛取决于当前方案对业务的契合度让我们从业务场景①、当前方案②切入,联立①②来推导当前痛点③吧!话不多说,开始分析①业务场景:1.同一时间段内出现在同一摄像头下的用户即为同行关系(不需要两个人同步出现在摄像头下,因为我司暂不支持在一张图片内一次性提取两个人,处理逻辑太麻烦了,还不如后面分析)2.计算需要并行进行,每次计算一天的数据量,大约千万级②当前方案:将全部数据拉到内存,全局排序后按照时间段大小分块,然后..

2020-08-17 21:03:53 241

原创 hive拉链表优化·百亿量级数据支持准实时更新

业务场景:1.表的数据量很大,时间长了可能会到百亿级的数据2.表中的部分字段需要更新3.需要查看历史变更记录4.对表的更新数量很低,但频率可能比较高当前方案:采用了hive的拉链表,讲这个的博客比较多,具体技术我不予赘述,只讲一讲操作。我们现在是每天指定时间执行一次拉链表的操作,更改全部走kafka,从接口读到更新后存入kafka等待明日执行更新当前缺陷:1.操作数据量太大,每天都要执行百亿级的数据清洗,非常浪费算力2.无法实现准实时,因为接口可能会被一天调用..

2020-08-11 20:34:49 1694

原创 python3通过pyhive连接hive

python连接hive有两种方式,pyhive和impyla,impyla连接较为方便,pyhive在linux上很方便,在windows上较麻烦,本文主要介绍pyhive的安装方法1.从官网下载sasl https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl2.下载指定版本并wheel安装3.linux下可直接连接,windows下需修改集群配置hive.server2.authentication为NOSASL,然后在hive.connection

2020-08-11 18:06:45 1487

转载 selenium中文文档

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-07-17 19:43:53 9491 1

原创 科研数据采集向爬虫

市面上python爬虫的书籍、博客很多,但把整个架构讲清楚的往往失于笨重,而针对某一项讲解的又很难把整个架构讲清楚。窃以为真的要收集需要的资料需要的爬虫技术并不多,我希望能在接下来的篇章中把整个数据采集项目的方法完整的呈现给大家。一下载网页        1.确认网页模式        如果能在网页源代码内找到你需要的一切内容(ctrl+f搜索),这个网页就是静态网页。如果不能,看你需

2017-07-11 19:16:05 1579

原创 爬虫生活实录之---百度文库文档破解

帮同学找考试相关资料的时候瞄上了百度文库(百度文库找期末考的试卷确实特别方便),不想出钱又不想下冰点,复制粘贴还嫌累,灵机一动想用爬虫来解决这个问题。2333我凭本事爬的文档为什么要给钱目标:搞定百度文库中的付费文档的文字部分内容(图片暂未处理处于无法显示的状态,以后遇到需要解决图片格式的时候再优化程序)步骤:1.找到你想下载的文档,打开,在网址wenku前加wap,enter跳转页面

2017-06-15 08:03:54 9471 4

原创 从scrapy框架搭建入门python包的安装

python作为一门对新手非常友好的语言,在安装的难度上却完爆了绝大多数其他语言。为了让萌新不在python2,python3的版本之坑中艰难的挣扎,我决定总结一下一些比较方便的安装包的方法和遇到问题的解决思路。在此先列出几种较为通用的解决方案,然后从python安装开始,详细讲解完安装scrapy的步骤。在此之前,先来个开篇提示。英文用户名!英文路径名!英文用户名!英文路径名!英文用户名!英文路

2017-06-09 16:49:30 1215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除