自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Flink动态开窗——根据缓存的规则信息动态设置窗口size

Flink数据关联缓存的外部规则信息动态设置窗口size做动态开窗计算

2023-11-21 17:27:05 259

原创 python爬虫实例(post目录与get详情页双线程)

由网页探查到通过post获得商品目录页、get获得详情页两步骤实现的爬虫实例,顺带selenium自动点击按钮的小段测试

2023-02-15 23:52:38 880

原创 ODPS MapReduce(MR2)用例记录

ODPS MapReduce(MR2)用例记录

2023-02-10 14:05:17 349

原创 ODPS Spark PySpark分组排序打序号并自关联(包含中文乱码问题解决)

ODPS Spark PySpark分组排序打序号并自关联测试(包含中文乱码问题解决)

2023-02-06 17:34:14 658

原创 Pandas复习笔记--自用

数据分析:1.数据处理: 1>.Pandas: 1).numpy: 1.概述:numpy是专注于数值计算的拓展包,其算法库是由C写成的(调用C的API),提供了核心数据类型ndarray(多维数组)。其特点一是要求数组中的元素类型保持一致(相比list不限制元素类型,ndarray可在内存上连续存储),另一特点是摆脱了GIL支持并线化运算(可以更快速地对数据进行矩阵计算),因此效率更高,更适合操作大型数据集。 2.ndarray: (1).使用np...

2022-04-24 22:49:14 749

原创 ODPS上下文参数的使用

前话 接上一篇中在没有OpenApi的情况下写批量实例作业的情景:Pyodps批量处理作业_二两窝子面的博客-CSDN博客 后来在实际使用时进行了许多优化,可以直接使用instance.get_logview_address()得到每一个并行实例的logview地址,通过地址即可查看该实例的运行日志。但需要注意的是,该logview地址默认的是域名是http://logview.odps.aliyun.com,如果是专有云则需要替换成自己的域名。问题 ...

2021-09-18 17:48:55 699

原创 Pyodps批量处理作业

1.背景由于业务原因,工作中一直使用的是专有云,且目前不支持OpenAPI,因此作业只能使用手工创建,这在有大量表对象需要创建作业时造成了明显的时间和人力的耗费。 针对这种问题,首先想到了编写资源,再通过一个Pyodps作业调用资源处理批量的表对象。但是必须解决两个问题:1.各个子实例需要实现独立并行;2.需要不影响子实例的运维。即某个子实例报错需要反馈出来且不影响其他子实例的正常运行。2.思路 总体思路:通过一个Pyodps作业,并行地去调起表操...

2021-07-19 14:07:19 2593

原创 将有大量表格图片的Word/PDF识别成文本Word(Python调用阿里云读光接口)

将有大量表格图片的word转换成文本格式(依然是word格式),暂且记录下,一时间写的比较乱,有空了再好好梳理和调整。主要是通过“阿里云读光PDF识别”(官方网址)的API实现的,这边的流程是:先把包含大量表格图片的word转换成PDF,然后将PDF拆分(因为API每次调用最多识别20页),然后请求识别,返回拆分后对应的word,再将word合并起来。#!/usr/bin/env python# coding=utf-8from PyPDF2 import PdfFileReader, P.

2021-03-17 01:07:46 882 6

原创 初次使用shell脚本(bash)

遇到需要在ECS部署个定时监控的情况,第一次实际用到shell,虽然是很简单的脚本,作为初学者就做了下记录~个人而言,需要注意的是,在sh里激活虚拟环境时需要进行conda initialize,另外定时作业应该建立相应的logs,再有就是Bash里双引号关闭部分元字符特殊意义,单引号关闭所有元字符特殊意义。代码示例:#!/bin/bash# !! Contents within this block are managed by 'conda init' !!__conda_setup

2020-12-30 15:26:56 215

原创 两表模糊匹配某字段做关联

前言:遇到需要用码表对百万级的明细表打标的情况,而明细表与码表中只有某个字段具有模糊匹配的关系。具体场景:码表中的某个码值字段与明细表中的某一字段呈包含关系,现在需要通过这两个字段的模糊匹配做两表关联,给明细表打上码表中的另一字段。大致思路是两表笛卡尔积后用INSTR做筛选来解决模糊匹配的问题,从而生成新的码表,最后就可以通过新的码表给明细表打标了。数据量大的可以考虑给表加上分区字段分区处理,我这边使用的是ODPS,因此没有做手工的分区处理。示例:明细表:TB1;码表:TB2现在需要

2020-12-16 22:17:50 2713

原创 Pyodps数据探查与实例运行脚本获取

前言1.工作中使用Pyodps探查数据时,为了更快捷地做描述性分析,这里用本地化的Pyodps进行了下尝试。2.在使用Pyodps读取实例日志时,有时需要获得实例运行的脚本日志,但是官方文档缺乏这方面的描述,因此也在这记录下测试出的路径。内容1.描述性数据探查主要是获得每个字段的空值率,枚举值,最值,长度最值。Pyodps可以使用to_pandas()将空间中的对象转换为DataFrame格式,然后就可以使用我们熟悉的pandas对其进行各种操作了。需要注意的是to_pandas函数中有个w

2020-12-10 13:55:29 938

原创 Python计算两日期之间排除节假日与非上班时间的工作时间

Python计算两日期之间排除节假日与非上班时间的工作时间前言一、基本思路二、代码示例总结文章目录前言一、基本思路二、代码示例总结前言工作中遇见需要写UDF计算事项办理时间的需求,事项申请和办结由于在线上,可能不在办理时间内,因此要求排除节假日与工作日的非工作时间(午休时间、上班前与下班后的时间),在次做下记录。一、基本思路首先需要获取法定节假日,这里参考了另一篇从全年法定节假日时间的文章:Python获取全年法定节假日时间文章中已经很详细地叙述了从万年历爬取节假日日期的方法,逻辑也比较简

2020-12-02 18:02:03 3852 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除