- 博客(127)
- 资源 (14)
- 收藏
- 关注
原创 飞书API(5):查看多维表 28 种数据类型的数据结构
整体上,我们可以分两部分来查看整个数据结构:第一部分是外层的结构,第二部分是“fields”的结构。第一部分是通用的,而第二部分各个数据类型各有不同,具体详见文章说明。
2024-04-21 21:27:39 905
原创 飞书API(4):筛选数据的三种思路
本文探讨了三种处理多维表筛选数据的思路:- 思路一:获取所有数据,使用 pandas 进行数据筛选;- 思路二:调查询记录接口时,传递 filter 参数进行数据筛选;- 思路三:在多维表新建视图进行筛选,然后指定视图,读取所有数据。
2024-04-14 23:58:50 1101
原创 飞书API(3):Python 自动读取多维表所有分页数据的三种方法
使用 Python 读取多维表分页,需要传递“page_token”参数。第一页“page_token”参数为空字符串,第二页开始从上一页的响应体提取“page_token”的值。使用 Python 实现,可以通过三种方式读取所有分页的数据:while 循环读取、for 循环读取和内函数递归读取。● while 循环:使用has_more参数,直到has_more=False跳出循环;● for 循环:使用total参数,结合page_size计算循环次数;● 内函数递归:使用has_more参数
2024-04-07 00:13:16 794
原创 飞书API(2):通过 Python 读取多维表数据
使用 Python 自动读取多维表主要分两步:第一步是取应用的 app_id 和 app_secret 获取临时 tenant_access_token,传递给第二步;第二步是取 tenant_access_token 加上 多维表的标识(app_token、table_id)读取数据。
2024-03-31 23:52:47 1231
原创 飞书API(1)-读取飞书多维表数据
本文介绍如何通过飞书 API 读取飞书多维表的数据,从创建应用到发布,再到 API 调试。详细流程如下:1、创建应用2、申请权限,发布版本3、创建多维表,并设置应用操作多维表的权限4、查看接口文档,并调试 API。
2024-03-25 09:09:45 906
原创 Pandas DataFrame 写入 Excel 的三种场景及方法
本文主要介绍如何将 pandas 的 DataFrame 数据写入 Excel 文件中,涉及三个不同的应用场景:- **单个工作表写入**:将单个 DataFrame 写入 Excel 表中;- **多个工作表写入**:将多个 DataFrame 写入到同一个 Excel 表中的不同工作表中; - **追加模式写入**:针对已有 Excel 文件,在不覆盖原有数据的前提下,将新的 DataFrame 数据追加至指定的工作表中。
2024-03-10 23:57:22 2502
原创 Pandas DataFrame 转 Spark DataFrame报错:AttributeError_ ‘DataFrame‘ object has no attribute ‘iteritems‘
处理方案如下,根据自身需求选择:- 降低 pandas 版本:`pip install pandas==1.5.3`- 用 items() 替换 iteritems():`pd.DataFrame.iteritems = pd.DataFrame.items`- 升级 spark 版本:下载链接:[https://spark.apache.org/downloads.html](https://spark.apache.org/downloads.html)
2024-01-27 11:47:14 1069
原创 GPT3.5 改用 GPT4 价格翻了30倍 如何破局? GPT 对话成本推演
假设你搭建了一个平台,提供 ChatGPT 3.5 的聊天服务。目前已经有一批用户的使用数据,想要测算一下如果更换 GPT 4.0 服务需要多少成本?
2023-12-31 19:47:21 1621
原创 如何计算 ChatGPT 的 Tokens 数量?
本文主要介绍了 GPT 如何计算 Tokens 的方法,官方提供了两种方式:网页计算和接口计算。网页计算不需要技术,只需要魔法即可体验,而接口计算,事实上接口计算包含了两种方法,一种使用tiktoken,则需要点 Python 基础,而openai还需要点网络基础和货币基础,需要代理和 plus 账号(20刀/月)等。
2023-12-05 09:15:00 2340 2
原创 使用 PyODPS 采集神策事件数据
本文主要介绍将神策数据入库的相关操作。目标:将神策数据入库到 MaxCompute 数仓。最终的解决方案的整个流程梳理下来其实就是:请求神策数据->Pandas 处理数据->转为 MaxCompute 数组并入库。
2023-11-25 13:44:56 590
原创 Jupyter notebook 无法链接内核、运行代码
整个过程,首先是验证 Jupyter 出问题是 Vscode 插件的问题,还是整体都出问题,定位到时整体出问题之后,尝试在本地打开它,结果打不开,因为部分包冲突了!解决包冲突问题,终于可以打开,不过依旧还是有问题——无法连接内核,无法执行代码。根据终端报错,逐一排查问题并解决掉:调用错误:升级一下prompt_toolkit,升级ipython;文件冲突:忽略;路径错误:修改…\Lib\s
2023-11-12 01:27:37 775 1
原创 Dataworks API:调取 MC 项目下所有表单
本文介绍了从 Dataworks 项目中获取所有表单字段的方法,基本步骤如下:查看官方文档,了解约束和接口;在线调试,并获取源码;配置本地环境,安装 alibabacloud_dataworks_public20200518;配置环境变量,新增两个环境变量ALIBABA_CLOUD_ACCESS_KEY_ID和 ALIBABA_CLOUD_ACCESS_KEY_SECRET,并将阿里云账号的 ACCESS_KEY_ID 和 ACCESS_KEY_SECRET 分别作为对应变量的值;测试源码,打
2023-10-27 20:53:24 802
原创 VMware _ Ubuntu _ root 密码是什么,怎么进入 root 账户
在 VMware 安装 ubuntu 虚拟机之后,root 用户的密码是什么?安装的过程也没有提示输入 root 用户的密码,只有创建第一个非 root 用户的密码。但是 root 用户是存在的,又怎么切换到 root 用户呢?事实上,root 用户存在,但是没有密码,如果你输入命令su root,然后输入创建第一个账户的密码,会提示以下报错:安装过程没有输入过 root 密码,那是不是有创建 root 的密码的方法,或者通过其他的方式进入 root 用户呢?都有的!下面一个个介绍。
2023-10-13 08:14:32 2209
原创 下载安装 VMware & Ubuntu(server 命令行版本)虚拟机
VMware 是什么?虚拟机是什么?二者有什么关系?VMware 是一种虚拟化软件,而虚拟机则是通过虚拟化技术创建的一个计算机环境。具体来说,VMware 是一款软件产品,它提供了一套完整的虚拟化解决方案,包括虚拟机管理器、虚拟机监控器、虚拟机操作系统等组件。虚拟机则是指通过虚拟化技术在一台物理计算机上模拟出的虚拟计算机环境。每个虚拟机都拥有自己的 CPU、内存、硬盘、网络接口等资源,可以独立安装和运行操作系统和应用程序。通过 VMware,我们可以在一台物理服务器上运行多个虚拟机。
2023-10-01 23:59:21 1298
原创 阿里云大数据实战记录10:Hive 兼容模式的坑
解决 MaxCompute 不支持这个语法`DATE_FORMAT(string, string)`的方法本文提供了两种:方法1:开启 Hive 兼容模式方法2:显性修改传入`FROM_UNIXTIME(1672538400)`返回的数据类型另外,传递给`DATE_FORMAT()`的参数如果是 DATETIME 类型,会被隐性转换为 STRING 处理。
2023-09-16 17:54:44 1515
原创 阿里云大数据实战记录9:MaxCompute RAM 用户与授权
本次探索过程,发现了一个问题,阿里云产品,可能每一个都会有自己的控制台,有自己的一套权限管理,配置权限前,需要先思考,这个权限是在哪一个平台上使用,然后针对性去对应的文档和对应的控制台中寻找解决方案。就如本次,处理的内容其实是 MaxCompute 项目级别的问题,需要到项目中去寻找解决方案,一开始我配置了 RAM 用户相关权限,也在数据保护伞和 DataWorks 用户管理上面也尝试了解决方案,不过都是无用功,无法最终解决问题,只是更加清晰地了解了阿里云的权限管理逻辑。
2023-09-04 08:30:00 1073
原创 阿里云大数据实战记录8:拆开 json 的每一个元素,一行一个
本文分别通过 pgsql、ODPS SQL 和 MySQL 三种 SQL 语法进行 json 类型的处理。其中,使用 pgsql 处理方式最简单且简洁,而 ODPS SQL 最复杂,中间进行了多次数据类型的变更,甚至还需要使用一种更少见的数据类型 map 类型来辅助处理;而 MySQL 则处于二者之间。
2023-08-29 19:17:54 1234
原创 阿里云大数据实战记录7:如何处理生产环境表单的重复数据
在处理生产环境中的重复数据时,实际上就是要从表单中删除重复的数据,可以采用多种删除方式。比如:覆盖写入(`INSERT OVERWRITE`),该方式本质上是先清除数据,然后再进行插入操作,我们将新插入的数据进行去重即可。这个方式可以通过调度任务来实现,也可以通过查询窗口执行代码来实现。如果只是局部的几条数据出现问题,也可以手动进行处理,只需指定删除重复数据,然后再插入一次被删除的数据即可。
2023-08-17 08:59:31 252
原创 阿里云大数据实战记录6:修改生产环境表单字段数据类型
最终的方案更准确的说法是删表重建,以实现“修改字段数据类型”的目的,不过中间绕了些弯子。如果只是在开发环境中处理,还是会比较方便,对开发表进行删表重建(),使得数据表的数据类型和要插入的数据保持一致;或者修改插入数据的数据类型(cast),使得插入数据的数据类型和已创建数据表的数据一致;或直接修改数据表的数据类型(Alter),这个方案需要项目安全操作的权限。但是如果是发布到了生产环境,便会更加麻烦,除了以上可供选择的方法需要进行两次操作外,还涉及到表单的使用权限问题,所以一般建议非必要不删表!
2023-08-15 08:58:32 1479
原创 阿里云大数据实战记录5:修改生产环境表单字段名称
1、开发环境和生产环境的表单的字段名要保持一致!这样才可以将开发环境的表提交到生产环境。如果要修改字段名,需要两端都进行修改,再提交。注意一个前提,必须要有开发环境和生产环境相关表单的alter权限。2、如果有外表也需要重建,修改的字段不会同步更改,会导致查询不到相关的数据。这个流程还是比较繁琐的,这还不涉及表单的调用,所以能不改尽量不改,前期的数仓表设计多花点功夫做好规范,这很重要!
2023-08-06 22:24:27 656
原创 PostgreSQL:使用 JSON 函数和正则表达式,带你轻松高效处理半结构化数据
本文围绕PostgreSQL数据库中的JSON函数和正则表达式的运用,由浅入深介绍了几种常用数据处理方法,分别是JSON 取值、拆分键值对、拆分字符串和批量匹配字符串。PostgreSQL的JSON数据类型表现出极大的灵活性,支持键值对和嵌套数组结构,使得我们能够方便地存储和检索非结构化数据。而且,再结合具有优秀处理字符串能力的正则表达式,处理非结构化数据就变得轻而易举。由于文章篇幅的限制,仅介绍了JSON 函数和正则表达式很小的一部分内容。如果你想获取更多信息,了解更全面的知识
2023-07-16 13:05:58 1392
原创 AI 笔记3:如何使用 WPS AI 处理Excel数据,提高数据处理效率
按目前测试下来,比较靠谱的是写公式和条件格式,智能分类、智能提取和情感分析这三个功能似乎用途更小,效果似乎也没有让人惊喜。以后不懂公式,也不要紧了,只要会Prompt,可以调动 AI 来助力。对于特别复杂的公式,其实也是可以拆分为很多个子公式,然后再进行拼接,所以需求的理解和拆解也相对重要,这二者加上 AI 助力,基本上超过9成的场景应该能够轻松解决。剩下的可能是 AI 的边界,目前尚未清楚该边界在哪里。
2023-07-09 23:09:31 3272
原创 Python 应用:移动指定图片到指定目录
本文通过 Python 的 os 和 shutil 库,使用等方法,实现了将指定的文件从大文件夹中移动到目标文件夹中。用于提取指定路径的文件的名称;用于拼接路径,以便通过绝对路径对文件进行移动;用于移动文件。
2023-07-08 23:42:25 2446
原创 MySQL 记一个调优记录:最大化获取 uid 和 mobile
调优通常是要结合运行的环境、时间、表单的逻辑等多个因素进行综合判断,重在学以致用。
2023-07-03 00:01:52 258
原创 WPS-AI 体验笔记1:一键生成 PPT
文章小结:一键生成幻灯片的逻辑就是先给你个大纲,然后结合大纲,让 AI 生成 PPT,如果对一些内容不满意,可以通过问答进行调整。从本次的体验来看,WPS AI 在自动设计并提供一个基本框架和辅助批量更换字体、风格等,有着比较出色的作用,但是目前的智能程度还远远不够。AI 展望:AI 技术增强创意生成和智能推荐,可以激发 PPT 设计师的创造力。AI 与创意巧妙融合,提升了
2023-06-20 08:07:38 3119
原创 【续集】业务实战记录4:多维表插入数据任务丢失处理与思考
本文探讨了如何处理在开启`concurrent.futures.ThreadPoolExecutor`多线程执行任务时出现的错误任务。介绍了如何对错误任务进行捕捉和重新提交,以确保所有任务成功执行的方法。该方法其实也可以用于解决上一篇文章所遇到的访问太频繁导致任务丢失的问题。本文提供的代码相对比较通用,没有太多场景的定制,所以在跑实际业务时需要进行定制化,以适配不同的业务场景。
2023-06-04 08:40:38 401
原创 业务实战记录5:MySQL 字段别名导致的异常与思考
字段别名是解决字段和表别名冲突问题的一种有效方法。它提高了查询的可读性、简化了复杂查询,并有助于应用程序的稳定性维护。然而,合理权衡字段别名的利弊是至关重要的。通过遵循最佳实践和注意潜在的缺点,我们可以充分利用字段别名的好处,同时降低潜在的风险和困难。
2023-05-26 23:38:15 578
原创 业务实战记录4:多维表插入数据任务丢失处理与思考
今天讲一个多线程的东西,开启多线程之后,由于第三方限制导致数据任务丢失。提供了三种解法:单线程、加停顿、多账号多线程循环跑任务。
2023-05-19 23:57:56 723
原创 使用Python开启局域网传送数据(3):使用 simple_http_server 实现上传下载功能
本文介绍了在 Windows 系统中,使用 simple_http_server 模块实现了在局域网中传送数据,包含上传和下载功能。
2023-03-23 08:45:00 1335
原创 使用Python开启局域网传送数据(2):在 Windows 系统使用 droopy 实现仅上传功能
droopy模块是Python一个小型的 Web 服务器,可以用来搭建简单医用的文件传输服务,特备是在局域网中,可以直接开启相关的服务。droopy是 Python 的第三方模块,因此需要另外安排相关的库。使用以下命令安装。我查了好些教程,都是教 Mac 和 Linux 系统的操作,包括官方的 GitHub 也是只说怎么进行 Linux 和 Mac 的使用,而 Windows 指向了另外一个链接,一来要翻墙,好不容易探了个头出去,发现链接已失效……
2023-03-15 07:41:03 584
原创 使用Python开启局域网传送数据(1):使用 http.server 实现仅下载功能
本文介绍了使用 http.server 模块实现了在局域网中传送数据。注意,http.server模块仅支持文件的分享,即只能下载,不能上传。
2023-03-12 11:00:11 1410 1
原创 Python 数据分析1:三种工具实现连接、读取MySQL数据库并处理MySQL数据为DataFrame
本文介绍了 pymysql、mysqlclient 和 SQLAlchemy 三种工具如何连接、读取和处理数据。 pymysql 和 mysqlclient 的语法比较相似,处理成 DataFrame 过程相对复杂一些,而 SQLAlchemy 则可以借用 pandas 的`read_sql()`方法更加便捷处理 MySQL 数据。读者可以通过每一小节末尾我封装好的函数,改一改传递的参数,拿来即用!如果觉得有用可以点个赞,如果还觉得不够给力,可以留下您宝贵的意见。
2023-03-03 12:36:15 5022 1
原创 Python和MySQL对比(6):用Pandas 实现MySQL日期函数的效果
1、一个时间自定义加减使用 Timedelta() 或 DateOffset();2、两个时间取差值直接相加减;3、格式化使用 strftime();4、取时间的指定部分,使用对应的属性 year、month、day、hour、minute、second;5、时间戳和时间的转化:to_datetime()、timestamp()。
2023-02-20 17:59:58 805 1
原创 Python和MySQL对比(5):用Pandas实现MySQL窗口函数的效果
本文主要介绍 MySQL 中的窗口函数count()sum()如何使用pandas实现,同时二者又有什么区别。注:Python是很灵活的语言,达成同一个目标或有多种途径,我提供的只是其中一种解决方法,大家有其他的方法也欢迎留言讨论。
2023-01-18 22:28:01 1561
原创 Python和MySQL对比(4):用Pandas 实现MySQL的行列转换语法效果
环境:windows11 64位Python3.9MySQL8本文主要介绍行列转换几个常见的行列转换问题在 Python 和 MySQL 的实现及语法对比,包含了:多列合并为一列、多行合并为一行、一列拆分为多列、一行拆分为多行、多行转多列、多列转多行。注:Python是很灵活的语言,达成同一个目标或有多种途径,我提供的只是其中一种解决方法,大家有其他的方法也欢迎留言讨论。
2023-01-13 23:57:57 739
原创 Python和MySQL对比(3):用Pandas 实现MySQL的子查询、like_regexp、case when_if语法效果
环境:windows11 64位Python3.9MySQL8本文主要介绍 MySQL 中的子查询、like/regexp、case when/if 如何使用pandas实现,同时二者又有什么区别。Python 在实现子查询时,其实就是通过赋值给一个新的变量,然后使用新的变量再进行`merge()`,当然,也可以不用赋值新的变量,直接作为左表或右表的参数值进行传递。Python 在实现`like/regexp`时,则是通过`.str.contains()`,使用正则进行匹配,需要注意的是空值的填
2023-01-07 00:20:41 1691 1
原创 Python和MySQL对比(2):用Pandas 实现MySQL的 union 和 join 语法效果
本文主要介绍 MySQL 中的union和join如何使用pandas实现,同时二者又有什么区别。注:Python是很灵活的语言,达成同一个目标或有多种途径,我提供的只是其中一种解决方法,大家有其他的方法也欢迎留言讨论。
2022-12-31 19:07:37 1463
原创 protobuf 的bug:ImportError_ cannot import name ‘builder‘ from ‘google.protobuf.internal‘
今天了解到有一个很强大的数据分析工具streamlit,下载安装完发现启动不了……没错就是本文的bug.什么是protobuf?Protocol Buffers 是 Google 开发的一种数据交换格式,采用了一种类似于 XML 的简单的语法,用于定义数据结构,并且可以将这些结构序列化为二进制文件,以便在不同的编程语言之间进行数据交换。它是一种和语言无关、平台无关、可扩展的序列化结构数据的方法。它比 XML 更快地进行编码解码,可以用更小的文件大小来储存数据。
2022-12-26 00:06:13 21860 3
Python 使用 simple-http-server 在局域网上传下载数据
2023-03-22
Python 网络服务 droopy 模块源文件
2023-03-15
Tableau 合集3:格式设置之可视化图显示百分比和提示工具对齐问题
2022-11-26
Python 算法:线性回归及相关公式推导 第4部分公式推导源代码
2022-11-21
大数据分析中用Python结合Table Extension处理数据
2022-11-06
Python文件(TXT、csv、图片、音频、视频等)读写
2022-10-12
Python 基础:模块和包(下)--发布属于自己的第一个模块包-相关代码包
2022-10-06
Tableau 数据处理:计算平均值容易犯的错
2022-09-02
Tableau计算用户注册之后6个月内订单数
2022-08-19
Excel实战-帮业务人员做道Excel题数据表-用于学习
2022-08-03
BI工具之Tableau 自定义调色板及应用全流程讲解
2022-06-23
关系型数据库中MySQL常用函数的作用和例子说明
2022-06-13
泰坦尼克号train(仅有旅客ID和名字)
2022-04-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人