zkkkkkkkkkkkkk-CSDN博客

原创 postgresql中分区表相关操作

二、创建分区表三、新增分区 3.1、新增分区 3.2、批量新增分区四、删除分区 4.1、删除分区4.2、批量删除分区五、查看分区表详情

2024-04-08 16:55:10 375

原创 datax数据入库模板

datax数据入库模板。txt2hive、txt2mysql

2024-01-30 14:30:07 504

字符串前补0 python安装包镜像网站 pip无法卸载包时 dataframe设置全行或全列显示 dataframe对某一列特征编码 dataframe任意位置插入一列值 sklearn算法，输出特征方程解决dataframe写入csv会出现科学技术法的情况 dataframe行转列（行列互换）正则找出两个特定字符中间的所有内容正则匹配字符串中的中文内容正则匹配括号里的内容 try捕获具体报错的行数及文件升级pip ip地址转int类型 ip校验特征归一化

2023-12-15 16:30:39 903

原创 windows环境运行datax缺少本地hadoop环境报错：Could not locate executable null\bin\winutils.exe

Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

2023-12-07 10:18:56 239

原创 python连接hive报错：TypeError: can‘t concat str to bytes

2.1、进入D:\Anaconda3\lib\site-packages\thrift_sasl\__init__.py文件。2.2、添加如下代码到第101行之前。

2023-11-20 11:47:54 521

原创 hive插入动态分区数据时，return code 2报错解决

如果上面语句没有解决，可以看下yarm配置，考虑是否是语句占用内存超过配置最大内存等等。大概率是因为没有开启允许动态分区或单次动态分区个数太小了。

2023-10-23 20:16:22 2039 1

原创 linux中单节点安装postgresql数据库

linux中单节点安装greenpl2、安装完后会在/usr/local/下新建greenplum-db的文件夹，里面就是我们的安装的greenplum客户端。1、拷贝greenplum安装包带的配置文件到/home/gpadmin/gpconfigs/下。1、首先切换到rpm安装包所在的路径，执行如下命令。5、数据存放路径设置用户权限。6、创建配置文件路径，并进入。4、source脚本文件。5、创建数据存放路径。7、新建两个配置文件。三、安装greenplum依赖包。六、安装greenplum安装包。

2023-10-10 18:48:01 560

原创 linux中Crontab定时参数

【代码】linux中Crontab定时参数。

2023-10-10 12:03:27 194

原创 Greeplum以每日一个区间，批量创建多个分区

如标题所示，现在需要建一张临时表来存储每日增量的流水数据。存储周期为近两年，其中日增量约1000W ~ 1200W，一年约40亿数据，两年90亿左右。经过讨论，决定用日分区的方式来建流水分区表。所以下一条语句衔接的时候一定要注意，如漏掉那么在插入当天数据的时候会提示分区找不到等错误。新建分区后，可以单独访问分区表里某一天分区数据。默认的分区名称是xxx_xxx_xxx_1_part_partition_name。则，分区表维持在近两年内即可，每日先增后删。2.2、循环创建每日的分区。2.4、删除特定分区。

2023-08-01 08:47:01 259

原创 postgresql报错：ERROR：field position must be greater than zero

知道报错的大概意思后，可以查看报错的sql语句。是不是有用某些函数处理字段，然后函数没用对的。大概意思是什么位置必须要大于0。

2023-05-09 15:28:52 386 1

原创 postgresql使用copy命令导入数据报错：ERROR：unterminated CSV quoted field

postgresql使用copy命令导入数据报错：ERROR：unterminated CSV quoted field

2023-05-04 10:50:37 1627

原创 python问题 —— 打印DataFrame出错（TypeError: ‘NoneType‘ object is not callable）

打印DataFrame出错（TypeError: 'NoneType' object is not callable）

2023-04-13 19:01:54 539

原创使用conda更新python版本

原因是本来使用的是具有python3.6.3版本的conda环境，但是因为python内存堆栈溢出的bug问题。在更新的过程还是有几个细节需要注意下，这边做个记录。如果升级的python版本跨度太大，则要注意一些语法或函数参数在搞版本里是否有弃用更改等情况。如果在conda install python 不指定python=多少版本，那么会默认给你安装最新的。需要注意下环境变量下的anaconda3的目录位置。这时，虽然python版本是升级成功了，但是conda的版本跟python的版本又不兼容了。

2023-03-29 14:29:55 18802

原创 selenium自动获取cookies用于requests做接口请求爬虫

selenium可以用来模拟用户操作的python第三方包，而requests则是用来做接口请求。两者一结合，可能在某些方面优于单个包的爬虫。在requests请求时，我们都知道requests是需要headers信息。所以自动获取cookies等headers里关键信息就至关重要，而selenium因为是打开一个浏览器模拟用户操作的特性，使它能够获取到它自己打开的页面cookies。我们使用这个cookies传入requests，然后再使用requests做爬虫即可。

2023-03-27 10:14:56 2128

原创关于自动机器学习flaml训练时的一些报错

SyntaxError: future feature annotations is not definedImportError: cannot import name 'StratifiedGroupKFold'xgboost.core.XGBoostError: C:/Users/xxx/learner.cc:567: Check failed:mparam_.num_feature != 0 (0 vs. 0) : 0 feature is supplied. Are you using raw

2023-03-24 14:33:18 821

原创 python访问数据库的几种方式（pandas、pymysql）

Python连接数据库 pymsql sqlalchemy pandas to_sql read_sql

2023-03-14 11:22:01 1619

原创 pymysql读取数据库转换为dataframe时报错：ValueError: DataFrame constructor not properly called!

pymysql读取数据库转换为dataframe时报错：ValueError: DataFrame constructor not properly called!

2023-03-10 18:04:52 4566

原创 linux离线移植python环境，启动报错（ModuleNotFoundError: No module named ‘encodings‘；＜no Python frame＞）

Fatal Python error: init_fs_encoding: failed to get the Python codec of the filesystem encodingPython runtime state: core initializedModuleNotFoundError: No module named 'encodings'Current thread 0x00007fab36715740 (most recent call first):

2023-03-09 10:13:22 3182

原创 python使用requests提交post请求并上传文件（multipart/form-data）

python如何上传文件，使用requests的post上传文件。multipart/form-data格式上传。Content-Disposition: form-data; name="file"; filename="样本标签.xlsx"Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet

2023-02-24 12:00:55 20885 15

原创 python文件编译为pyc后运行

如果运行这个py文件，Python内部会先将源码文件（.py文件）编译成字节码（byte code）文件（.pyc文件）。总结来说，pyc是一个可执行的被编译后的py文件，其特点就是在运行时，可以省去python编译器去再次编译的时间，进而就优化了性能。编译后的pyc是可跨平台的，但是python的版本是不能跨的。比如你使用3.6版本去编译好的一个pyc文件，在另一个平台上也是需要使用3.6版本的。编译后会在有源码的目录下生成一个_pycache_目录，里面存放了当前目录下所有的编译后的pyc文件。

2023-02-22 16:21:34 1257

原创 selenium运行出现DNS警告：Faild to read DnsConfig.

最近需要开发一个爬虫工具，使用的是selenium做的。最终需要打包成exe。打包的过程是非常痛苦的，因为你不知道什么时候会出现什么样不同的错误或警告。这不，一个DNS的警告直接给我干蒙了，我寻思我selenium的爬虫跟DNS有什么关系啊。反正就莫名其妙，但是呢你得解决，虽然不影响使用，但是输出的警告混杂日志输出，难免有那么一些不好看，而且后期排查错误也不好排查。

2022-12-26 14:10:41 2413 1

原创 Python中paddleocr打包时出现文件找不到的问题（已解决）

背景正在做的爬虫项目，其中需要使用ocr的功能去识别验证码。所以就使用了paddlocr，结果没想到后期这么大个坑。好在想到一个方法可能规避这个打包的问题。写这一篇文章主要是记录下在打包有paddlocr的时候的问题，及规避方法。方便给看到这篇博客及有同样问题的网友提供一个思路。

2022-12-08 19:56:40 2078 2

原创 linux下使用selenium调用谷歌浏览器的一些问题

# 谷歌浏览器版本查看google-chrome -version # 对应的chromedriver版本查看chromedriver -version版本对应的下载，参考谷歌chromedriver对应版本下载文章或chromedriver download 下载完成后可以选择设置成环境变量，也可以选择在代码中手动配置chromedriver的路径（ /usr/bin/ ）。各自选择各自方便的

2022-11-28 14:31:55 4057

原创 linux 功能性命令合集（持续更新）

【代码】linux 功能性命令合集（持续更新）一、文件类①：设置vim查看文件编码格式 ②：文件乱码 ②：后台运行py文件二、端口服务类 ①：查看进程 ②、查看网络服务（端口服务）

2022-10-27 11:24:44 859

原创 Python中的selenium库做爬虫一些关于元素找不到的问题

Python中的selenium库做爬虫一些关于元素找不到的问题出现elementfinderror异常情况大概分为以下几种： 1）查找元素本身不存在 2）元素的页面渲染跟不上速度 3）找到元素但不是最新的（常在首次进入页面刷新后出现的问题）

2022-10-24 15:03:15 3351

原创 linux安装chrome浏览器并初步使用

Python爬虫、linux、google、chrome、webdriver、缺少谷歌依赖问题

2022-10-18 14:23:22 2650

原创 Python爬虫自动识别验证码登陆

使用selenium先get到页面，截取登陆界面（包括验证码）。代码处理+ocr识别，自从输出验证码，再使用selenium定位到登陆元素，点击登陆即可。除上述之外还需做一个其他事情，就是假设验证码里包含x等形似数学运算符的，需要做一个判断来保持识别的准确率。

2022-09-19 10:26:51 1610

原创 Python使用selenium时使用find_elements_by_class_name导致找不到元素

在使用selenium爬虫时想找到页面中所有 class = c-id text-left 的元素，这个需求无疑是使用find_elements_by_class_name来查找，但是问题在于没有查找到，返回了一个空列表。也是上网看了下这个问题，大概意思是这个class属性有空格时表明他有多个个class属性，以本文的c-id text-left举例，class的属性有c-id及text-left两个，并不是一个整体。我总结的解决方法有两种。值得注意的是你必须要保证你放入的属性是你想找到元素的唯一。

2022-09-05 15:12:21 2367

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

windows本地hadoop环境包

linux谷歌安装包及依赖包

rdf2rdf-1.0.1-2.3.1.jar

apache-jena-fuseki-4.3.2

apache-jena-4.3.2

自动化机器学习h2o.jar

neo4j 图数据库下载包

空空如也