自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 资源 (5)
  • 收藏
  • 关注

原创 postgresql中分区表相关操作

二、创建分区表三、新增分区 3.1、新增分区 3.2、批量新增分区四、删除分区 4.1、删除分区4.2、批量删除分区五、查看分区表详情

2024-04-08 16:55:10 375

原创 datax数据入库模板

datax数据入库模板。txt2hive、txt2mysql

2024-01-30 14:30:07 504

原创 《小聪明》

字符串前补0 python安装包镜像网站 pip无法卸载包时 dataframe设置全行或全列显示 dataframe对某一列特征编码 dataframe任意位置插入一列值 sklearn算法,输出特征方程 解决dataframe写入csv会出现科学技术法的情况 dataframe行转列(行列互换) 正则找出两个特定字符中间的所有内容 正则匹配字符串中的中文内容 正则匹配括号里的内容 try捕获具体报错的行数及文件 升级pip ip地址转int类型 ip校验 特征归一化

2023-12-15 16:30:39 903

原创 windows环境运行datax缺少本地hadoop环境报错:Could not locate executable null\bin\winutils.exe

Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

2023-12-07 10:18:56 239

原创 python连接hive报错:TypeError: can‘t concat str to bytes

2.1、进入D:\Anaconda3\lib\site-packages\thrift_sasl\__init__.py文件。2.2、添加如下代码到第101行之前。

2023-11-20 11:47:54 521

原创 hive插入动态分区数据时,return code 2报错解决

如果上面语句没有解决,可以看下yarm配置,考虑是否是语句占用内存超过配置最大内存等等。大概率是因为没有开启允许动态分区或单次动态分区个数太小了。

2023-10-23 20:16:22 2039 1

原创 linux中单节点安装postgresql数据库

linux中单节点安装greenpl2、安装完后会在/usr/local/下新建greenplum-db的文件夹,里面就是我们的安装的greenplum客户端。1、拷贝greenplum安装包带的配置文件到/home/gpadmin/gpconfigs/下。1、首先切换到rpm安装包所在的路径,执行如下命令。5、数据存放路径设置用户权限。6、创建配置文件路径,并进入。4、source脚本文件。5、创建数据存放路径。7、新建两个配置文件。三、安装greenplum依赖包。六、安装greenplum安装包。

2023-10-10 18:48:01 560

原创 linux中Crontab定时参数

【代码】linux中Crontab定时参数。

2023-10-10 12:03:27 194

原创 Greeplum以每日一个区间,批量创建多个分区

如标题所示,现在需要建一张临时表来存储每日增量的流水数据。存储周期为近两年,其中日增量约1000W ~ 1200W,一年约40亿数据,两年90亿左右。经过讨论,决定用日分区的方式来建流水分区表。所以下一条语句衔接的时候一定要注意,如漏掉那么在插入当天数据的时候会提示分区找不到等错误。新建分区后,可以单独访问分区表里某一天分区数据。默认的分区名称是xxx_xxx_xxx_1_part_partition_name。则,分区表维持在近两年内即可,每日先增后删。2.2、循环创建每日的分区。2.4、删除特定分区。

2023-08-01 08:47:01 259

原创 postgresql报错:ERROR:field position must be greater than zero

知道报错的大概意思后,可以查看报错的sql语句。是不是有用某些函数处理字段,然后函数没用对的。大概意思是什么位置必须要大于0。

2023-05-09 15:28:52 386 1

原创 postgresql使用copy命令导入数据报错:ERROR:unterminated CSV quoted field

postgresql使用copy命令导入数据报错:ERROR:unterminated CSV quoted field

2023-05-04 10:50:37 1627

原创 python问题 —— 打印DataFrame出错(TypeError: ‘NoneType‘ object is not callable)

打印DataFrame出错(TypeError: 'NoneType' object is not callable)

2023-04-13 19:01:54 539

原创 使用conda更新python版本

原因是本来使用的是具有python3.6.3版本的conda环境,但是因为python内存堆栈溢出的bug问题。在更新的过程还是有几个细节需要注意下,这边做个记录。如果升级的python版本跨度太大,则要注意一些语法或函数参数在搞版本里是否有弃用更改等情况。如果在conda install python 不指定python=多少版本,那么会默认给你安装最新的。需要注意下环境变量下的anaconda3的目录位置。这时,虽然python版本是升级成功了,但是conda的版本跟python的版本又不兼容了。

2023-03-29 14:29:55 18802

原创 selenium自动获取cookies用于requests做接口请求爬虫

selenium可以用来模拟用户操作的python第三方包,而requests则是用来做接口请求。两者一结合,可能在某些方面优于单个包的爬虫。在requests请求时,我们都知道requests是需要headers信息。所以自动获取cookies等headers里关键信息就至关重要,而selenium因为是打开一个浏览器模拟用户操作的特性,使它能够获取到它自己打开的页面cookies。我们使用这个cookies传入requests,然后再使用requests做爬虫即可。​

2023-03-27 10:14:56 2128

原创 关于自动机器学习flaml训练时的一些报错

SyntaxError: future feature annotations is not definedImportError: cannot import name 'StratifiedGroupKFold'xgboost.core.XGBoostError: C:/Users/xxx/learner.cc:567: Check failed:mparam_.num_feature != 0 (0 vs. 0) : 0 feature is supplied. Are you using raw

2023-03-24 14:33:18 821

原创 python访问数据库的几种方式(pandas、pymysql)

Python连接数据库 pymsql sqlalchemy pandas to_sql read_sql

2023-03-14 11:22:01 1619

原创 pymysql读取数据库转换为dataframe时报错:ValueError: DataFrame constructor not properly called!

pymysql读取数据库转换为dataframe时报错:ValueError: DataFrame constructor not properly called!

2023-03-10 18:04:52 4566

原创 linux离线移植python环境,启动报错(ModuleNotFoundError: No module named ‘encodings‘;<no Python frame>)

Fatal Python error: init_fs_encoding: failed to get the Python codec of the filesystem encodingPython runtime state: core initializedModuleNotFoundError: No module named 'encodings'Current thread 0x00007fab36715740 (most recent call first):

2023-03-09 10:13:22 3182

原创 python使用requests提交post请求并上传文件(multipart/form-data)

python如何上传文件,使用requests的post上传文件。multipart/form-data格式上传。Content-Disposition: form-data; name="file"; filename="样本标签.xlsx"Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet

2023-02-24 12:00:55 20885 15

原创 python文件编译为pyc后运行

如果运行这个py文件,Python内部会先将源码文件(.py文件)编译成字节码(byte code)文件(.pyc文件)。总结来说,pyc是一个可执行的被编译后的py文件,其特点就是在运行时,可以省去python编译器去再次编译的时间,进而就优化了性能。编译后的pyc是可跨平台的,但是python的版本是不能跨的。比如你使用3.6版本去编译好的一个pyc文件,在另一个平台上也是需要使用3.6版本的。编译后会在有源码的目录下生成一个_pycache_目录,里面存放了当前目录下所有的编译后的pyc文件。

2023-02-22 16:21:34 1257

原创 selenium运行出现DNS警告:Faild to read DnsConfig.

最近需要开发一个爬虫工具,使用的是selenium做的。最终需要打包成exe。打包的过程是非常痛苦的,因为你不知道什么时候会出现什么样不同的错误或警告。这不,一个DNS的警告直接给我干蒙了,我寻思我selenium的爬虫跟DNS有什么关系啊。反正就莫名其妙,但是呢你得解决,虽然不影响使用,但是输出的警告混杂日志输出,难免有那么一些不好看,而且后期排查错误也不好排查。

2022-12-26 14:10:41 2413 1

原创 Python中paddleocr打包时出现文件找不到的问题(已解决)

背景正在做的爬虫项目,其中需要使用ocr的功能去识别验证码。所以就使用了paddlocr,结果没想到后期这么大个坑。好在想到一个方法可能规避这个打包的问题。写这一篇文章主要是记录下在打包有paddlocr的时候的问题,及规避方法。方便给看到这篇博客及有同样问题的网友提供一个思路。

2022-12-08 19:56:40 2078 2

原创 linux下使用selenium调用谷歌浏览器的一些问题

# 谷歌浏览器版本查看google-chrome -version # 对应的chromedriver版本查看chromedriver -version​版本对应的下载,参考谷歌chromedriver对应版本下载 文章或chromedriver download 下载完成后可以选择设置成环境变量,也可以选择在代码中手动配置chromedriver的路径( /usr/bin/ )。各自选择各自方便的

2022-11-28 14:31:55 4057

原创 linux 功能性命令合集(持续更新)

【代码】linux 功能性命令合集(持续更新)一、文件类①:设置vim查看文件编码格式 ②:文件乱码 ②:后台运行py文件二、端口服务类 ①:查看进程 ②、查看网络服务(端口服务)

2022-10-27 11:24:44 859

原创 Python中的selenium库做爬虫一些关于元素找不到的问题

Python中的selenium库做爬虫一些关于元素找不到的问题出现elementfinderror异常情况大概分为以下几种: 1)查找元素本身不存在 2)元素的页面渲染跟不上速度 3)找到元素但不是最新的(常在首次进入页面刷新后出现的问题)

2022-10-24 15:03:15 3351

原创 linux安装chrome浏览器并初步使用

Python爬虫、linux、google、chrome、webdriver、缺少谷歌依赖问题

2022-10-18 14:23:22 2650

原创 Python爬虫自动识别验证码登陆

使用selenium先get到页面,截取登陆界面(包括验证码)。代码处理+ocr识别,自从输出验证码,再使用selenium定位到登陆元素,点击登陆即可。除上述之外还需做一个其他事情,就是假设验证码里包含x等形似数学运算符的,需要做一个判断来保持识别的准确率。

2022-09-19 10:26:51 1610

原创 Python使用selenium时使用find_elements_by_class_name导致找不到元素

在使用selenium爬虫时想找到页面中所有 class = c-id text-left 的元素,这个需求无疑是使用find_elements_by_class_name来查找,但是问题在于没有查找到,返回了一个空列表。也是上网看了下这个问题,大概意思是这个class属性有空格时表明他有多个个class属性,以本文的c-id text-left举例,class的属性有c-id及text-left两个,并不是一个整体。我总结的解决方法有两种。值得注意的是你必须要保证你放入的属性是你想找到元素的唯一。

2022-09-05 15:12:21 2367

原创 爬虫模拟点击报错elenium.common.exceptions.ElementClickInterceptedException:Message:element click intercepted

Python爬虫,模拟鼠标点击时报错解决。selenium.common.exceptions.ElementClickInterceptedException: Message: element click intercepted

2022-09-02 11:51:15 496

原创 python使用flask搭建web服务

python搭建web服务。flask库的使用

2022-08-18 16:22:53 1862

原创 决策树结构的解析

对训练的树模型可视化如下所示:本文是想要把里面的结果,特征及运算关系、阈值等参数解析出来。

2022-08-17 10:56:30 389

原创 利用决策树找出最优特征组合

利用决策树进行特征组合,决策树的可视化。

2022-08-02 17:45:07 1236

原创 linux安装anaconda3环境

我们一般使用windows开发比较多,但确实有些场景需要用linux做开发。这时候就需要在linux里装下Python环境供自己开发。linux安装Python环境还是比较简单的,具体可分为如下几步骤: 1)下载适用于linux系统的anaconda安装包 2)然后放置linux中,执行安装脚本 3)配置环境变量 4)验证是否安装成功 下面根据上面四步来写本片文章一、下载包

2022-07-12 11:18:55 1618

原创 canopy+kmeans聚类模式

canopy算法kmeans算法canopy+kmeans

2022-07-08 11:26:07 2411 7

原创 Python实现Kmeans文本聚类

一、数据 数据来源于贴吧,使用爬虫爬取的。一句一行存入到txt中,接着我们要通过对每句话进行分词转向量,最后使用kmeans进行聚类并输出结果。二、代码 2.1、加载停用词 在stop_words目录下有多个停用词表,需要循环加总所有停用词。 2.2、加载数据 这边主要是对原始数据的一个筛选+jieba分词+去停用词。这是相对标准的一个流程。 2.3、计算tf-idf

2022-07-01 14:06:14 4074 1

原创 对句子分词,找到对应词的腾讯词向量模型并使用Python进行faiss检索

下载腾讯的词向量、停用词、代码部分 代码思想、输出结果 。句子相似检索,faiss检索。Python简单使用faiss检索相关向量。词转向量。word2vec

2022-06-28 14:38:19 1493 1

原创 python文件处理——图片转pdf

一、要求二、代码pdf from fpdf import FPDF三、结果输出 最终把img_dir_path下的所有图片合并成pdf,存放到os.path.join(img_dir_path, "out.pdf")。

2022-06-21 15:08:00 362

原创 python文件处理——pdf转图片

目录一、要求二、代码实现三、结果输出import fitzimport os 在原文件的同级目录创建一个以原文件名称+'_imgs'命名的文件夹,里面存放pdf中每一页的图片。

2022-06-20 16:21:55 391

原创 python文件处理——图片去水印

目录一、代码实现二、结果输出from itertools import productfrom PIL import Imageimport os 在原文件的同级目录生成一个加_drop_watermark的图片文件

2022-06-20 16:04:54 281

原创 python文件处理——pdf解密

目录一、代码实现二、程序输出python文件处理——pdf解密import pyPDF4import pikepdf 在输入文件的同级目录生成一个加了_decode的pdf文件

2022-06-20 15:58:02 577 6

windows本地hadoop环境包

windows环境本地运行datax所需hadoop环境包 1、解压到任意盘 2、配置环境变量 3、重启电脑生效

2023-12-07

linux谷歌安装包及依赖包

资源主要用于在centos7系统上安装谷歌浏览器 内容有谷歌浏览器包及谷歌浏览器依赖包

2022-10-18

rdf2rdf-1.0.1-2.3.1.jar

用于将owl文件转换为nt文件的三元组jar包

2022-03-10

apache-jena-fuseki-4.3.2

一个 SPARQL 服务器。它可以作为操作系统服务、Java Web 应用程序(WAR 文件)和独立服务器运行

2022-03-10

apache-jena-4.3.2

免费的开源 Java 框架,用于构建语义 Web和关联数据应用程序。

2022-03-10

自动化机器学习h2o.jar

自动化机器学习h2o启动jar包

2022-03-09

neo4j 图数据库下载包

下载后解压到电脑任意盘。 启动时进入bin目录后cmd打开当前文件夹,输入 neo4j.bat console 启动。 免费下载。

2022-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除