自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(130)
  • 收藏
  • 关注

原创 JPX Tokyo Stock Exchange Prediction总结篇-无泄漏0.3分以上经验分享-20220714

日本交易所JPX举办,要求根据日本市场的金融数据进行建模,预测模型训练完成后一段时间段内的真实收益情况。

2022-07-19 22:15:00 1869 9

原创 hahahaha发到这里吧

恭喜在座的各位,一直以为这次比赛public和private排名会相差不大,结果前6有4个人都是从银牌歘一下上来的,想象地到他们看到结果时的喜悦。

2023-11-18 08:21:26 152

原创 一篇前段时间使用评分卡的总结_20231022

先大概看一下有哪些应用范畴,好的话可以专门开一篇介绍。(还放了两片文章,好像和流数据分箱相关,另外这个库的教程写的不是很全面,如后面涉及optimal piecewise binning的OptimalPWBinning,感觉他描述的并不是很全面,需要结合他的文章再看一下才能理解它这个piecewise的概念(目前看感觉是不均匀的分箱,每段分箱间距都不一样!!!

2023-10-22 14:44:27 191

原创 python-create_engine插入数据库编码问题-20230831

报错:UnicodeEncodeError: ‘charmap’ codec can’t encode characters in position 82-83: character maps to。去pypi下载一个合适的mysqlclient放到anaconda的sitepackage下面即可。另:今天create_engine刚开始用的时候会报找不到mysqldb的问题。发现之前还有好多linux设置定时任务的小技巧没有整理上来。一年没打鱼了,争取后面4个月疯狂收割 :)

2023-08-31 22:35:12 324

原创 mac安装hive_20230609

竟然是今年第一篇hhhh过两天把上半年的东西梳理好的话陆续放上来吧~公司本地测试环境的hive版本不支持不等式关联操作,而现在用hive也比较多,所以在本地装了一个hive,主要写一下大致步骤和过程中遇到的问题~🐣🐣🐣并详细记录一下后续启动hive服务时的操作。

2023-06-12 23:00:00 1140

原创 prophet模块学习总结-20221228

Prophet是 Facebook 2017 年的工作——高质量且简单易用的时间预测模型。适用于大规模的时序预测模型。它不仅解决了时序预测的建模问题,还解决了模型的可解释性问题。Prophet是基于可分解(趋势+季节+节假日)模型的开源库。它让我们可以用简单直观的参数进行高精度的时间序列预测,并且支持自定义季节和节假日的影响。用于分析和预测周期性数据时,一种强大而简单的方法是加法模型(additive model)。

2022-12-28 22:45:00 1264 1

原创 hive最近的学习汇总-20221110

hive建表(分区分桶),常用查询语句

2022-11-10 22:30:00 853

原创 git下载太慢的简单解决方案-20220501

实在受不了git clone太慢了查了一下有没有加速的方法根据最新的总结,网上目前有以下几种方法:用镜像地址都试过了,看别人评论也说的是都过期了改host文件,原来试过,又重新添加了一些,作用不大(查ip的地址可以参考这里)可以参考这个人的,也可能我没改全https://blog.csdn.net/weixin_30408739/article/details/99524014?utm_medium=distribute.pc_relevant.none-task-blog-2defau

2022-05-01 17:56:17 1256

原创 python_正则表达式不匹配某些字样-2022.2.24

业务需求,需要大致匹配出来——表达“什么时候学习”这样字段的句子可能会出现:但不匹配 “学习” 后面出现 “金额,补偿”等字样的句子如:第一个 .* 匹配中间可能出现的 可以,能够 之类的词语补充学习内容:零宽负向先行断言 和 零宽负向后行断言(?!exp):零宽负向先行断言,只会匹配后缀exp不存在的位置(?<!exp)零宽负向后行断言,用来查找前缀exp不存在的位置所以第二个.*满足了我们后续的文本 一旦出现金额类字样 就过滤掉的要求第二条没有匹配出来

2022-03-04 14:37:54 1404

原创 python_连接oracle报错ORA-12505

报错详情为:ORA-12505,TNS:listener does not currently know of SID given in connect descriptor报错的提示为不清楚这个SID错误可能1一部分是未使用正确的SID,需要另行确认正确的SID,如果是正确的,且使用的是SID连接的话,则需要数据库服务器端修改listener.ora文件,具体修改参照文档:文档链接文档链接2文档链接3关于listerner.ora文件和tnsnames.ora文件错误可能2Py

2022-01-05 11:26:23 1848

原创 奇安信Python动态解析代码-2021.12.17

项目上线需要通过奇安信代码扫描,缺陷信息主要如下:python允许用户动态的执行指令,当这一功能被恶意用户利用,就会发生动态解析代码攻击。示例给的是:op = request.GET['operation']result = eval(op)这个解决办法很简单:直接把传过来的字符串 改为import astop = request.GET['operation']result = ast.literal_eval(op)...

2021-12-17 20:45:00 941

原创 奇安信Python反射型XSS解决办法-2021.12.17

项目上线需要通过奇安信代码扫描,在网络上没有找到Python的具体解决办法,参考别人的博客试了一下,通过了代码测试缺陷的详细信息为:应用程序通过web请求获取不可信的数据,在未检验数据是否存在恶意代码的情况下,便将其传送给了web用户,应用程序将容易受到反射型xss攻击。示例:name = request.GET['name']return 'username:'+name如果name里包含恶意代码,那么web浏览器就会执行该代码,应用程序将受到反射型xss攻击。修复建议:1.输入验证(比

2021-12-17 16:23:10 2033

原创 Python-filter用法-2021.10.27

filter用来过滤列表中不要的元素比较方便,原来笔记记过,但没怎么用这次详细列一下filter——把非True的内容过滤掉filter(function or none , iterable)# eg1:前面为none,把后面数据筛选出来(True)list(filter(None,[1,0,False,True]))[1,True]# eg2:前面为函数,后面迭代数据相当于函数数据def odd(x): return x%2temp = range(10)show =

2021-10-28 08:59:02 793

原创 Python-汉字的数值转为阿拉伯数字-2021.10.27

cn2an模块介绍:当时没看详细介绍,还另写了一个匹配,刚为了写总结,发现人家模块写的非常完善好用,不用自己加工,看例子吧简单例子:strict模式(严格匹配)# 在strict模式下,只有严格符合数字拼写才可以转换try: output_s = cn2an.cn2an("一百五十五","strict") # √ print(output_s)except ValueError: print('输入有误') try: output_s = cn2an

2021-10-28 08:57:12 488

原创 Python-flask同时启动两个端口服务-2021.10.27

在服务器上同时开启两个flask服务,内存消耗过高,导致其中一个服务总是过一段时间就挂掉于是尝试将两个Python的flask服务合并到一个脚本里,只启动一个Python进程,原来两个脚本里的两个端口仍保持不变测试demofrom flask import Flaskfrom threading import Threadimport osapp1 = Flask('app1')@app1.route('/')def foo(): return '1'Thread(targe

2021-10-28 08:51:26 5808 9

原创 Python_对dataframe两列同时操作_20210219

遇到的问题是两个字符串拼接,查到了三种对多列同时操作的方法,其中两种可用生成列表,可直接填充为df中一列df['new_col']=list(map(lambda x,y: function(x,y), df['col1'], df['col2']))参考见:https://blog.csdn.net/tonylorn/article/details/85017221?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFro

2021-10-28 08:41:49 1158

原创 Python-eval小记-字符串转列表-2021.10.27

原来用eval将字符串转过字典,但没有好好看过这个方法今天查了一下,介绍是eval() 函数用来执行一个字符串表达式,并返回表达式的值。可以看https://www.runoob.com/python/python-func-eval.html,这样该方法的执行范围就宽了很多下面主要记录前段时间用到的很好的一个技巧因为业务场景需要,要将很多连续,或者无规律的数值记录在数据库里,然后在脚本中将存储的字符串再转为列表格式进行运算。示例range(1,4)[2,3,8]

2021-10-28 08:38:12 334

原创 Python-正则表示汉字数字-2021.9.17

一个可能不怎么准确的表示方法,但业务上可能遇到的不同表示形式的汉字数值都可以找出来(一百二十三,一二三等)正确表示都会匹配不正确的也会读出来只匹配到了百位,因为业务上只到了百位[一|二|三|四|五|六|七|八|九|十]?[百]?[一|二|三|四|五|六|七|八|九|十]?[一|二|三|四|五|六|七|八|九|十][一|二|三|四|五|六|七|八|九|十]?match_pile = re.compile('[一|二|三|四|五|六|七|八|九|十]?[百]?[一|二|三|四|五|六|七|

2021-10-28 08:34:18 661 2

原创 python-dataframe空值去不掉的问题,dropna,fillna不起作用-2021.8.31

强制把NaT或者Nan替换为None,这样再对None做处理object这是一种通用的数据类型。在没有明确的指定类型的情况下,所有的数据都可以认为是object类型。dfTest2 = pd.DataFrame(dict(InvoiceDate=pd.to_datetime(['2017-06-01', pd.NaT])))dfTest2.InvoiceDate.astype(object).where(dfTest2.InvoiceDate.notnull(), None)0 2017-

2021-08-31 11:55:35 1686

原创 python_dataframe存入oracle很慢-2021.8.23

很慢的原因:主要是varchar转为clob存入,数据长度太长通过sqlalchemy中的types将所有的varchar类型固定为varchar格式from sqlalchemy import create_engine,typesengine = create_engine('oracle://ycr:[email protected]:1521/stock')#设置写入类型,不然默认是用CLOB类型写入,内置的类型转换很慢,小量数据无所谓dtyp = {c:types.VARCHAR

2021-08-26 17:36:53 526

原创 python-网格搜索数据格式问题-2021.7.22

第一次直接输入的拆分开的dataframe数据features和outcomes但是在报错了,具体代码为:grid_obj = GridSearchCV(clf,parameters,scoring=scorer)grid_fit = grid_obj.fit(X_train,y_train)具体报错信息为:IndexError: too many indices for array: array is 1-dimensional, but 2 were i…就是要一维数据给的二维的但这里给

2021-07-23 17:19:28 311 1

原创 Python-pydicom读取dcm文件报错-2021.6.5

读取别的文件的时候都好好的,在读一个小文件的时候,报错。具体报错如下:RuntimeError: The following handlers are available to decode the pixel data however they are missing required dependencies: GDCM (req. GDCM), pylibjpeg (req. )解决方法:下载安装pylibjpeg打开cmd,pip install pylibjpeg pylibjpeg-l

2021-06-05 16:00:57 2851 4

原创 python-读取dcm文件-2021.5.24

读取dcm文件# 采用pydicom模块import pydicom# 数据路径file_path = r"C:\Users\孔啊吱\Desktop\kaggle_covid19\data\3dcdfc352a06.dcm"# read_filedata0 = pydicom.read_file(file_path)# file_data = data0.pixel_array# print(file_data)# dcmreaddata1 = pydicom.dcmread(f.

2021-06-02 17:00:42 6316 3

原创 python-jdbc同时连接两个不同的数据库-2021.5.24

因为需要JayDeBeApi连接hive和oracle两个数据库先连接一个,再连接另一个的时候会报错参考添加链接描述给出的解决方案将两个jar包依赖放到一个列表里面就可以了~另外:使用JayDeBeApi连接的时候可能会报这个错Class oracle.jdbc.OracleDriver is not found这个问题可能造成的原因之一是:因为连接的jar包文件路径——jarFile中带有中文放到一个不带中文的路径下运行就可以了!!!大家可以试一下~...

2021-05-24 17:57:22 617

原创 navicat连本地oracle报错:ORA-12514

这个问题一定要记录一下原来可以连上本地的oracle,突然连接不上了报错为:ORA-12514: TNS:listener does not currently know of service requested inconnect descriptor在网上试了几种方法,差点准备卸载oracle重新安装了结果打开任务管理器,把对应的oracle服务全部开启以后就好了还好没有卸载重新下载!!!不然卸载不干净估计更麻烦...

2021-05-14 16:14:50 585

原创 python-向es存数据,数据类型报错-2021.5.11

第一次建表的时候,是直接打包的数据存进去的es直接根据传入数据确定里各字段的类型(日期类型转为了日期存进去,再次插入的时候是字符串,所以报错)当再次从别的地方存入数据时,出现字段类型不匹配报错为:‘error’: {‘type’: ‘mapper_parsing_exception’, ‘reason’: “failed to parse field [起始日期] of type [date] in document with id ‘PxqwEnkBj49MCEb4LDfv’. Preview o

2021-05-11 13:58:56 1512 2

原创 python-共现矩阵(共词矩阵)计算

共现矩阵(共词矩阵):统计文本中两两词组之间共同出现的次数,以此来描述词组间的亲密度code(我这里求的对角线元素为该字段在文本中出现的总次数):import pandas as pddef gx_matrix(vol_li): # 整合一下,输入是df列,输出直接是矩阵 names = locals() all_col0 = [] # 用来后续求所有字段的集合 for row in vol_li: all_col0 += row f.

2021-04-20 13:45:00 7735 22

原创 python-dropna不起作用问题解决

因为存在空字符串,所以dropna去不掉用replace把空字符串替换为np.nan但要注意replace的写法,别乱写(* ̄︶ ̄)pleasedf_need = df1[["id","条件"]].replace('',np.nan).dropna(how='any',subset=["条件"]).reset_index(drop=True) # 只要条件为空,则删掉该行...

2021-04-02 17:48:25 3005

原创 python-字典中嵌套字典,全部拆开转为dataframe格式

主要解决字典中嵌套字典,需要全部转为dataframe格式的问题step1,先将外部大字典转为dataframe格式[{'xh':1,'content':{'param1':'段落1','param2':'段落2'}},{'xh':2,'content':{'param1':'段落3','param2':'段落4'}}]输入为字典组成的列表pp = pd.DataFrame.from_dict(dic_temp)转dataframe格式后step2:提取拆开的列名列.

2021-04-02 17:33:43 6212

原创 使用flask_sqlalchemy问题解决-2021.3.26

初次运行报错,遇到的问题是:TypeError:'twophase' is an invalid keyword argumet for this function解决问题参考博主:https://blog.csdn.net/DYyunzhongxian/article/details/102521288/主要问题是版本问题,要升级一下cx_oracle、sqlalchemy查看cx_oracle升级了一下sqlalchemy接着第二个问题报错:sqlalchemy.

2021-03-26 18:02:55 558

原创 flask连接数据库(flask_sqlalchemy)-2021.3.26

flask连接数据库(flask_sqlalchemy)文章目录flask连接数据库(flask_sqlalchemy)1.导入扩展类2.设置数据库URI3.创建数据库模型(db_try.py)4.建表5.插入数据6.查询7.删除8.更新1.导入扩展类Flask 有大量的第三方扩展,这些扩展可以简化和第三方库的集成工作。 Flask-SQLAlchemy 可以方便操作数据库。from flask_sqlalchemy import SQLAlchemy # 导入扩展类app = Flask(_

2021-03-26 17:37:02 363 1

原创 ES数据库入门(elasticsearch上手指南)-2021.3.26

ES数据库文章目录ES数据库一、入门1.索引2.搜索- 检索文档(id匹配)- 轻量搜索(Query-string 搜索)- 使用查询表达式搜索- 更复杂的搜索(添加过滤)- 全文搜索- 短语搜索- 高亮搜索- 分析(聚合功能aggregation)一、入门1.索引索引:名词时,类似于传统数据库中的数据库概念;​ 动词类似于插入这一概念。eg:对于员工目录,我们将做如下操作:每个员工索引一个文档,文档包含该员工的所有信息。每个文档都将是 employee 类型 。该类型位于 索引

2021-03-26 17:00:55 6151

原创 git命令汇总导图-最简版(待完善)-2021.03.16

2021-03-16 13:46:39 90

原创 Python-字符串回车去不掉问题

问题:从数据库获取了一条数据,回车怎么都去不掉,尝试了各种方法最后用chr(10)进行了替换。Python中常见的回车表示’\n’:x.replace('\n','\t')’\r’:x.replace('\r','\t')一般一种不行尝试另一种就可以了,也可用notepad++查看字符中的回车类型。(CR表示’\r’;LF表示’\n’)查看方式可见https://jingyan.baidu.com/article/48206aea814786216ad6b39e.html但遇到的字符串进

2021-03-05 11:35:05 975

原创 Python-输出的字符中包含%s,%d等格式化输出的特殊表达

输出的字符串里面包含格式化字符串的内容(SqlServer中日期相关的语句)例如 包含%s,%d问题:是在自动生成datax的脚本里面需要写入时间转换的语句语句为: "where": "时间字段> DATE_FORMAT('${sysdate}','%Y-%m-%d %H:%i:%S')",包含 %Y,%m等正常写入,报错为TypeError: not enough arguments for format string查阅资料后,上述的%Y-%m-%d %H:%i:%S 中的%均需要

2021-01-26 17:56:29 625

原创 如何将自己写的软件包放到Pypi上面!-2021.1.11

可以将自己写的实用的代码封装成包,放到Pypi上,分享出去。需要:写好的代码在PyPI 和 Test PyPI上面注册(用户名起的简单好记一点,后续要经常用到)(这两个都要注册哦~)PyPI:https://pypi.org/ 需要最终放置软件包的地方Test PyPI:https://test.pypi.org/ 测试的地方-下载好twinepip install twine正式步骤:以我自己做的一个小程序为例:本地创建一个目录,专门放文件,目录名为模块名(我的模块名为db_

2021-01-12 17:57:36 203

原创 hive-update问题(实现hive一列的更新,给hive插入当前时间)

问题:想在hive中给数据增加一列时间字段,这一列插入的是当前时间updatehive仅支持 update tablename set col_name=‘value’不支持update+select的组合要支持带查询的update的话使用merge intoUPDATE `table_d` SET inserttime='2020-12-15 10:41:00' WHERE 1=1;将inserttime列全部改为固定时间merge intohive查询当前时间SELECT.

2021-01-06 17:44:17 9007

原创 import _jpype:Python导入jaydebeapi报错

我以为今天下午的工作节奏是sousousou的,结果换了台电脑,jdbc又导入不进来……因为是第二次在导入jaydebeapi过程中遇到问题,所以写一下处理的步骤报错见图:Stack Overflow查的结果是无法正确指定jvm路径因为这个机子是个还没配置过的新机子,所以下载了jdk进行配置安装及配置的详细教程:https://www.cnblogs.com/liuhongfeng/p/4177568.html(下载链接中的对应版本java se开发包(需要注册一下orac..

2020-12-17 17:38:44 1024

原创 postgresql数据库及表信息,字段查询

查询pgsql数据库(及其大小)select pg_database.datname, pg_size_pretty (pg_database_size(pg_database.datname)) AS size from pg_database;以本地postgres库为例结果:[(‘postgres’, ‘7723 kB’), (‘test’, ‘7683 kB’), (‘template1’, ‘7521 kB’), (‘template0’, ‘7521 kB’)]查询pgsql数.

2020-12-09 09:44:26 4943

原创 mysql数据库及表信息,字段查询

查询mysql所有数据库show databases;查询mysql数据库下的表及相关中文注释等信息select table_name from information_schema.tables where table_schema='information_schema' ;--或者show tables;查询mysql表有哪些字段,字段类型,中文注释等信息select * from information_schema.columns where table_schema.

2020-12-09 09:31:48 254

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除