孔胖-CSDN博客

原创 JPX Tokyo Stock Exchange Prediction总结篇-无泄漏0.3分以上经验分享-20220714

日本交易所JPX举办，要求根据日本市场的金融数据进行建模，预测模型训练完成后一段时间段内的真实收益情况。

2022-07-19 22:15:00 1869 9

原创 hahahaha发到这里吧

恭喜在座的各位，一直以为这次比赛public和private排名会相差不大，结果前6有4个人都是从银牌歘一下上来的，想象地到他们看到结果时的喜悦。

2023-11-18 08:21:26 152

原创一篇前段时间使用评分卡的总结_20231022

先大概看一下有哪些应用范畴，好的话可以专门开一篇介绍。（还放了两片文章，好像和流数据分箱相关，另外这个库的教程写的不是很全面，如后面涉及optimal piecewise binning的OptimalPWBinning，感觉他描述的并不是很全面，需要结合他的文章再看一下才能理解它这个piecewise的概念（目前看感觉是不均匀的分箱，每段分箱间距都不一样！！！

2023-10-22 14:44:27 191

原创 python-create_engine插入数据库编码问题-20230831

报错：UnicodeEncodeError: ‘charmap’ codec can’t encode characters in position 82-83: character maps to。去pypi下载一个合适的mysqlclient放到anaconda的sitepackage下面即可。另：今天create_engine刚开始用的时候会报找不到mysqldb的问题。发现之前还有好多linux设置定时任务的小技巧没有整理上来。一年没打鱼了，争取后面4个月疯狂收割：)

2023-08-31 22:35:12 324

原创 mac安装hive_20230609

竟然是今年第一篇hhhh过两天把上半年的东西梳理好的话陆续放上来吧～公司本地测试环境的hive版本不支持不等式关联操作，而现在用hive也比较多，所以在本地装了一个hive，主要写一下大致步骤和过程中遇到的问题～🐣🐣🐣并详细记录一下后续启动hive服务时的操作。

2023-06-12 23:00:00 1140

原创 prophet模块学习总结-20221228

Prophet是 Facebook 2017 年的工作——高质量且简单易用的时间预测模型。适用于大规模的时序预测模型。它不仅解决了时序预测的建模问题，还解决了模型的可解释性问题。Prophet是基于可分解（趋势+季节+节假日）模型的开源库。它让我们可以用简单直观的参数进行高精度的时间序列预测，并且支持自定义季节和节假日的影响。用于分析和预测周期性数据时，一种强大而简单的方法是加法模型（additive model）。

2022-12-28 22:45:00 1264 1

原创 hive最近的学习汇总-20221110

hive建表（分区分桶），常用查询语句

2022-11-10 22:30:00 853

原创 git下载太慢的简单解决方案-20220501

实在受不了git clone太慢了查了一下有没有加速的方法根据最新的总结，网上目前有以下几种方法：用镜像地址都试过了，看别人评论也说的是都过期了改host文件，原来试过，又重新添加了一些，作用不大(查ip的地址可以参考这里)可以参考这个人的，也可能我没改全https://blog.csdn.net/weixin_30408739/article/details/99524014?utm_medium=distribute.pc_relevant.none-task-blog-2defau

2022-05-01 17:56:17 1256

原创 python_正则表达式不匹配某些字样-2022.2.24

业务需求，需要大致匹配出来——表达“什么时候学习”这样字段的句子可能会出现：但不匹配 “学习” 后面出现 “金额，补偿”等字样的句子如：第一个 .* 匹配中间可能出现的可以，能够之类的词语补充学习内容：零宽负向先行断言和零宽负向后行断言(?!exp)：零宽负向先行断言，只会匹配后缀exp不存在的位置(?<!exp)零宽负向后行断言，用来查找前缀exp不存在的位置所以第二个.*满足了我们后续的文本一旦出现金额类字样就过滤掉的要求第二条没有匹配出来

2022-03-04 14:37:54 1404

原创 python_连接oracle报错ORA-12505

报错详情为：ORA-12505,TNS:listener does not currently know of SID given in connect descriptor报错的提示为不清楚这个SID错误可能1一部分是未使用正确的SID，需要另行确认正确的SID，如果是正确的，且使用的是SID连接的话，则需要数据库服务器端修改listener.ora文件，具体修改参照文档：文档链接文档链接2文档链接3关于listerner.ora文件和tnsnames.ora文件错误可能2Py

2022-01-05 11:26:23 1848

原创奇安信Python动态解析代码-2021.12.17

项目上线需要通过奇安信代码扫描，缺陷信息主要如下：python允许用户动态的执行指令，当这一功能被恶意用户利用，就会发生动态解析代码攻击。示例给的是：op = request.GET['operation']result = eval(op)这个解决办法很简单：直接把传过来的字符串改为import astop = request.GET['operation']result = ast.literal_eval(op)...

2021-12-17 20:45:00 941

原创奇安信Python反射型XSS解决办法-2021.12.17

项目上线需要通过奇安信代码扫描，在网络上没有找到Python的具体解决办法，参考别人的博客试了一下，通过了代码测试缺陷的详细信息为：应用程序通过web请求获取不可信的数据，在未检验数据是否存在恶意代码的情况下，便将其传送给了web用户，应用程序将容易受到反射型xss攻击。示例：name = request.GET['name']return 'username:'+name如果name里包含恶意代码，那么web浏览器就会执行该代码，应用程序将受到反射型xss攻击。修复建议：1.输入验证(比

2021-12-17 16:23:10 2033

原创 Python-filter用法-2021.10.27

filter用来过滤列表中不要的元素比较方便，原来笔记记过，但没怎么用这次详细列一下filter——把非True的内容过滤掉filter(function or none , iterable)# eg1：前面为none,把后面数据筛选出来(True)list(filter(None,[1,0,False,True]))[1,True]# eg2:前面为函数，后面迭代数据相当于函数数据def odd(x): return x%2temp = range(10)show =

2021-10-28 08:59:02 793

原创 Python-汉字的数值转为阿拉伯数字-2021.10.27

cn2an模块介绍：当时没看详细介绍，还另写了一个匹配，刚为了写总结，发现人家模块写的非常完善好用，不用自己加工，看例子吧简单例子：strict模式(严格匹配)# 在strict模式下，只有严格符合数字拼写才可以转换try: output_s = cn2an.cn2an("一百五十五","strict") # √ print(output_s)except ValueError: print('输入有误') try: output_s = cn2an

2021-10-28 08:57:12 488

原创 Python-flask同时启动两个端口服务-2021.10.27

在服务器上同时开启两个flask服务，内存消耗过高，导致其中一个服务总是过一段时间就挂掉于是尝试将两个Python的flask服务合并到一个脚本里，只启动一个Python进程，原来两个脚本里的两个端口仍保持不变测试demofrom flask import Flaskfrom threading import Threadimport osapp1 = Flask('app1')@app1.route('/')def foo(): return '1'Thread(targe

2021-10-28 08:51:26 5808 9

原创 Python_对dataframe两列同时操作_20210219

遇到的问题是两个字符串拼接，查到了三种对多列同时操作的方法，其中两种可用生成列表，可直接填充为df中一列df['new_col']=list(map(lambda x,y: function(x,y), df['col1'], df['col2']))参考见：https://blog.csdn.net/tonylorn/article/details/85017221?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFro

2021-10-28 08:41:49 1158

原创 Python-eval小记-字符串转列表-2021.10.27

原来用eval将字符串转过字典，但没有好好看过这个方法今天查了一下，介绍是eval() 函数用来执行一个字符串表达式，并返回表达式的值。可以看https://www.runoob.com/python/python-func-eval.html，这样该方法的执行范围就宽了很多下面主要记录前段时间用到的很好的一个技巧因为业务场景需要，要将很多连续，或者无规律的数值记录在数据库里，然后在脚本中将存储的字符串再转为列表格式进行运算。示例range(1,4)[2,3,8]

2021-10-28 08:38:12 334

原创 Python-正则表示汉字数字-2021.9.17

一个可能不怎么准确的表示方法，但业务上可能遇到的不同表示形式的汉字数值都可以找出来(一百二十三，一二三等)正确表示都会匹配不正确的也会读出来只匹配到了百位，因为业务上只到了百位[一|二|三|四|五|六|七|八|九|十]?[百]?[一|二|三|四|五|六|七|八|九|十]?[一|二|三|四|五|六|七|八|九|十][一|二|三|四|五|六|七|八|九|十]?match_pile = re.compile('[一|二|三|四|五|六|七|八|九|十]?[百]?[一|二|三|四|五|六|七|

2021-10-28 08:34:18 661 2

原创 python-dataframe空值去不掉的问题,dropna,fillna不起作用-2021.8.31

强制把NaT或者Nan替换为None，这样再对None做处理object这是一种通用的数据类型。在没有明确的指定类型的情况下，所有的数据都可以认为是object类型。dfTest2 = pd.DataFrame(dict(InvoiceDate=pd.to_datetime(['2017-06-01', pd.NaT])))dfTest2.InvoiceDate.astype(object).where(dfTest2.InvoiceDate.notnull(), None)0 2017-

2021-08-31 11:55:35 1686

原创 python_dataframe存入oracle很慢-2021.8.23

很慢的原因：主要是varchar转为clob存入，数据长度太长通过sqlalchemy中的types将所有的varchar类型固定为varchar格式from sqlalchemy import create_engine,typesengine = create_engine('oracle://ycr:[email protected]:1521/stock')#设置写入类型，不然默认是用CLOB类型写入，内置的类型转换很慢，小量数据无所谓dtyp = {c:types.VARCHAR

2021-08-26 17:36:53 526

原创 python-网格搜索数据格式问题-2021.7.22

第一次直接输入的拆分开的dataframe数据features和outcomes但是在报错了，具体代码为：grid_obj = GridSearchCV(clf,parameters,scoring=scorer)grid_fit = grid_obj.fit(X_train,y_train)具体报错信息为：IndexError: too many indices for array: array is 1-dimensional, but 2 were i…就是要一维数据给的二维的但这里给

2021-07-23 17:19:28 311 1

原创 Python-pydicom读取dcm文件报错-2021.6.5

读取别的文件的时候都好好的，在读一个小文件的时候，报错。具体报错如下：RuntimeError: The following handlers are available to decode the pixel data however they are missing required dependencies: GDCM (req. GDCM), pylibjpeg (req. )解决方法：下载安装pylibjpeg打开cmd，pip install pylibjpeg pylibjpeg-l

2021-06-05 16:00:57 2851 4

原创 python-读取dcm文件-2021.5.24

读取dcm文件# 采用pydicom模块import pydicom# 数据路径file_path = r"C:\Users\孔啊吱\Desktop\kaggle_covid19\data\3dcdfc352a06.dcm"# read_filedata0 = pydicom.read_file(file_path)# file_data = data0.pixel_array# print(file_data)# dcmreaddata1 = pydicom.dcmread(f.

2021-06-02 17:00:42 6316 3

原创 python-jdbc同时连接两个不同的数据库-2021.5.24

因为需要JayDeBeApi连接hive和oracle两个数据库先连接一个，再连接另一个的时候会报错参考添加链接描述给出的解决方案将两个jar包依赖放到一个列表里面就可以了~另外：使用JayDeBeApi连接的时候可能会报这个错Class oracle.jdbc.OracleDriver is not found这个问题可能造成的原因之一是：因为连接的jar包文件路径——jarFile中带有中文放到一个不带中文的路径下运行就可以了！！！大家可以试一下~...

2021-05-24 17:57:22 617

原创 navicat连本地oracle报错：ORA-12514

这个问题一定要记录一下原来可以连上本地的oracle，突然连接不上了报错为：ORA-12514: TNS:listener does not currently know of service requested inconnect descriptor在网上试了几种方法，差点准备卸载oracle重新安装了结果打开任务管理器，把对应的oracle服务全部开启以后就好了还好没有卸载重新下载！！！不然卸载不干净估计更麻烦...

2021-05-14 16:14:50 585

原创 python-向es存数据，数据类型报错-2021.5.11

第一次建表的时候，是直接打包的数据存进去的es直接根据传入数据确定里各字段的类型(日期类型转为了日期存进去，再次插入的时候是字符串，所以报错)当再次从别的地方存入数据时，出现字段类型不匹配报错为：‘error’: {‘type’: ‘mapper_parsing_exception’, ‘reason’: “failed to parse field [起始日期] of type [date] in document with id ‘PxqwEnkBj49MCEb4LDfv’. Preview o

2021-05-11 13:58:56 1512 2

空空如也

空空如也