自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mtj66的博客,交流WX:SpringBreeze1104

一个开发的进阶历程

  • 博客(363)
  • 资源 (15)
  • 收藏
  • 关注

原创 内推专栏来了

一>技术部:Java工程师、Web工程师、iOS工程师、python工程师、算法(nlp)工程师、測试工程师。->风险管理部:风控策路分析师(印尼复货、国内-AP1&复货&首贷)、风控算法工程师、风控数据分析师、风控产品经理。->海外拓展部:Java工程师(墨西哥)->市场运营部:商务经理。->产品部:产品经理 同时有大厂的内推途径,需要的联系我,

2022-10-13 16:20:22 164

原创 投资笔记3-建立资产认知

https://www.toutiao.com/i6918759419811627531/最近在研究外汇交易导致几天的停更。哈哈,之后有稳定收益再普及相关的知识。说到投资,有很多方法,比如集邮,金石玉器投资,店铺投资,做生意等。但是今天主要聊聊常见的流动性相对比较好的资产投资:1)基金投资,2)股票投资,3)房地产投资。从会计角度来讲,一个人的财富=资产-负债,财富既然受到两个因素的影响,那么如果想要让自己变得富有,就必须想办法来开源节流,但是这只是常规做法。但是一个有财商的人会有其他的方法来实

2021-01-21 22:00:44 1319

原创   投资笔记2-从小白到理财达人的成长之路

https://www.toutiao.com/i6916533117813588492/总结下自己的学习历程,走的路有的对有的错,走对了路不要得意,之后的路还很长,走错的路就当是迷途知返,继续整装前行,迎接光明。走对的路有:1、读价投书籍并思考,主要是学习前人成熟的投资方案,可以打通长期盈利的底层逻辑,让自己成为掌握 2、关注公司研究的公众号,别人提供的是研究方法,也能有效的筛选好公司,自己也能学习分析方法 3、同他人交流,有效的将自己所学知识表达出来,从而将所学的知识内化为认知 4、.

2021-01-12 10:44:28 234

原创 有什么方法能缓解特征PSI不稳定的问题

由于时间跨度比较大,很难保证特征稳定性,可以考虑对时间加权,对PSI的筛选放宽一些。

2024-04-10 14:58:30 390

原创 null_importance 优化

复用数据dtrain,从而优化数据构建时间。

2024-04-09 14:19:10 277

原创 pandas.concat注意事项

1、可以考虑df.reset_index(drop=True,inplace=True)否则可能报错,只是说数据大小超出内存限制,但是shape没问题,数据记录数多了很多。由于df1和df2有各自的索引,假设都是从0~N。此时df的索引就会有重复,如果不使用索引还好。如果在后面不小心使用索引,此时需要重置索引。

2024-03-20 14:29:18 171 1

原创 python 普通for循环和增强for循环性能差异

第一版使用增强for,第二版使用普通for,增强for性能是普通for循环的6倍。一个简单的小技巧快速优化运行时间。

2024-01-03 19:43:12 386

原创 博客摘录「 LightGBMError:Do not support special JSON characters in feature name」2023年9月28日

其实其中是带有_或者()等特殊字符,于是会存在这个报错。

2024-01-03 16:55:28 442

原创 由pandas.loc引发的未知错误AttributeError: ‘str‘ object has no attribute ‘isna‘

由于data.loc[value]和 data[data.key==value] 这两者之间有一定的差异,第一种方式返回的可能是series,第二种方式返回的是dataframe,所以在做复杂条件筛选的的时候,可能会爆str相关的错误。这个是针对dataframe写的,但是作为series就不适用了。

2023-12-11 13:54:43 527

原创 python 自定义字典

pass。

2023-12-04 17:25:52 455

原创 用户APP安装tfidf&woe特征之间的差异&联系

tfidf=(bad/ttl_bad)/log(good/ttl_good) -- 限制安装该APP。woe =log(bad/ttl_bad)/(good/ttl_good)--不限制用户的APP安装。所以 tfidf跟woe的形式很像,一个是对数的位置,一个是筛选条件,但是表达的含义很相近。idf=1/log(good/ttl_good) --限制APP安装。tf=bad/ttl_bad -- 限制APP安装。

2023-10-13 17:10:07 86

原创 通过二分查找所处区间binary_find_index

param biz_type_thresholds: 阈值降序排序。阈值降序排序,通过二分法查找prob所在的合适位置。

2023-08-28 14:40:37 96

原创 读取pkl文件报错_pickle.UnpicklingError: A load persistent id instruction was encountered

报错的原因可能有好几种,我这里是因为文件格式不是pickle格式,而是parquet格式的。改成pd.read_parquet()即可。

2023-06-25 11:27:24 464

原创 toad.quality报错Input contains NaN, infinity or a value too large for dtype(‘float64‘).

toad计算IV特征为空是不会报错的,要报错的话,应该是label列出现空值问题,解决label列为空的问题即可。

2023-03-24 16:46:36 205 1

原创 unknown feature type, use i for indicator and q for quantity

这个是在获取feature importance的时候报错,通过排查发现是因为特征名称包含空格,将空格替换掉即可解决。

2023-03-01 12:57:39 143

原创 ModuleNotFoundError: No module named ‘aiohttp‘

发现还是版本的兼容性问题,通过指定版本进行安装。在安装openai的时候,会报错。

2023-02-27 23:15:44 284

原创 chatgpt如何解决模型训练过程中一些未知错误:以xgboot devices_.IsEmpty为例

用chatGPT提高生产力具体背景如下:在训练模型过程中,为了避免资源抢占,我指定了其他的gpu来提高模型训练效率,但是发现训练的时候模型正常,但是在模型预测的时候一直报错,尝试gpu=1,2,3都报错。

2023-02-24 16:53:11 3300

原创 wiki维基百科各种语料数据下载

wiki维基百科常用语料下载路径。其他语料路径请参考上述的路径命名规则。

2022-12-23 13:54:41 3538

原创 xgboost early_stop_rounds是如何生效的?

如果只有一个数据集,直接以该数据集进行评估,在达到指定的训练轮次之前,如果评估指标在该数据集上已经early_stopping_rounds没有提升,则停止训练,返回最后一轮迭代的模型,(并不是最好的一个),如果发生early_stop,会有额外三个参数: bst.best_score, bst.best_iteration and bst.best_ntree_limit,进行参考。如果是多个数据集,则以最后一个数据集的评估指标作为参考来评估是否要使用early_stop。

2022-11-30 18:35:54 1606

原创 python float和Java float引发的问题

离线特征是python加工出来的,在python中默认也是float类型,java中xgboost相关的api也都是float类型,为啥进行特征比对的时候结果就不一致呢?所以在进行特征&模型结果比对的时候,最好按照这种结论中的形式进行数据精度对齐,保持结果一致。所以float是8个字节是真正的数字,但是float对象是24字节的。1、python中的float是和Java中的double是精度一样的。2、numpy中的float32是和Java中的float是等价的。此外,布尔值是整数的一个子类型。

2022-11-17 18:21:39 629

原创 计算通过率逾期率并绘制通过率逾期率曲线

在信贷领域AUC&KS指标能提现模型的学习效果,但是在评估模型的相对好坏,以及制定使用方案的时候还是需要通过率&逾期率曲线进行评估模型的。横坐标为累计通过率,纵坐标为累计逾期率,此时比较相同的通过率情况下,逾期率越高,曲线位置就越靠近上方。1、可以理解曲线下的面积越小越好,跟AUC曲线是相反的逻辑。2、要看细节部分,在某个局部区间通过率下是否局部更好,是否可以交叉使用3、是否整个曲线都是缠绕的,如果是的话,考虑选择AUC评估指标吧。

2022-11-04 12:48:13 531

原创 RuntimeError: module compiled against API version 0xf but this version of numpy is 0xd

Mac M1 12.3系统安装TensorFlow各种报错,现在的Miniforge3-MacOSX-arm64.sh 默认3.9.X。同时通过指引安装的tf和python3.8不兼容。只能用python 3.9.X进行安装了。默认安装的numpy==1.23.2。和当前的TensorFlow版本不兼容。重新安装1.22.0版本的numpy。

2022-08-21 17:48:19 1343

原创 tf-vsn网络

print('构建embedding', feature_name,len(feature_value)+1,encoding_size)self.model = tf.keras.models.Sequential([ # 使用models.Sequential()来搭建神经网络。x = tf.stack(x, axis=1) # 横向维度扩展。# 画出模型,需要GraphViz包。# 在最后增加一维数据。...

2022-08-17 16:22:26 386

原创 多模态&多目标学习-vsn+transformer

print('构建embedding', feature_name, len(feature_value) + 1, encoding_size)# sigmoid 对应 cross_entropy, softmax sparse_categorical_focal_loss。# @tf.function # 使用autograph机制转换成静态图加速。"""Transformer的Encoder部分""""""Transformer输入的编码层""""""多头Attention"""...

2022-08-15 23:40:47 837

原创 Error: Received a label value of 1 which is outside the valid range of [0, 1)-Python,Keras

由于keras在做二分类损失的时候,激活函数选择的是sigmod,所以此处不能超过1。# 由于此处为二分类问题,此处选择sigmoid作为激活函数。当选择的损失函数对应的取值超出范围的时候就会报错。# 为多分类,此处选择softmax作为激活函数。...

2022-08-03 15:42:22 1035

原创 lightgbm使用multiclass训练二分类模型

由于lgbm.predict_proba输出的结果维度和样本的数据集不一致,导致dataframe进行列赋值的时候报错,下面可以通过修改num_class来验证。如果想要用多分类,来训练二分类目标变量,可以通过如下方法获取概率值。...

2022-07-29 16:54:11 787

原创 机器学习面试题总结

gbdt通过每一轮迭代,降低输出概率值(或者回归连续值)和真实值之间产生的loss,即通过loss降低的梯度方向进行梯度下降,从而降低loss。针对回归只是一个特殊情况即拟合梯度下降的方向正好是残差。拟合残差并不是通用的说法,拟合loss,找到梯度下降的方向,降低loss才是本质。.........

2022-07-26 10:44:15 272

原创 为什么选择弱分类器进行

做模型的目的是为了得到一个强学习器,使得该学习器的性能满足实际需求。但是实际工作中强学习器并不是很容易就能得到,反而是弱学习器很容易得到,于是人们想,是不是可以利用很多弱学习器来得到一个强学习器呢?于是有了基于弱学习器的集成学习。也就是说并不是集成学习要求弱分类器,而是我们只有弱分类器而不得不去做集成学习。 弱分类器,更容易学习到局部的特征,从而达到预测结果的多样性,然后在进行投票。强分类学习能力很强就没必要这么做了。如何产生多样性呢?随机特征+样本随机采样,学习参数差异,,这本身也会导致模型变弱。...

2022-07-13 22:52:11 552

原创 BM13 判断一个链表是否为回文结构

思路:通过找到链表的中点,然后从中点开始进行逆序。同时记录中点的位置,和链表开始的位置同时遍历,如果不一致则返回False具体步骤:1、遍历链表一次,记录链表的长度2、遍历第二次,找到链表的中点,同时记录链表的中间位置要记住前一个节点3、对链表后半部分进行翻转,这个是有套路的。4、从链表的开始位置以及链表的中间位置,同时进行遍历,如果碰到不相同的数值,则返回False链表翻转:场景1、整个链表翻转场景2、链表的后半部分翻转场景3、链表局部位置进行翻转方式很相似:步骤0、记录结果链表的新节点:用一个新的节点p

2022-07-13 11:25:37 106

原创 逆地理编码-离线版-part3

本文主要提供,数据加载,以及geo对象类geo_obj.pydata_loader.py

2022-07-01 12:47:40 834 1

原创 逆地理编码-离线版-part2

工具类:AdminUtils.py GeoUtils.py LineUtils.pyS2Utils.py

2022-07-01 12:35:36 614

原创 逆地理编码-离线版-part1

通常为了获取高精度的数据,可以采用百度or高德的逆地理编码接口,但是个人请求量受限,企业版限额会高一些。本文提供一种离线方案,实现经纬转地址信息的方案,精度为乡镇街道粒度,响应速度单核4ms/每条,能满足一般的逆地理编码需求。本文分模块提供如下代码。程序主入口为 getGeoInfo,具体参考如下代码。........................

2022-07-01 12:30:07 1615 1

原创 ​git拉取远程分支到本地 ​

使用如下git命令查看所有远程分支:git branch -r方法一使用如下命令:git checkout -b 本地分支名x origin/远程分支名x使用该方式会在本地新建分支x,并自动切换到该本地分支x。方式二使用如下命令:git fetch origin 远程分支名x:本地分支名x使用该方式会在本地新建分支x,但是不会自动切换到该本地分支x,需要手动checkout。git branch --set-upstream-to origin/远程分支名 本地分支名参见博文Git

2022-06-28 19:41:26 9583

原创 python多线程并发访问&数据库连接池原理以及代码

在工作中难免会使用数据库,为了能够高效并发访问数据库,数据库连接池必不可少,由于本站copy模式盛行,导致数据库连接池被错误使用,遇到错误甚至追求能跑通就行。本文就数据库链接池的实际使用场景来说明如何应用数据库连接池。在部署机器学习模型时采用的是flask框架,模型预测本身是一个很快的事情,无奈有太多的特征需要通过接口(或者是ots,mysql等)获取,导致响应时效性降低。为了能很好的实现并发性,提升QPS,采用gunicorn进行多进程,异步处理方案。此时单个进程只有一个数据库链接,就会导致异步执行的线程

2022-06-28 14:41:51 4468 10

原创 ABTest效果检验&样本量计算

一、 ABTest显著性检验:1、针对比例型abtest,比如转化率 https://abtestguide.com/calc/2、针对数值型abtest,比如保费均值,参见本文下文 二、 ABTest size1、针对比例型 1)https://abtestguide.com/abtestsize/ 2)https://www.evanmiller.org/ab-testing/sample-size.html 2、数值类计算:需要填写方差1) h...

2022-03-22 19:55:34 3675

原创 少量数据集的情况通过scipy优化来拟合函数

import numpy as npimport matplotlib.pyplot as pltfrom scipy.optimize import curve_fitdef func(x, a, b, c, d): return 1/(1+np.exp(-x*a+b)) # + c*x + dxdata = np.linspace(0, 4, 50)y = func(xdata, 2.5, 1.3, 0.5,0.2)rng = np.randomy_noise = 0....

2022-02-10 14:07:46 341

原创 结合业务场景做好特征工程

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。今天就简单聊聊工作中遇到的一些特征工程中的问题,如果大家有更好的方法论,欢迎留言。1、梳理业务流程这个过程主要是为了了解数据产生的主要环节,每个环节产生的数据有哪些,有哪些数据是有明显的因果关系,提前剔除,避免数据泄露。最好由业务方提供更多的业务场景特征,以及尽可能的将特征入库,如果没有的话先提需求积累数据。2、明确业务目标业务目标为了明确建模的目标变量,目标变量决定了如果加工数据特征。3、确定特征范围经过以上

2022-01-18 00:08:19 537

原创 机器学习模型评估方案

模型指标评估,模型本身指标的评估1、测试集评估2、线上指标评估业务指标评估,方便给业务方进行解释,模型能实际产生的效果1、测试集业务指标评估2、线上回测业务指标评估为什么要进行线上评估,在模型开发过程中,遇到的数据真的是各种情况都可能遇到,主要排除的是特征泄露导致的训练集模型效果很好,但是实际效果并不好,这样只能在生产上进行验证...

2021-12-14 14:00:13 813

原创 flinksql做近实时特征处理的坑

flinksql做近实时特征处理的坑,以及解决方案。

2021-12-10 15:11:00 3756 2

原创 实时场景下的机器学习模型实时特征离线特征融合方案(踩坑笔记)

实时场景下的机器学习模型实时特征离线特征融合方案(踩坑指南)

2021-12-09 18:07:20 4222

逆地理编码离线版-精度到乡镇街道

传入经纬度,解析出地址信息,性能:4ms/条 地址精度到乡镇街道,包含城市等级,精度满足一般的需求,如对精度要求极高请勿下载

2022-07-01

useragent解析逻辑&手机品牌匹配.txt

在对浏览界面进行解析获取用户信息的过程中,想要精准识别用户,对useragent解析&手机品牌匹配是必不可少的环节,本文档提供了解析逻辑,以及提供了最新的手机品牌和useragent对应的文件,帮你丰富用户画像,以及作为模型特征因子。

2021-11-22

windows服务器python程序部署文档.doc

如果在window服务器中部署python程序呢?本文有部署流程指导:从安装到定时任务的创建

2021-11-15

T+0操作方法与技巧.pptx

股市短线交易必学技能

2021-11-15

shakespeare.json&logs;.jsonl.gz&accounts;.zip

官网原始链接失效 该压缩文件已经打包上传,提供大家测试使用 。 shakespeare.json&logs;.jsonl.gz&accounts;.zip

2018-01-10

kafka-manager 1.3.3.15

已经编译好的 kafka-manager 1.3.3.15 具体使用可以参考 https://github.com/yahoo/kafka-manager

2018-01-08

百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全

中文版,提供百度网盘下载。 本书作者:Ralph Kimball博士 主要介绍本书从维度建模的基本知识入手,通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究,全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。 同时,本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。 仅供学习使用,切勿商业用途。

2017-10-16

数据仓库工具箱 维度建模权威指南 第3版

数据仓库工具箱 维度建模权威指南 第3版 本书主要介绍本书从维度建模的基本知识入手,通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究,全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。 同时,本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。

2017-10-16

Tensorflow 实战Google深度学习框架

Tensorflow 实战Google深度学习框架,仅供学习使用,切勿用于商业用途。

2017-10-06

IDEA 创建scala工程并打指定的依赖包

该文档主要使用IDEA进行scala工程的创建以及打依赖的jar包,步骤详细。 为了感谢大家的支持,现在把积分调整到1积分,更好的为大家提供帮助.

2017-08-11

高德地图POI类型表

高德地图POI类型表

2017-07-11

常用数据挖掘算法总结及Python实现

数据挖掘算法

2017-06-19

hbase自定义Comparator进行数值比较

hbase 自带的Comparator只能进行字符串的比较,不能进行数值比较,通过自定义代码实现该功能。 具体使用请参考 http://blog.csdn.net/mtj66/article/details/52574739

2016-11-07

百度云存储LBS

百度云存储LBS

2016-10-21

创建单个分区的window虚拟机

此文档通过截图简要的概述了创建window7虚拟机的步骤。

2016-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除