自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

来自Daisy和她的单程车票

正在探索机器学习和深度学习的奥妙。

  • 博客(88)
  • 资源 (23)
  • 收藏
  • 关注

原创 Pandas多条件筛选

pandas可以用str.contains来模糊筛选,有点像SQL中的like。filter不筛选具体的数据,而是筛选特定的行和列。regex:正则表达式。items:固定列名。

2023-06-12 23:47:08 932

原创 推荐系统中保序回归校准方案

保序回归算法以及校准评价准则

2023-04-03 22:39:03 832

原创 学习率优化方式

介绍不同学习率,以及代码

2023-04-03 22:23:12 368

原创 tensorflow2.0 模型训练耗时优化

tensoflow 模型训练阶段耗时优化

2023-04-02 21:35:27 187

原创 TensorFlow模型耗时优化

tensorflow模型训练耗时优化

2023-04-02 21:23:33 263

原创 生成与解析tensoflow2 tf_serving_warmup_requests

tensoflow2 tf_serving_warmup_requests

2022-07-09 16:54:12 700 2

原创 tf2读tfrecord文件

import tensorflow as tftfrecord_file="a.tfrecord"dataset=tf.data.TFRecordDataset(tfrecord_file)for raw in dataset.take(1): example=tf.train.Example() example.ParseFromString(raw_record.numpy()) print(example)

2022-04-17 19:54:21 299

原创 xgboost实例

# _*_coding:utf-8 _*_# @project:py_project# @name:7372# @date:2022/2/13 11:07# @Author:Lyimport pandas as pdimport osimport numpy as npimport xgboost as xgbfrom sklearn.metrics import recall_score,accuracy_score,roc_auc_score,f1_scorefrom sklearn

2022-02-13 22:30:15 59

原创 tf2.0初始化集中方式

TF2.0参数初始化的几种方式

2021-08-11 11:50:19 111

原创 pyspark udf in get_return_value py4j.protocol.Py4JJavaError:

1、在用pyspark的时候,像这种udf函数一定要加上类型,,不然会报错~~2、pyspark 如图,如果不加float,会报下面这个错误File "/mnt/yarn/usercache/hadoop/appcache/application_1614052931500_111643/container_1614052931500_111643_01_000001/pyspark.zip/pyspark/sql/dataframe.py", line 378, in show File "/

2021-03-23 22:09:16 539

原创 离线与在线auc不一致问题

阅读论文:Predictive Model Performance: Offline and Online Evaluations1、离线AUC、RIG有迷惑性(线上线下不一致)、auc忽略了预测得分,只关注顺序(正样本排在负样本之前)auc 越高并不意味着有更好的排序AUC不能区分ROC空间的各个区域,所以仅通过优化数据两端的模型性能就可以训练模型以最大化AUC分数。实际上,高估pClick得分范围内的点击概率比低估pClick得分范围时对在线性能的影响要小低pClick范围内pClick得分

2021-03-21 16:27:39 1117

原创 shell 脚本测试是否服务器环境包含python包

#!/bin/bashecho “start”python3 <<EOF #开始符合和结束符合相同import arrowimport lightgbm as lgbimport xgboost as xgbfrom sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressorfrom sklearn.linear_model import LogisticRegressionfrom

2021-02-04 15:30:35 155

原创 python .proto 转py

1、安装grpcio 与 grpcio-tools2、将要转化的安装grpcio 与 grpcio-tools将要转化的proto协议放入单独文件夹下3、在文件夹下运行cmd,执行python -m grpc_tools.protoc -I./ --python_out=./ --grpc_python_out=./ ..proto,即可将完成文件夹下所有的proto的转化proto协议放入单独文件夹下在文件夹下运行cmd,执行python -m grpc_tools.protoc -I./ --p

2020-12-24 14:01:41 783

原创 pyspark学习

1、修改列名有两种方式1.1 for循环一个个修改for name in field_mapping: all_data = all_data.withColumnRenamed(name, field_mapping[name])1.2 functions函数import pyspark.sql.functions as Fall_data = (all_data.select(*[F.col(s).alias(field_mapping[s]) if s in field_mapp

2020-12-09 15:47:40 110

原创 hadoop 基础命令一览

1 从HDFS将文件传到本地下面两个命令是把文件从HDFS上下载到本地的命令。1.1 get使用方法:hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /user/hadoop/file localfilehadoop fs -get hdfs://host:port/user/hadoop/file localfile

2020-12-08 10:37:50 363

原创 tensorflow2.3+ kears tf.keras.models.load_model载人模型,模型ValueError: Unknown loss function: define_loss

自定义损失函数load_model

2020-12-03 16:28:21 783

原创 CSDN-markdown编辑器---基本语法一览

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2020-12-02 20:59:27 97

原创 tensorflow2.3以上keras model.fit()出现维度错误问题

def gen_model(site_id): input1 = tf.keras.layers.Input(shape=(2,), dtype=tf.float32, name='ty') ctr_label = tf.keras.layers.Input(shape=(1,), dtype=tf.float32, name='a_label') ctcvr_label = tf.keras.layers.Input(shape=(1,), dtype=tf.float32, .

2020-12-02 20:58:48 5372 1

原创 日常s3命令记录

查看文件大小aws s3 ls s3://${path}/ --recursive --human-readable --summarize查看子目录浏览path子文件aws s3 ls s3://${path}/ s3不支持ll删除操作删除单个文件用rm,删除文件夹用–recursiveaws s3 rm s3://${path}/ --recursive同步本地文件至s3将data文件夹下的所有文件(包含文件夹及其子文件)传至s3的path目录下aws s3 sync dat

2020-12-02 20:54:23 315

原创 多目标学习(Multi-task Learning)-网络设计和损失函数优化

目前多目标学习主要从两个方向展开,一个是网络结构设计,一个是损失函数优化;一、MTL网络设计MTL网络通常可分为两种两种,一种是hard-parameter sharing不同任务间共用底部的隐层,另一种是soft-parameter sharing,形式较为多样,如两个任务参数不共享,但对不同任务的参数增加L2范数的限制;也有一些对每个任务分别生成各自的隐层,学习所有隐层的组合;这两种方式各有优劣,hard类的网络较soft不容易陷入过拟合,但如果任务差异较大,模型结果较差,但soft类网络通常参数较

2020-12-01 17:12:02 8366 2

原创 tensorflow2.3+多任务学习MTL保存多个模型方案

以下代码是一个简单的esmm的模型,当我们想保存多个模型的时候,而且线上预测的时候,不想传两个label(label1,label2)进去的时候,处理方式如下def base_model(inputs,output, variable_scope): with tf.compat.v1.variable_scope(variable_scope): base_model = tf.keras.Model( inputs=inputs,

2020-12-01 16:12:43 668

原创 推荐系统深度学习篇-AFM模型介绍(3)

一、AFM模型简介AFM模型是17年发表在IJCAI-17上的一篇论文,它是NFM模型的一个改进, 在传统FM模型中,使用二阶交叉特征得到非线性表达能力,但是不是所有的特征交叉都会有预测能力,很多无用的特征交叉加入后反而会相当于加入了噪声。为了区别对待不同的特征,引入了Attention机制。论文地址为:https://www.ijcai.org/proceedings/2017/0435.pdf其结构图为其中attention network可形式化为:AFM模型的公式为:需要注意的是:

2020-11-19 11:55:24 1972

原创 推荐系统深度学习篇-NFM 模型介绍(1)

一、NFM 模型介绍NFM是2017年由新加披国立大学提出的一种模型,其主要优化点在于提出了Bi-Interaction,Bi-Interaction考虑到了二阶特征组合,减轻了后面MLP部分学习特征信息的压力论文地址:https://arxiv.org/pdf/1708.05027.pdf其结构如下BI-Interaction的结构为该式可化简为详细推导过程如下编程简单记忆方式: 和的平方-平方的和需要注意的是:1.该图显示的是在Bi-Interaction后由三层MLP构成,但

2020-11-19 11:49:13 2214 1

原创 推荐系统深度学习篇-DCN网络介绍(2)

一、dcn简介dcn是17年由斯坦福大学提出,其主要目的是论文地址为:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1708.05123.pdf其结构图为这篇论文重点是提出了cross layer的概念,其结构图如下二、代码展示1、cross layer#@tf.functiondef cross_layer(x0, xl): embed_dim = xl.shape[-1] w = tf.Variable(

2020-11-19 11:27:32 6975

原创 推荐系统深度学习篇-阿里DIN算法介绍(4)

din算法一、din简介该论文是18年由阿里巴巴的盖坤团队提出,论文地址为:https://arxiv.org/pdf/1706.06978.pdf原论文的网络结构为在深度学习推荐系统这本书中,王喆绘制了这么一幅图,更好理解注意架构图中的红线,发现每个ad会有 good_id, shop_id 两层属性,shop_id只跟用户历史中的shop_id序列发生作用,good_id只跟用户的good_id序列发生作用1 论文优化点**1.1注意力机制注意力机制顾名思义,就是模型在预测的时候,

2020-11-19 11:22:53 954

原创 tensorflow2.0 api学习

1.数据扩展1.1 tf.tile 和tf.keras.backend.repeat_elements的区别repeat_elements 是元素级别的,tile是维度级别的repeat_elements(x, rep, axis):x 是输入,rep为重复次数,axis是沿着某个轴b = tf.constant([[1, 2, 3],[4,5,6]])c=tf.keras.backend.repeat_elements(b, rep=3, axis=1)output:<tf.Te

2020-11-13 11:45:37 940

原创 推荐召回阶段-正负样本选取准则

粗排-正负样本选取准则精排目的是在优中(用户感兴趣的商品中)择优(挑选用户最感兴趣的商品)、粗排从商品池子中挑选出用户感兴趣的商品,了解这一区分性后,对精排和粗排正负样本的选取便会采取不同方式【结论】文中指出:i 采用曝光未点击的样本直接作为负样本,比随机采样效果差;ii 仅仅采用hard negative策略(不加入easy negative),也比随机采样效果差(easy negative很有必要,easy :hard negative=100:1),且采用上一轮模型结果101-500的样本进

2020-09-23 10:03:45 2323

原创 glove安装失败

直接pip install glove会报各种错误,当输入pip install glove-python-binary就不会了

2020-08-18 09:56:19 883 1

原创 linux日常使用命令

一、删除乱码文件ll -l ;find -inum 132212 -exec rm -rf {} \;

2020-07-15 14:16:08 101

原创 特征重要性评估

1、gbdt、xgb 特征重要性源码解释:https://zhuanlan.zhihu.com/p/647591722、shap对xgboost特征重要性评估https://zhuanlan.zhihu.com/p/64799119

2020-07-07 09:37:11 1335

原创 jupyter误删文件

jupyter误删文件,如ipynb的,不可恢复,点击删除键时会提醒删除不可恢复的提醒,这时候点击确认键一定要注意。另外,如点击删除ipynb或者其他后坠的文件,在删除前曾打开过该文件,且该文件在标签页中没有关闭,将所需内容复制出来即可恢复。如不小心误删某个cell,可采取如下两种方式复原# 撰写for循环,此时把文件复制出来即可。即便点击了删除键,for line in locals()['In']: print(line) #利用history history...

2020-06-30 19:52:10 3267

原创 ALS推荐算法简介

目录ALS(交替最小二乘法)1.1 原理推导2.1.1 ALS2.1.2 ALS-L2正则化2.1.3 Stochastic Gradient ALS2.1.4 隐式反馈(Implicit Feedback )2. 优缺点ALS(交替最小二乘法)ALS (Alternating Least Squares) 交替最小二乘法。ALS 的核心是:打分矩阵R是近似低秩的。换句话说,一个打分矩阵 R ...

2020-04-12 22:25:37 2001

原创 tensorflow2.0基础简介

tensorflow2.0简介1、tensorflow 2.0基础知识简介tensorflow2.0是谷歌在2019年3月份发布更新的一款到端开源机器学习平台,其目的在于优化tensorflow1.x版本,使其更灵活和易用性;2.0版本较1.x有较大的更新,具有简易性、更清晰、扩展性三大特征,大大简化1.x 的API,其官方中文文档链接如:https://github.com/geektutu...

2020-04-12 20:56:06 854

原创 数据倾斜原因及其解决方案

1、数据倾斜的概念数据倾斜是在map/reduce执行程序时,reduce大部分节点执行完毕,但有一个或者少数几个节点执行很慢,导致其他程序一直处于等待的状态,使得整个程序执行时间较长。2、为什么出现数据倾斜?主要是在shuffle过程中,由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。表现如下:1、大部分的task执行完毕,少数几个甚至一个task可以执行但...

2020-04-12 20:55:14 1355

原创 分类算法评价准则

1 分类算法评价准则分类评价准则有Recall, Precision, ROC,AUC, Lift 曲线,KS曲线等。1.1 基础指标为了描绘的简单,在此给出一个实例:Table 3.1 样例图indexScoretrue labelPredict labelindexScoretrue labelPredict label10.9TT110....

2020-04-12 20:53:46 2258 2

原创 hive sql基本语法及注意事项

sql left join和 not in 比较建议在写sql语句的时候,尽量避免用not in 而 优先选择left join,这样效率会提高很多尽量用count(1) 而不是count(*)

2020-04-01 14:30:38 341

原创 spark DataFrame正则表达式

spark DataFrame正则表达式注意 在spark中使用正则的时候,需要时时刻刻加上转义自符'\'需要使用'\\',例如'\w'需要使用'\\w'正则表达式,使用的库在sql.funtions 下,如导入split和regexp_extractimport org.apache.spark.sql.functions.{regexp_extract,split}1.1 spl...

2020-04-01 14:22:51 3533

原创 python积铢累寸

一、python package1.numbanumba有两种编译模式:nopython模式和object模式。前者能够生成更快的代码,但是有一些限制可能迫使numba退为后者。想要避免退为后者,而且抛出异常,可以传递nopython=True.import numba@jit(nopython=True)def f(x, y): return x + ynumba目标是加快...

2020-04-01 12:12:08 449

原创 在训练的时候loss增大怎么办

引起这种问题的根本原因是Hessian矩阵的病态条件数1、对学习率乘上一个参数(0.99或者0.999)使得学习率随着学习步骤的进行而下降2、另一种办法就是采用现成的优化算法。参考链接:https://www.zhihu.com/question/60510992...

2020-03-26 10:58:50 3840

原创 spark xgboost & lightgbm 参数解释

一、spark xgboost 模型1 xgboost 的默认参数:xgb 参数参考链接 https://blog.csdn.net/yyy430/article/details/85179638 这个链接整理的比较全,但是这个参数是关于python版本的xgb,spark版本的xgboost默认参数和这个有出入1.1 默认参数如下: /*默认参数 eta -> 0.3 ...

2019-12-24 17:56:04 2213

sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl

python sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl

2018-03-09

PyQt4-4.11.4-cp35-cp35m-win_amd64.whl

PyQt4-4.11.4-cp35-cp35m-win_amd64.whl,万能的http://www.lfd.uci.edu/~gohlke/pythonlibs/好像不能访问了,贼烦,所以共享一下资源

2018-03-09

最新最全2013信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

最新最全2013信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

2017-11-04

2014信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

最新最全2005-2014信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

2017-11-04

2005信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

2005信息系统项目管理师历年真题(含上午题、案例分析、论文)试题和答案

2017-11-04

网络安全技术试题

网络安全技术试题,史上最全,,花300元买来的试题,,提供给大家了

2017-11-04

网络信息安全试题

网络信息安全试题,带答案,,信息和知识面非常全,,

2017-11-04

武汉理工大学2010年研究生入学考试试题-软件工程

武汉理工大学2010年研究生入学考试试题---软件工程,走过路过不要错过

2017-11-04

武汉理工大学2006年研究生入学考试试题-软件工程

武汉理工大学2006年研究生入学考试试题-软件工程专业,不要错过哦

2017-11-04

武汉理工大学2002年研究生入学考试试题

武汉理工大学2002年研究生入学考试试题-数据结构

2017-11-04

on discriminative vs generative classifiers

从理论和实践区分判别模型和生成模型区分,andrew NG所写

2017-11-04

武汉理工大学计算机科学与技术学院考研资料

详细介绍武汉理工大学计算机类专业的考研各种题型,代码源码,机试题等

2017-11-03

java各种算法,类似于冒泡,汉诺塔,三阶幻方,判断回文

1. 平年,闰年,求今天是星期几 2. 九九乘法表梯形输出 3. 排序冒泡法 4. 求数组中最大的数和最小的数,并输出 5. 当前月的下一个月是上一月是 6. 三阶幻方 7. 判断回文 8. 判断两个字符串中相同位置上相等的字符 两个字符串中相同的字符,不重复 9. 判断数组是否相等 10. 求三角形的面积 11. Smith数 12. 数组左移右移 13. 验证哥德巴赫猜想 14. ABC--- 15. 1+[]+2+[]+3+[]+4+[]+5+[]+6+[]+7+[]+8+[]+9+[]=110 []用+ - 或者为空,如果为空,1空2 变为12 16. 信用卡号码满足,倒数第1、3、5……位的和加上倒数第2、4、6位数字乘以2(如果乘以2后变成两位数,则减9)的和。能被10整除。任意输入一个数字串,检验是不是满足条件。 17. 汉诺塔问题

2017-11-03

A Communication-Efficient Parallel Algorithm for Decision Tree

基于投票的数据并行则进一步优化数据并行中的通信代价,使通信代价变成常数级别。在数据量很大的时候,使用投票并行可以得到非常好的加速效果。更具体的内容可以看NIPS2016的文章[A Communication-Efficient Parallel Algorithm for Decision Tree]。

2017-11-03

lightgbm算法

具体讲解lightgbm算法,直方图加速,预排序思想,等等

2017-11-03

DoKuKIWI安装说明

DoKuKIWI windows 安装说明

2017-07-31

train-images-idx3-ubyte.gz

train-images-idx3-ubyte.gz

2017-05-31

lucene-core-2.4.1.jar je-analysis-1.5.3.jar

这是有关搜索的lucene包,找了好久没找到,觉得对大家应该有用吧~

2016-01-03

贝叶斯概率

这是我在积极总结的学习资料,希望对大家有帮助

2016-01-03

1 CSS基本语法

1 CSS基本语法大家可以学习,这对你们有帮助

2013-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除