自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

serenysdfg的博客

喜欢努力上进，一起奋斗的人聚在一起

原创 selenium笔记

爬取1：coding=utf-8**from selenium import webdriverbrowser = webdriver.Firefox()browser.get("http://www.baidu.com")#获得浏览器对象后，通过 get()方法，可以向浏览器发送网址browser.find_element_by_id("kw").send_keys("selenium")#元素定位，input的id是kw。关于页面元素的定位后面将会详细的介绍，这里通过 id=kw 定位到百度

2020-09-06 11:12:21 775

原创 cvr 预估中的转化延迟反馈

与点击行为可能在用户浏览后的很短时间内就发生并被广告系统收集不同，广告后续所产生的转化conversion很可能延时发生，过了几天才又去购买。**时间窗口：**转化行为反馈时间上的延迟会对模型的训练产生负向的影响，一个简单的做法可能是通过一个预先设定好的时间窗口来进行转化归因，使用经过了时间窗口并进行了归因后的数据来进行转化率模型的更新。但是这对时间窗口的选择带来了挑战，并且可能因为单一时间窗口带来调试上的不灵活。（有可能产生错误标签-时间太短；或者过时模型-时间太长）相对于cpc计费方式，ocpc，o

2020-09-06 10:29:50 1174

原创 flink入门了解

在线工程在机器学习场景下，在线离线处理也会面临一些问题。首先会将离线的数据进行预处理和特征工程（如红框标注所示），然后进行离线的模型训练，训练好的模型会推到线上做推理。推理模块加载模型后，在线的数据也会有进行预处理和特征工程的过程，将处理之后的数据喂给模型做在线推理。在机器学习领域除了离线的模型训练以外，还有在线的模型训练。如下图所示，我们通常会将预处理的数据写到一个 Message Queue 中（如 Kafka），然后进行 Online training，training 的过程是持续不断的，期间会

2020-09-01 15:14:09 430 1

原创 item2vec等召回

item2vec等item2vec主流程：从log中抽取用户行为序列将行为序列当成预料训练word2Vec得到item embedding：把用户浏览的商品集合等价于word2vec中的word的序列.得到item sim关系用于推荐1、首先第一步：这是我们从推荐系统log中获得的，也就是说User A行为过item a、item b、item d，User B行为过item a、item c，User C行为过item b、item e。2、继而我们需要将这些转化成句子。句子1就是a、

2020-09-01 15:07:05 767 1

原创 python相关基础

10*argsand**kwargs用*args和**kwargs只是为了方便并没有强制使用它们.当你不确定你的函数里将要传递多少参数时你可以用*args.例如,它可以传递任意数量的参数:>>> def print_everything(*args): for count, thing in enumerate(args):... print '{0}. {1}'.format(count, thing)...>>&gt...

2020-08-06 18:07:24 109

原创牛顿法

https://zhuanlan.zhihu.com/p/46536960 (理解图会容易)https://blog.csdn.net/songbinxu/article/details/79677948拟牛顿法：DFP,BFGS拟牛顿法实际上是用了一个正定矩阵来代替Hessian矩阵的逆矩阵，这样不仅拥有较快的收敛速度，而且通过一步步迭代更新大大减少了计算开销。拟牛顿算法对于训练集不是很大的机器学习优化问题而言是一种十分高效的算法，学习率ε的确定方法完全类似于梯度下降...

2020-08-06 01:20:00 575

原创聚类

原理先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。层次聚类算法根据层次分解的顺序分为：自下底向上和自上向下，即凝聚的层次聚类算法和分裂的层次聚类算法（agglomerative和divisive），也可以理解为自下而上法（bottom-up）和自上而下法（top-down）。自下而上法就是一开始每个个体（object）都是一个类，然后根据linkage寻找同类，最后形成一个“类”。自上而下法就是反

2020-08-06 00:58:40 263

原创 linux

Linux_20200731命令详细：https://blog.csdn.net/wojiaopanpan/article/details/7286430各类功能其他常用tar -xzvf DnnClass2.tar.gz 解压unzip -o ml-1m.zip删除非空目录的方法shutil.rmtree()以及空目录的方法os.rmdir()#查看历史命令时间：[root@localhost ~]# export HISTTIMEFORMAT="%F %T `whoami` "

2020-07-31 12:08:44 240

原创多目标MMOE

介绍MMOEdeep部分：存在多个Expert网络，每个Expert网络的输出最终会经过门网络进行加权平均（比较简单的线性加权，Attention的思想）门网络通过softmax输出每个专家网络的可能性，线性加权相乘。然后进行分类或者回归任务对于不同的任务通过相应的Gating Network来对不同的Expert赋予不同的权重，使得部分Expert“专注于各自擅长的任务”论文：左侧的shallow tower部分和右侧的main tower部分，论文中提到的采用类似Wide&Deep模型

2020-07-24 18:17:43 2111

原创推荐embedding总结2

Graph Embedding需要提供和序列采样出的类似的关系样本数据，只不过现在高了一个维度，于是整个样本构建的流程就变成了先按照业务关系构造图，然后从图采样到序列，再从序列采样到样本，才能作为Embedding训练模型的输入Item2Vec 也通过商品的组合去生成商品的 Embedding，这里商品的组合也是序列式的，我们可以称他们为“Sequence Embedding”更多场景下，数据对象之间更多以图（网络）的结构呈现，这种结构生成Embedding的方法，我们称之为图嵌入（Graph

2020-07-20 21:41:15 619

原创推荐EMBEDDING 总结1

腾讯技术工程embedding 也迅速的用到了特征工程，画像构建召回排序等方面。而 faiss 作为专业的向量近邻检索工具则解决了向量召回在工程上的最后一公里的问题。embedding召回分类1. embedding 的基础用法——i2i 召回算法单纯使用 fasttext+faiss 就可以实现好几路召回算法，比如：iten2vec,media2vec,tag2vec,loc2vec，title2vec。1、tag2vec 就是利用词向量去做召回，比...

2020-07-20 21:40:32 394

原创修改jupyter notebook中的tensorflow版本

juypter 安装虚拟核进入创建的虚拟环境：source activae [虚拟环境名]安装虚拟核：conda install tensorflow设置显示名字：python -m ipykernel install --user --name tensorflow 其中和由用户随意指定即可python -m ipykernel install --name tensorflow (要变成root设置好后，直接启动 jupyter 后在选择内核选项里就可找到自己设置的那个若想指...

2020-07-14 14:51:18 1412

原创 Intellij Idea打包java为可执行jar包

1. File->project structure...(快捷键Ctrl+Alt+Shift+S)。2. 在弹出的窗口中左侧选中"Artifacts"，点击"+"选择jar，然后选择"from modules with dependencies"。3. 在配置窗口中配置"Main Class"。4.配置“Directory for META-INF/MAINFEST.MF”，此项配置的缺省值是：D:\Intellij\ProjectName\src\main\java，需要改成：D:\.

2020-07-10 10:27:25 390

原创 Deep & Cross Network for Ad Click Predictions

解读参考：https://blog.csdn.net/Dby_freedom/article/details/86502623代码:https://github.com/FitzFan/Deep-Cross-Net传统的CTR预估模型需要大量的特征工程，耗时耗力；引入 DNN 之后，依靠神经网络强大的学习能力，可以一定程度上实现自动学习特征组合。但是 DNN 的缺点在于隐式的学习特征组合带来的不可解释性，以及低效率的学习(并不是所有的特征组合都是有用的)。DCN在学习特定阶数组合特征的时候效率非

2020-07-06 19:08:30 434

原创 matlab

切换分支切换分支： git checkout -b RabbitMq origin/ RabbitMqgit checkout -b origin/ RabbitMq查看目录所在分支： git branch -a11.27· *Matlab**Matlab********移动数据（矩阵：*inv是矩阵求逆的意思( ~= )不等于*1*A(3,2)这将索引到 A 矩阵的 (3,2) 元素。A(2,:) 来返回第二行的所有元素，冒号表示该行或该列的所有元素。A(:,2)，这将返回

2020-07-05 01:08:49 166

原创 java语法

java语法参考： https://www.kancloud.cn/fruitbag/thealgorithm/275925https://www.runoob.com/java/java-tutorial.html概念多态、继承、封装、抽象、类、对象、实例、方法、重载byte 数据类型是8位、short 数据类型是 16 位、int 数据类型是32位、long 数据类型是 64 位、float 数据类型是单精度32位、double 数据类型是双精度64 位、boolean数据类型表示一位的信

2020-07-05 01:08:10 252

原创 cnn知识点

Caffe的三级结构(Blobs,Layers,Nets)1.Caffe总体架构Caffe框架主要有五个组件：Blob，Solver，Net，Layer，Proto，大致可以分为三层结构blob，layer，netSolver负责深度网络的训练，每个Solver中包含一个训练网络对象和一个测试网络对象。每个网络则由若干个Layer构成。每个Layer的输入和输出Feature map表示为Input Blob和Output Blob。 Blob是Caffe实际存储数据的结构，是一个不定维的矩阵，

2020-07-05 01:01:13 354

原创图算法分类简介

最小生成树能够保证整个拓扑图的所有路径之和最小，但不能保证任意两点之间是最短路径。（路总长最小连接所有点）最短路径是从一点出发，到达目的地的路径最小（一点到达零一点）最小生成树-prim和krustal给定一个n个点m条边的无向图，求最小生成树的树边权重之和目标如何找到一条路径使得沿此路径上各边上的权值总和达到最小（路径规划）http://www.cppblog.com/abilitytao/archive/2009/09/05/95399.html例子：684. 冗余连接（le.

2020-07-05 00:52:52 976

原创 ubuntu安装等相关

安装软件1安装chrome官网下载包或者sudo wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt/sources.list.d/wget -q -O - https://dl.google.com/linux/linux_signing_key.pub |sudo apt-key add - （或者-改成 linux_signing_key.pub ）sudo apt updatesud

2020-07-05 00:22:04 168

原创 hive之函数篇

其他函数NVL判断是否为null，替换NVL(E1, E2)的功能为：如果E1为NULL，则函数返回E2，否则返回E1本身。NVL(isclick, 0) as isclick列转行函数collect_setcollect_set去除重复元素；collect_list不去除重复元素；需要进行group byselect phone,collect_list(user_id) ,collect_set(user_id)from agroup by phoneCOALESCE返回第一个非空

2020-07-03 20:50:39 230

原创 hive之数据倾斜

hive之数据倾斜如果大量数据都为空会导致数据倾斜放到同一个reduce执行影响效率• 有数据倾斜的时候进行负载均衡• hive.groupby.skewindata = false--表现1剩下几个task，执行的特别特别慢，前面的task，一般1s可以执行完5个；最后发现1000个task，998，999 task，要执行1个小时，2个小时才能执行完一个task。2有的task，就是会突然间，啪，报了一个OOM，JVM Out Of Memory，内存溢出--计算数据的时候，数据的分散度

2020-07-03 20:47:15 130

原创 hive之细碎篇

1、strict严格模式Hive配置中有个参数hive.mapred.mode，分为nonstrict，strict，默认是nonstrict如果该模式值为strict，将会阻止以下三种查询：（1）、对分区表查询，where中过滤字段不是分区字段。（2）、笛卡尔积join查询，join查询语句，不带on条件或者where条件。（3）、对order by查询，有order by的查询不带limit语句一般来说，查询分区表时，一定会在where子句中加上分区条件，指明查看哪个分区的数据。否则会报

2020-07-03 20:46:00 740

原创 hive优化

sql优化https://www.cnblogs.com/joechinochl/articles/6009143.html用IN来替换OR避免函数不使用子查询少用like 用limit分组禁止排序GROUP BY goods_id ORDER BY NULL;hive的查询注意事项以及优化总结：优化暂时用1.count distinct的操作，先转成group，再count按照分区查询获取需要的字段2减少每个阶段的数据量，尽量用上分区字段，同时只选择后面需要使用到的列，最大限度

2020-07-03 20:40:09 131

原创 Multi-task 模型在推荐场景的一些应用和工作

MMOE左侧的shallow tower部分和右侧的main tower部分，论文中提到的采用类似Wide&Deep模型结构就是指这两个tower，其中shallow tower可以对应Wide部分，main tower对应的是Deep部分存在n个Expert网络，每个Expert网络的输出最终会经过Gating Network进行加权平均（比较简单的线性加权，Attention的思想）对于不同的任务通过相应的Gating Network来对不同的Expert赋予不同的权重，使.

2020-07-03 19:43:33 573

原创 MTL多目标学习介绍综述等

工业界解决多目标问题的方案基本有三种策略：多模型分数融合、排序学习（Learning To Rank，LTR）、多任务学习（Multi-Task Learning，MTL）1、 An Overview of Multi-Task Learning in Deep Neural Networks-June 2017.两种深度学习 MTL 方法 2017Hard sharing:在多任务之间共享隐层，降低over fitting的风险Soft sharing各任务之间有自己的模型和参数，主要靠r

2020-07-03 19:36:52 4341

原创安装flink

安装jdk设置环境变量变量名：JAVA_HOME变量值：C:\jdk1.8.0_91 jdk路径变量名：CLASSPATH变量值：.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; //前面有个"."变量名：Path变量值：%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;安装git安装flinkhttps://flink.apache.org/downloads.html选择1.7.1版本

2020-06-29 14:14:54 203

原创 presto

目录特点问题Hive SQL -> Presto SQL 常见问题Presto SQL优化当前影响查询效率的主要问题presto会比hive快，原因：Hive sql 转换 Presto sql 经常遇到的一些问题，降低转换成本。针对Presto sql的优化介绍，了解优化的基本原则以及常规的实践方式。了解存储格式对即席查询的影响，最终推动存储格式的优化。特点基于内存的分布式计算引擎(不是数据库) 多数据源接入(hive/mysql/sqlserv.

2020-06-22 10:57:44 410

原创 redis总结

命令相关https://maoxian.de/2015/08/1342.html https://www.cnblogs.com/kongzhongqijing/p/6867960.html （redis cli）redis-cli1、redis-cli -h {host} -p {port}方式连接，然后所有的操作都是在交互的方式实现，不需要再执行redis-cli了。$redis-cli -h 127.0.0.1-p 6379127.0.0.1：6379>set hello...

2020-06-22 10:53:46 103

原创用户画像

用户画像是企业或组织在基于产品目标的基础上，依据用户的个人属性、社会属性、消费行为和消费心理而抽象出的一个标签化的用户模型。简单来说就是“贴标签”。通过用户画像企业或组织通过画像定位目标人群，可以把符合用户需求的内容推送到用户手中，产品针对性推送，得到想要的优惠。用户画像构成要素用户静态和动态数据如何构建用户画像数据采集之前，一定要明确产品的主要用户群是哪些，然后有针对...

2020-05-06 00:03:38 663

原创 python的多线程

该Process对象与Thread对象的用法相同，拥有is_alive()、join([timeout])、run()、start()、terminate()，close()等方法frommultiprocessingimportPoolasProcessPoolpool = ProcessPool(8)res = pool.map(process, df_user_te...

2020-05-05 17:58:08 119

原创推荐系统之MAP与NDCG

Accuracy，Precision, Recall, F1, MAP（Mean Average Precision）and NDCG(Normalized Discount Cumulative Gain)1、Hit Ratio(HR)在top-K推荐中，HR是一种常用的衡量召回率的指标，越大越好分母是所有的测试集合，分子式每个用户top-K推荐列表中属于测试集合的个数的总...

2020-04-29 19:39:29 687

原创 eval作用-python

处理输入的字符串-将字符串转成相应的对象（如list、tuple、dict和string之间的转换）#相当于直接去掉引号的对象a = "[[1,2], [3,4], [5,6], [7,8], [9,0]]"a = "{1:'xx',2:'yy'}"a = "(1,2,3,4)"b = eval(a)》》[[1, 2], [3, 4], [5, 6], [7, 8], [9, 0]...

2020-04-25 19:20:11 114

原创 paper阅读

DSTN 模型（KDD 2019）Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction 辅助广告数量不等，如何兼容？DSTN-P：Pooling Model同类型的辅助广告中，既包含与当前广告相关的信息，也包含无用噪声，如何区分对待？DSTN-S：Self-attention Model不同类型...

2020-04-24 16:52:51 225

原创 HellTrustSVD

现在，大多推荐模型为了解决冷启动和稀疏问题引入社交网络中的信任关系。然而对于没有社交网络数据的场景挑战很大。社交数据的噪声和联系太弱也对结果有影响。作者提出一种既利用了显式数据和隐式数据的模型，可以在没有trust数据的情况下，从rating数据中提取社交关系，并且RMSE和MSE还可以和普通的社交推荐一样好。大多数现有模型使用显式数据，忽视了隐式数据，其主要创新点主要在从评分矩阵中挖掘...

2020-04-23 00:37:04 476 1

原创 python的=、copy和deecopy详细区别

1、不可变对象三个的地址都相同2、可变对象：=：地址相同，改变原来的值都会改变新值 deepcopy：地址不相同，改变原来的值都不会改变新值 copy：地址不相同，无复杂子对象：改变原来的值不会改变新值有复杂子对象，修改“子对象”原来的值新值才会改变总结：1对于简单的对象，例如不可变对象（数值，字符串，元组），用 shallow c...

2020-04-22 17:48:36 725

原创开发中关键字区别

1.strcut和class的区别1.默认的继承访问权。class默认的是private,strcut默认的是public。2.默认访问权限：struct作为数据结构的实现体，它默认的数据访问控制是public的，而class作为对象的实现体，它默认的成员变量访问控制是private的。3.“class”这个关键字还用于定义模板参数，就像“typename”。但关建字“struct”不用于...

2020-04-21 15:19:10 118

原创 HMM隐马尔科夫模型

是关于时序的概念模型，描述了由一个隐藏的马尔科夫链随机产生不可观测的状态随机序列，再由各个状态生成一个观测而产生的观测随机序列的过程。隐藏的马尔科夫链随机生成的状态序列成为状态序列：每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列。序列的每一个位置又可以看作一个时刻。举个例子，假设朋友仅仅对三种活动感兴趣:公园散步,购物以及清理房间做什么事情只凭天气.你不知道天气但知道他做的事情...

2020-04-19 16:51:56 136

原创 graph-embedding

word2vec和由其衍生出的item2vec是embedding技术的基础性方法，但二者都是建立在“序列”样本（比如句子、推荐列表）的基础上的。而在互联网场景下，数据对象之间更多呈现的是图结构。典型的场景是由用户行为数据生成的和物品全局关系图（图1），以及加入更多属性的物品组成的知识图谱经典的Graph Embedding方法——DeepWalk2014年提出的DeepWalk...

2020-04-19 15:50:14 213

原创 MTL多任务学习-Multitask Learning

把多个相关（related）的任务（task）放在一起学习多任务学习时，多个任务之间的模型空间（Trained Model）是共享的多任务学习涉及多个相关的任务同时并行学习，梯度同时反向传播，多个任务通过底层的共享表示（shared representation）来互相帮助学习，提升泛化效果。学习过程中通过一个在浅层的共享表示来互相分享、互相补充学习到的领域相关的信息，互相促进学习...

2020-04-19 00:54:34 606

原创 vscode插件

多种代码运行插件runcode使用参考:https://zhuanlan.zhihu.com/p/54861567

2020-04-18 14:29:52 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除