love_data_scientist-CSDN博客

原创从0到1搭建推荐系统-01标签体系构建+内容审核体系构建

推荐系统中的标签

2022-11-08 10:57:01 709

原创从0到1搭建推荐系统

推荐系统从0到1，帮助项目迅速启动

2022-10-27 17:07:29 332

1.推荐物料来源1.1 原始数据来源根据平台属性不同，分为ugc,pgc,ogc来源上：自己生产或者爬去1.2 内容审核把低质、敏感以及需要过滤的内容过滤，不进入可推荐内容库1.3打标给内容打标，比如keyword,实体词，tag等，方便文章显式分发2.推荐方式2.1显式推荐2.1.1热点推荐2.1.2根据keyword/实体词/tag推荐/类别2.1.3根据用户画像推荐2.1.4根据用户applist2.2隐式推荐2.2.1 FM/xgbo.

2021-04-27 17:27:44 287

原创 sklearn 增量学习

如果想用sklearn进行在线学习如何操作呢？https://scikit-learn.org/stable/modules/computing.html?highlight=incremental%20learningStrategies to scale computationally: bigger data a way to stream instances...

2020-02-03 22:43:29 1041

原创复习_强化学习

强化学习常用的方法有基于值函数逼近的强化学习和基于确定性策略搜索的强化学习；基于值函数逼近的强化学习主要解决状态空间很大或者连续情况下的强化学习问题；包括DQN，double DQN，dueling DQN等；DQN：Human-level control through deep reinforcement learningDouble DQN：Deep Reinforceme...

2019-10-10 15:36:05 223

原创复习-优化算法

在线学习算法：FTRL下面程序来自https://www.kaggle.com/jiweiliu/ftrl-starter-code/codealpha = .005 # learning ratebeta = 1. # smoothing parameter for adaptive learning rateL1 = 0.2 # L1 regu...

2019-09-16 12:56:47 202

原创 pytorch1.1 单机单GPU程序改为单机多GPU程序方案

最近在用pytorch训练图文相关性模型，图片特征使用resnet抽取，文案特征使用bert抽取，把这两个特征合并为一个特征送入浅层神经网络中。数据量：1千万条。机器配置：单机4块GPU现状：单个GPU跑一轮需要15个小时左右。pytorch1.1对单机多GPU支持的很好，直接一条命令解决：nn.DataParallel(model).cuda()方案1:直接有两个模型...

2019-09-04 19:23:34 1075

原创服务器无root的权限下pytorch1.2 踩坑（可联网）

1.服务器只安装了cuda9.22.安装anacondaAnaconda3-5.2.0-Linux-x86_64.sh python3.6shAnaconda3-5.2.0-Linux-x86_64.sh增加清华源：https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/如果卸载重装执行conda instal...

2019-08-30 20:54:58 1728

原创 paddle 动态图编程

1.paddlehttps://www.paddlepaddle.org.cn/2.数据是mnist，把mnisit数据集合变成 img \t label形式#coding:utf-8from __future__ import print_functionimport numpy as npimport paddle.fluid as fluidimport paddle...

2019-08-27 20:04:50 905

转载图文相关性论文

Image-sentence Matching转自https://blog.csdn.net/lry_xueshu/article/details/83030906

2019-08-20 15:12:08 469

原创深度学习之提升数据加载速度--lmdb--1

直接读取文件->保存到lmdb->从lmdb读入数据,python3.6import lmdbimport numpy as npdef write_lmdb(filename,lmdb_path="output/test"): env = lmdb.open(lmdb_path) with env.begin(write=True) as txn: ...

2019-08-18 20:58:49 822

原创 pytorch构建自己数据集合

使用pytorch构建自己的训练和测试数据集合，涉及自己数据处理类，数据变为tensor，数据分割等，为后续的训练准备了训练数据和测试数据import torchfrom torch.utils.data import DataLoader, Dataset,TensorDataset,random_splitimport sysclass label_featureDataS...

2019-08-15 17:09:59 403

转载优化方法集合

https://blog.csdn.net/yinyu19950811/article/details/90476956优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW，LazyAdam)https://www.cnblogs.com/maybe2030/p/9220921.html[Deep Learning] 常用的Ac...

2019-07-29 20:06:18 125

原创 pytorch sklearn dataset load_breast_cancer 逻辑回归（二分类）

import matplotlib.pyplot as pltimport torchfrom torch import nnfrom torch import optimfrom sklearn.datasets import load_breast_cancerdata_set = load_breast_cancer()x = torch.from_numpy(data_set...

2019-07-29 17:13:16 2708

原创 pytorch获得图片特征

1.模型为resnet152, 默认输出图片大小是224*224*32.获取除去全连接层的模型import torchimport torch.nn as nnimport torchvision.models as modelsfrom torch.autograd import Variableresnet152 = models.resnet152(pretrained=Tr...

2019-07-19 20:15:40 1254

转载 NLP GLUE数据

CoLA: 单句的二分类问题, 判断一个英文句子在语法上是不是可接受的. SST-2 单句的二分类问题, 句子的来源于人们对一部电影的评价, 判断这个句子的情感. MRPC 句子对来源于对同一条新闻的评论. 判断这一对句子在语义上是否相同. STS-B 这是一个类似回归的问题. 给出一对句子, 使用1~5的评分评价两者在语义上的相似程度. Q...

2019-07-17 12:36:57 747

原创使用pytorch中的bert模型获取句子向量为后续NLP任务做准备

1.安装pytorch-pretrained-BERTpip install pytorch-pretrained-bert我的python版本是3.62.下载模型和字典：模型和字典位置：https://s3.amazonaws.com/models.huggingface.co例如下载bert-base-cased.tar.gzhttps://s3.amazonaws...

2019-07-15 12:22:01 10250 4

原创 paddlepaddle-gpu的安装 cuda9.0 cudnn7.3.1

1.安装anaconda2.安装cuda9.0 cudnn7.3.13.安装paddlepaddle-gpu，遇到的问题：1.Failed to find dynamic library: libcublas.so ( libcublas.so: cannot open shared object file: No such file or directory )解决方法：定...

2019-07-12 12:24:00 2427 1

原创复习基于图的推荐算法(PersonalRank)

将用户行为数据用二分图表示，例如用户数据是由一系列的二元组组成，其中每个元组(u,i)表示用户u对物品i产生过行为。将个性化推荐放在二分图模型中，那么给用户u推荐物品任务可以转化为度量Uv和与Uv没有边直接相连的物品节点在图上的相关度，相关度越高的在推荐列表中越靠前。基于随机游走的PersonalRank算法假设给用户u进行个性化推荐，从图中用户u对应的节点Vu开始游走，游...

2019-07-08 11:36:57 618

原创 boost.python boost.numpy python 和 C++联合编程

一 python的numpy.array传给C++处理1.安装boost,boost-python,boost-numpy2.主要程序2.1 vectors.cpp#include<cmath>#include<boost/python/module.hpp>#include<boost/python/def.hpp>#include&lt...

2019-07-05 20:21:37 1083

原创机器学习模型部署远程服务功能

框架 flaskexample1.sklearn 训练模型并保持import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.utils import check_random_statefrom sklearn.externals import joblibn = 10...

2019-06-22 13:21:57 675

原创 PIL python 图形大小随文字变化

import cv2from PIL import Imageimport numpy as npfrom PIL import Image, ImageDraw, ImageFontdef self_adaption_font_oneline(font_filename, default_font_size, text): ttfont = ImageFont.truetyp...

2019-05-31 14:31:17 1228

原创 python opencv实现 12色相环、24色相环（基于RGB空间和基于HSV空间实现）

opencv中HSV的值范围是：H 0-180；S 0-255； V 0-255import cv2from PIL import Imageimport numpy as npdef fetch_img(img, first_list, color_value_list, width, height): r,g,b = color_value_list sec_...

2019-05-23 21:45:24 4743 5

原创 PIL处理图片融合问题：从opencv读图片，变成4通道的numpy.array类型，再变成PIL.Image.Image类型，最后是两个png格式图片融合

1.从opencv读图片为彩色图片backgound，2.此时的backgound存储格式是BGR，而PIL图片格式是RGB，把backgound变成RGB格式cv2.cvtColor(backgound,cv2.COLOR_BGR2RGB);3.把backgound变成png图片，增加一层透明度值为255，img为numpy.array类型 img[:, :, :3] = backgo...

2019-05-22 16:13:23 2000

原创机器学习模型转换成零依赖代码

m2cgenm2cgen(Model 2 Code Generator) - is a lightweight library which provides an easy way to transpile trained statistical models into a native code (Python, C, Java).github:https://github.com/B...

2019-03-07 09:43:42 286

转载高维空间最近邻逼近搜索算法评测

文章转自：https://www.jqr.com/article/000245最近邻方法是机器学习中一个非常流行的方法，它的原理很容易理解：邻近的数据点是相似的数据点，更可能属于同一分类。然而，在高维空间中快速地应用最近邻方法，却是非常有挑战性的工作。全球最大的流媒体音乐服务商Spotify需要向上面的海量用户推荐音乐，其中就用到了最近邻方法。也就是在高维空间、大型数据集上应用最近邻方法。...

2019-02-28 14:41:58 595

原创 GPU服务器配置深度学习开发环境(cuda9.0,cudnn7.1.2,tensorflow-gpu1.9,pytorch1.0.0)

环境CentOS release 6.3Tesla P4anaconda2gcc4.8glibc-2.14tensorflow1.9pytorch1.0 第一步：安装NVIDIA驱动，使lspci | grep -i nvidia能够显示出来，nvidia-smi查看GPU使用情况参考https://blog.csdn.net/oTengYue/articl...

2018-12-24 16:27:41 651

转载计算广告资料汇总

转自：计算广告资料汇总 https://www.jianshu.com/p/8c591feb9fc4papers计算广告论文、学习资料、业界分享 - 王喆 https://github.com/wzhe06/Ad-papers Paper Collection of Real-Time Bidding - Weinan Zhang https://github.com...

2018-11-12 11:00:21 225

原创 learning to rank学习笔记

learning to rank是这几年火起来的一个学科，可以应用于检索、推荐等排序场景中。我们的业务场景大都和排序相关，那么掌握住learning to rank就又多了一条解决业务问题的方法。常见的排序算法：1.文本相关性计算方法：BM25，TF_IDF，word2vec等。2.图像相似度计算方法：平均哈希（aHash），感知哈希（pHash），差异值哈希。3.图文相关性使用g...

2018-09-29 19:52:17 369

原创协同过滤相似度计算

(1)传统的杰卡德相似度计算公式如下，其中A，B可以为不同用户的购物品类，当用户量特别大的时候，导致计算复杂度比较高，因为直接进行了笛卡尔积运算，这时候可能没有办法进行运算。优化方法如下：扫描整个品类，统计用户A和B共同出现的次数num_A_B，统计用户A和B出现的总次数num_A，num_B，Ａ和Ｂ的并集为num_A+num_B-num_A_B...

2018-08-27 20:17:48 2370

原创 mac远程连接服务器

windows系统可以通过XShell远程连接服务器，而mac没有XShell，探索了两种比较好的方法。1.SecureCRT 下载地址：https://www.vandyke.com/products/securecrt/mac_osx.html2.FinalShell 安装文档：https://blog.csdn.net/lonely_ant/article/details...

2018-07-19 11:45:18 723

原创 linux系统从百度网盘中拉大文件数据

有些深度学习相关的数据集合很有用，而且数据量特别大，为了以后学习使用，通常保存到百度网盘中。有时候数据来源于比赛网站，不能直接使用wget url获得数据，可以先把数据保存到百度网盘，通过离线下载输入相应的url，进行数据保存。在linux命令行中，快速的拉取数据变的很有用了，结果自己的经历，特把成功过程总结如下。1.在谷歌浏览器中安装Tampermonkey插件（http://tampermon...

2018-07-12 17:11:30 798

原创重要比赛集锦

kaggle https://www.kaggle.com/ challenger.ai 全球AI调整赛 https://challenger.ai/ https://tianchi.aliyun.com/competition/index.htm 阿里天池大数据比赛

2018-07-11 17:50:25 154

转载结合Scikit-learn介绍几种常用的特征选择方法

转自：https://blog.csdn.net/woaidapaopao/article/details/62461380 感谢我愛大泡泡的总结，感觉很不错特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟...

2018-04-20 15:40:05 220

原创 word2vec资料收集

一文详解 Word2vec 之 Skip-Gram 模型（结构篇） https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html一文详解 Word2vec 之 Skip-Gram 模型（实现篇） https://www.leiphone.com/news/201706/QprrvzsrZCl4S2lw.html一文详解 Wor

2018-01-15 19:00:44 255

原创 python和shell处理数据的程序整理

1把文件按行拼接(shell脚步)文件f1123filename=$1abc=`cat $filename | awk 'BEGIN{count=1;str=""}{ if(count==1) { count++ } else if(count {

2018-01-09 19:32:04 423

原创机器学习入门--进阶资料和流程建议

1.入门教程1.1李航老师的《统计学习方法》

2017-12-10 22:52:51 535

原创深度学习框架---keras的层次示意图---方便直观理解---适用sklearn模型的展示

感觉keras确实比其他框架舒服一点，但是前期理解keras层的时候可能有点小问题，keras的层使用了原始神经网络层的概念，即先有上层的输出聚合，聚合后在进入激活函数。我的环境是python3.5+tensorflow+keras+graphviz+pydot_ng+pydotplus其中安装好Python3以及pip之后执行： pip install tensorflowpip install...

2017-11-25 23:25:11 1803

原创大数据处理神器map-reduce实现(仅python和shell版本)

熟悉java的人直接可以使用java实现，而不熟悉java的怎么办？为了方便

2017-11-23 15:15:39 541

图表示学习-GraphRepresentationLearning

Machine Learning Yearing(1-52)

learning to rank 资料集合

空空如也