5 悟乙己

尚未进行身份认证

我要认证

心如花木,皆向阳而生!

等级
TA的排名 295

推荐 | 微软SAR近邻协同过滤算法相关问题(三)

遇到的问题贴…持续追加…参考相关帖:推荐 | 微软SAR近邻协同过滤算法解析(一)推荐 | 微软SAR近邻协同过滤算法拆解(二)练习题︱ python 协同过滤ALS模型实现:商品推荐 + 用户人群放大1 问题一:模型预测之后Prediction一直为0模型预测之后Prediction一直为0,同时发现model.item_similarity对角阵只有1,如下:array([[1, 0, 0, ..., 0, 0, 0], [0, 1, 0, ..., 0, 0, 0],.

2020-09-10 18:08:56

推荐 | 微软SAR近邻协同过滤算法拆解(二)

推荐 | 微软SAR近邻协同过滤算法解析(一)前面这篇介绍了整个SAR算法,算法本身比较容易理解。本篇主要对一下里面有趣的小函数。文章目录1 对角方阵求jaccard / lift2 矩阵取top-k函数3 sparse稀疏矩阵构造4 一些评价指标:NDCG、MAP、MRR、HR、ILS、ROC、AUC、F1等4.1 Hit Ratio(HR)4.2 Mean Average Precision(MAP)1 对角方阵求jaccard / lift这个发生在CCC矩阵co-occurence mat

2020-09-09 14:29:26

推荐 | 微软SAR近邻协同过滤算法解析(一)

SAR是一种快速,可扩展的自适应算法,可根据用户交易历史记录提供个性化推荐.它通过理解项目之间的相似性来推动,并向用户具有现有亲和力的项目推荐类似项目.SAR is a fast scalable adaptive algorithm for personalized recommendations based on user transaction history and items description. The core idea behind SAR is to recommend it.

2020-09-08 19:09:19

scipy.sparse、pandas.sparse、sklearn稀疏矩阵的使用

单机环境下,如果特征较为稀疏且矩阵较大,那么就会出现内存问题,如果不上分布式 + 不用Mars/Dask/CuPy等工具,那么稀疏矩阵就是一条比较容易实现的路。文章目录1 scipy.sparse1.1 SciPy 几种稀疏矩阵类型1.2 lil_matrix1.3 矩阵的通用属性1.4 稀疏矩阵存取2 pandas.sparse2.1 SparseArray2.2 新建SparseDataFrame2.3 格式转化2.4 稀疏矩阵的属性2.5 scipy.sparse与pandas.sparse3 s

2020-09-03 16:41:08

Python使用sftp实现上传和下载功能(实例代码)

参考:Python—实现sftp客户端(连接远程服务器)import paramiko transport = paramiko.Transport(("106.15.88.182", 10022)) # 获取Transport实例transport.connect(username="root", password="123456") # 建立连接 # 创建sftp对象,SFTPClient是定义怎么传输文件、怎么交互文件sftp = paramiko.SFTPClient.fr

2020-08-07 19:13:18

sklearn中多种编码方式——category_encoders

离散型编码的Python库,里面封装了十几种(包括文中的所有方法)对于离散型特征的编码方法,接口接近于Sklearn通用接口,非常实用可以使用多种不同的编码技术把类别变量转换为数值型变量,并且符合sklearn模式的转换。官方github:https://github.com/scikit-learn-contrib/category_encoders官方文档:http://contrib.scikit-learn.org/category_encoders/#这个库的作者将类别编码分为两类,无

2020-08-06 22:50:50

python - 机器学习lightgbm相关实践

相关文章:R+python︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读python︱sklearn一些小技巧的记录(训练集划分/pipelline/交叉验证等)GBDT一个藤上,进化的xgb以及lgb。比较好的几则练习代码:QLMX/data_mining_modelsAnfany/Machine-Learning-for-Beginner-by-Python3文章目录0 相关理论0.1 内存更小0.2 速度更快0.3 直接支持类别特征

2020-08-06 18:58:14

linux ubuntu系统安装dotnet / Azcopy

如果有小伙伴使用微软的blob进行文件管理的话,可能会用到。文章目录一 centos安装1 安装.net core 1.1.1版本2 安装azcopy3 一些报错3.1 但是dotnet版本不够3.2 libunwind/libicu一直安装不上4 其他系统azcopy安装5 python操作blob二 azcopy使用1 使用 AzCopy 和 Blob 存储传输数据一 centos安装之前在centos参考的是:CentOS 7安装Azcopy1 安装.net core 1.1.1版本.n

2020-08-03 22:19:58

练习题︱ python 协同过滤ALS模型实现:商品推荐 + 用户人群放大

之前的一个练习题:练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建(neo4j)提及了几种简单的推荐方式。但是在超大规模稀疏数据上,一般会采用一些规模化的模型,譬如spark-ALS就是其中一款。这边,笔者也是想调研一下这个模型的操作性,所有就先用单机版的测试一下;对应的spark.mlib有分布式的版本。练习代码可见:mattzheng/pyALS文章目录1 ALS算法 - Alternating Least Square - 交替最小二乘法1.1 理论介绍1.2 58同城的推荐场景实战2

2020-06-04 14:52:47

网络表情NLP(二)︱特殊表情包+emoji识别

这是一篇一本正经无聊的小研究项目。。互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。文章目录1 emoji表情识别几种特殊符号:颜文字,emoji,特殊标号.其中,emoji,特殊符号都是可以分词分开的,但是颜文字字数比较多,分词的时候会占着比较多的内容且不太好分1 emoji表情识别github:https://gi

2020-06-02 23:08:48

网络表情NLP(一)︱颜文字表情实体识别、属性检测、新颜发现

这是一篇一本正经无聊的小研究项目。。互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。文章目录1 混用的几个库1.1 模块一:rouge1.2 模块二:jieba_fast1.3 关键词查询组件:flashtext2 颜文字检测与识别2.1 颜文字检测2.2 颜文字实体分词3 新颜文字发现3.1 新颜文字发现3.2 颜文字属性识别

2020-06-02 22:27:26

docker︱docker run的解读与一键部署

这是之前的文章:docker︱在nvidia-docker中使用tensorflow-gpu/jupyter文章目录1 docker run的解读1.1 docker run1.2 几种进入容器的方式2 docker .sh形式启动2.1 常规报错2.2 常规写法步骤2.3 几个实践case3 docker打包成.rar一键部署3.1 docker 容器导出和导入(export / impo...

2020-04-14 11:57:42

TensorFlow-Serving的使用实战案例笔记(tf=1.4)

最近在测试一些通用模型+项目,包括:CLUE(tf+pytorch),bert4keras(keras), Kashgari(keras+tf)等。其中如果要部署的话,就有tensorflow-serving和flask的选择了。这里刚好有一个非常好的实战例子,基于tensorflow 1.x的,比较全面。文章目录1 安装 TensorFlow Serving2 keras-H5格式转变...

2020-03-16 17:33:17

nvidia-rapids︱cuGraph(NetworkX-like)关系图模型

RAPIDS cuGraph库是一组图形分析,用于处理GPU数据帧中的数据 - 请参阅cuDF。 cuGraph旨在提供类似NetworkX的API,这对数据科学家来说很熟悉,因此他们现在可以更轻松地构建GPU加速的工作流程官方文档:rapidsai/cugraphcuGraph API Reference支持的模型:文章目录1 安装与背景1.1 安装1.2 背景2 简单的demo3...

2020-02-25 21:56:02

nvidia-rapids︱cuML机器学习加速库

cuML是一套用于实现与其他RAPIDS项目共享兼容API的机器学习算法和数学原语函数。cuML使数据科学家、研究人员和软件工程师能够在GPU上运行传统的表格ML任务,而无需深入了解CUDA编程的细节。 在大多数情况下,cuML的Python API与来自scikit-learn的API相匹配。对于大型数据集,这些基于GPU的实现可以比其CPU等效完成10-50倍。 有关性能的详细信息,请参阅...

2020-02-25 21:38:59

nvidia-rapids︱cuDF与pandas一样的DataFrame库

cuDF(https://github.com/rapidsai/cudf)是一个基于Python的GPU DataFrame库,用于处理数据,包括加载、连接、聚合和过滤数据。向GPU的转移允许大规模的加速,因为GPU比CPU拥有更多的内核。笔者觉得,对于我来说一个比较好的使用场景是,代替并行,在pandas处理比较慢的时候,切换到cuDF,就不用写繁琐的并行了。官方文档:1 Docs »...

2020-02-25 21:12:29

NVIDIA的python-GPU算法生态 ︱ RAPIDS 0.10

随着新版本的推出,RAPIDS 迎来了其推出一周年纪念日。回顾所经历的一年,RAPIDS团队就社区对该项目的关心和支持表示衷心的感谢。此前,RAPIDS获得了其首个BOSSIE奖。非常感谢各位的支持!RAPIDS团队将继续推动端对端数据科学加快发展,达到新高度。文章目录RAPIDSRAPIDS定义rapids背景资料RAPIDS核心库更新cuDFcuML 和 XGBoost从cuML 训练到...

2020-02-25 19:55:30

statsmodels︱python常规统计模型库

之前看sklearn线性模型没有R方,F检验,回归系数T检验等指标,于是看到了statsmodels这个库,看着该库输出的结果真是够怀念的。。文章目录1 安装2 相关模型介绍2.1 线性模型2.2 离散选择模型(Discrete Choice Model, DCM)2.3 非参数统计2.4 广义线性模型 - Generalized Linear Models2.5 稳健回归——Robust R...

2020-02-18 10:37:11

聚类 | Map-Equation多级网络聚类模型——InfoMap

受苏神的《最小熵原理(五):“层层递进”之社区发现与聚类》启发,拿来做词聚类,看苏神的贴出来的效果蛮好,就上手试了试,感觉确实不错。最新的v1.0版本还有专门网站:https://mapequation.github.io/infomap/1 简单的理论Infomap 的双层编码方式把群组识别(社区发现)同信息编码联系到了一起。一个好的群组划分,可以带来更短的编码。所以,如果能量化编码长度...

2020-02-07 16:34:56

微信对话开放平台智能对话模块的几个亮点

微信AI首席科学家牛成公布了最新开放方案,并重磅宣布全面开放各层次 NLP 能力。具体说来,微信 AI 迈出了“三大步”:以硬件合作为核心的智言小微硬件开放平台 2.0 正式亮相; 公开以对话开放能力为核心的微信对话开放平台; 全面开放以自然语言处理能力为核心的 NLP 基础技术平台。参考:微信9年:张小龙指明方向,微信AI全面开放NLP能力今天公开课上隆重介绍了...

2020-01-10 08:30:00

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证(专家版)
    技术圈认证(专家版)
    博客专家完成年度认证,即可获得
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 博客之星-入围
    博客之星-入围
    授予每年博客之星评选结果第21-200名的用户