12 fjssharpsword

尚未进行身份认证

https://github.com/fjssharpsword

等级
博文 917
排名 207

推荐经典算法实现之DMF(tensorflow+MovieLen)

#-*-Encoding:UTF-8-*-'''@author:Jason.F@data:2019.07.17@function:ImplementingDMFwithTensorflowDataset:Movielen-1mEvaluating:hitradio,ndcghttps://...

2019-07-18 15:35:07

Tensorflow矩阵过大问题的解决

问题:推荐系统中,用户和物品矩阵进行embedding,但矩阵过大时,超过2G时,会有如下提示ValueError:Cannotcreateatensorprotowhosecontentislargerthan2GB.出现问题的代码语句是:self.user_item_embedding=tf.convert_to_tensor(matrix)matri...

2019-07-18 15:23:25

推荐经典算法实现之NCF(pytorch+MovieLen)

#coding:utf-8'''@author:Jason.F@data:2019.07.11@function:ImplementingNCFwithTorchDataset:MovielenDataset(ml-1m)Evaluating:hitradio,ndcghttps://a...

2019-07-12 08:08:25

推荐经典算法实现之SVDBias(python+MovieLen)

#coding:utf-8'''@author:Jason.F@data:2019.07.15@function:Implementation:SVDBiasDatatset:Movielen-1mEvaluation:hitradio,ndcgSquaredlossfunctionwit...

2019-07-11 16:10:34

python绘制正态分布曲线

场景:已知mean和variance,绘制正态分布曲线。importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspdimportmath#正态分布的概率密度函数。可以理解成x是mu(均值)和sigma(标准差)的函数defnormfun(x,mu,sigma):pdf=np.ex...

2019-06-21 08:24:27

python下处理win和linux分行符

场景:linux只用\n换行,win下用\r\n表示换行。linux正常的一行在win下分多行,linux下在字符串中替换\r\n,在win中正常。#linux只用\n换行,win下用\r\n表示换行。linux正常的一行在win下分多行,在字符串中替换\rimportpandasaspdimportnumpyasnpdata=pd.read_csv("/data/fj...

2019-05-24 10:24:42

python字符串截取及Html解析

场景:一串字符串,包括html代码,包括特定符号,目标是提取特定符号中间的子字符串,并且解析html代码提取相关属性的值。安装:pipinstallBeautifulSoup4代码参考:importrefrombs4importBeautifulSoupfromos.pathimportbasename,splitextstring1='CO潴留时可出现以下...

2019-05-17 12:59:01

概率编程库Pymc3案例之神经网络(批量训练)

Pymc3提供minibatch训练,参考:https://twiecki.io/blog/2016/06/01/bayesian-deep-learning/但在ppc上却遇到测试集batch问题。https://github.com/pymc-devs/pymc3/issues/2190这里我直接将测试集按照训练集批次大小分开了做预测,但准确率低好多。还未知有效。%mat...

2019-05-10 16:17:49

linux下配置Docker的jupyter notebook环境

jupyternotebook环境配置备忘:1、安装:pipinstalljupyter2、配置:1)生成配置文件:jupyternotebook--generate-config2)打开配置文件编辑:vim/root/.jupyter/jupyter_notebook_config.py主要配置远程可访问:配置密码,可先通过jupyternoteboo...

2019-05-09 17:56:27

pandas分批读取csv文件

csv文件数据过大,超过内存负荷,这种情况下,pandas对csv提供一个批量读取的参数。https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html代码如下:对于非分布式环境下的算法训练,这种方式是相对可取的,适合增量学习。...

2019-05-07 09:32:22

python下selenium模拟浏览器常见操作

本文主要记录下selenium的常见操作,如定位具体元素的不同方法、在具体元素内循环、提取文本等。具体代码如下:#-*-coding:utf-8-*-'''Createdon2019年4月30日@author:cvter'''fromseleniumimportwebdriverimporttimeimportpandasaspdimportn...

2019-05-05 11:39:51

linux上传github项目

重温linux上传github项目的几个步骤,前提是linux上部署了git。1)github线上创建一个Repositories,项目名和线下项目一致。2)linux线下切换到项目下,初始化为git可管理的仓库gitinit3)添加需要上传的文件上传所有文件gitadd.上传指定文件gitaddFileName查看提交状态gitstat...

2019-04-29 14:13:57

python多图拼接并利用resnet提取特征

代码功能:1、将多张图拼接成一张大图;2、基于resnet提取大图的特征。importtorchimporttorch.nnasnnfromtorchvisionimportmodels,transformsfromtorch.autogradimportVariableimportnumpyasnpfromPILimportImage...

2019-04-24 08:35:33

Bert-as-Service库Embedding句子

开源库:https://github.com/hanxiao/bert-as-service步骤:1、安装:pip3installbert-serving-server--userpip3installbert-serving-client--user2、下载预训练的BERT模型并解压:https://github.com/google-research...

2019-04-20 08:41:36

Google BERT模型提取句子Token特征

BERT模型:https://github.com/google-research/bert#fine-tuning-with-bert环境:linux+python3+tensorflow,也有pytorch版。1、下载:BERT-Base,Chinese:ChineseSimplifiedandTraditional,12-layer,768-hidden,12-...

2019-04-19 20:09:21

概率分布函数的关系框架

1)PMF(probabilitymassfunction,pmf,概率质量函数)代表一组离散值的概率。从PMF到CDF(cumulativedistritutionfunction,cdf,累积分布函数)是把概率值累加得到累积概率。从CDF到PMF,则计算累积概率之间的差值。2)PDF(probablitydenstiyfunction,pdf,概率密度函数)是连续性CD...

2019-04-18 12:19:41

Python含dict的list去重

功能:list里面的每一个元素都是dict,根据dict某一个key进行去重fromitertoolsimportcompressimportpandasaspdfromoperatorimportitemgetterfromitertoolsimportgroupby#功能:list里面的每一个元素都是dict,根据dict某一个key进行去重#函数1d...

2019-04-18 09:35:32

windows下基于selenium保存网页为图片

环境:windows+python3+chorme.exe1.安装:pip3installselenium;2.安装:下载chormedriver,解压到指定目录3.代码:#-*-coding:utf-8-*-'''Createdon2019年4月11日@author:cvter'''fromseleniumimportwebdriveri...

2019-04-11 18:16:49

概率编程库Pymc3案例之鲁棒线性回归

参考:https://twiecki.io/blog/2013/08/27/bayesian-glms-2/https://twiecki.io/blog/2014/03/17/bayesian-glms-3/https://twiecki.github.com/blog/2013/08/12/bayesian-glms-1/针对线性回归中异常点,利用t分布来替换正态分布构建贝叶斯模型...

2019-04-04 20:09:53

概率编程库Pymc3案例之神经网络

参考:https://docs.pymc.io/getting_started.htmlhttps://twiecki.io/blog/2016/06/01/bayesian-deep-learning/1、生成非线性可分的二分类数据%matplotlibinlineimporttheanoimportpymc3aspmimportsklearnimportnu...

2019-04-04 12:21:35
奖章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。