自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

数据挖掘爱好者

关注搜索、推荐相关算法

原创基于 PAI 搭建企业级个性化推荐系统最佳实践

本方案结合阿里云 PAI 团队预置的基础版算法方案为例，演示如何以阿里云提供的数据、AI 类产品为基础，离线部分采用Maxcompute&Dataworks&PAI的大数据&AI体系，在线服务采用推荐引擎 PAI-REC、A/B 测试系统 PAI-A/B、在线模型服务 PAI-EAS、在线数据服务 Hologres，并通过 PAI-REC 运维与实验操作平台，利用阿里云云速搭 CADT，快速从 0 到 1 搭建一套高效、精准、易用、可扩展的智能推荐系统。⚫ 简单易用：SQL语言，在线开发，全面支持UDX。

2023-04-26 11:02:47 480

原创 jar 包没有打入依赖包

ODPS-0730001: 报错信息

2023-02-22 10:17:25 218

原创 pandas read_csv 读取数据中包含双引号

如果数据中的某个字段有引号，引号里面有逗号（逗号也是字段分隔符），如：1,"a,b,c"需要用下面的方法读取：import pandas as pddf=pd.read_csv("complext.csv",skipinitialspace=True,escapechar='\\',quotechar='"')df.to_csv("new.csv",sep="\x01")...

2020-08-08 08:01:57 4491

原创读取txt中的字段key，然后编号再输出

import pandas as pdsep="|"def read_key(dict_key, arr_fileld, idx=[]): if len(idx) == 0: return for index in idx: keys = arr_fileld[index].split(",") for key in keys: if key not in dict_key: di.

2020-06-21 14:52:50 357

原创 python pip 设置阿里云的源，更新速度超级快

根目录上设置一个文件myhome$ cat .pip/pip.conf[global]trusted-host = mirrors.aliyun.comindex-url = https://mirrors.aliyun.com/pypi/simple

2020-06-15 09:39:37 929

原创阿里云endpoint

oss的endpoint：https://help.aliyun.com/document_detail/31837.html?spm=5176.11065259.1996646101.searchclickresult.3c7e7a0d1SQo0Q#title-qvx-r3a-xr4

2020-06-13 12:07:17 2116

原创 tensorflow 的 hashtable 和index table 读取，求均值向量，缺失值处理

import tensorflow as tfprint(tf.__version__)list_arr = [9, 8, 6, 5]value_arr = [0, 1, 2, 3]tf_look_up = tf.constant(list_arr, dtype=tf.int64)tf_value_arr = tf.constant(value_arr, dtype=tf.int64)table = tf.contrib.lookup.HashTable(tf.contrib.lookup.

2020-06-07 17:15:45 1401

原创 tensorflow 通过TextLineDataset dataset.map 读取数据

这样读取数据比较麻烦，因为map是一行行读取，需要自己把数据整理成列的方式。处理起来还是比较麻烦，用decode_csv可以直接把数据处理成列的方式，简单很多。import tensorflow as tffrom tensorflow.contrib.lookup import HashTablefrom tensorflow.contrib.lookup import TextFileIdTableInitializerfrom tensorflow.contrib.lookup im.

2020-06-07 14:50:36 1360

原创递归遍历子目录改后缀名（批量文本改名rename）

#!/bin/sholdsuffix="txt"newsuffix="sql"dir=$(eval pwd)function getdir(){ for element in `ls $1` do dir_or_file=$1"/"$element if [ -d $dir_or_file ] then getdir $dir_or_file else suf.

2020-06-06 18:57:33 549

原创样本查询embedding向量

import tensorflow as tf#生成10*5的张量p=tf.Variable(tf.random_normal([10,5]))# 模拟两个样本中的2个稀疏字段的embedding，有4个元素1，3，2，4b = tf.nn.embedding_lookup(p, [[1, 3],[2,4]])# b 的维度是2 * 2 * 5 ，batch=2 ，field s...

2020-05-03 10:36:26 502

原创深度学习 tensorflow 三维矩阵乘法（batch 迭代必须搞懂的矩阵乘法，维度增加）

import tensorflow as tf# 2 * 2 * 2 的embedding 矩阵，一个batch，每个样本有f个字段，每个字段有k维# 那么矩阵的大小就是batch * f * kembedding_index = tf.constant([[[0.1,0.2], [0.3,0.2]], ...

2020-05-03 09:32:40 3921

原创 pandas 对一列做变换，手工版的labelEncoder 和 labelEncoder

import pandas as pddf = pd.DataFrame({"key": ["aa", "bb", "cc"]})dict = {"aa": 1, "bb": 3, "cc": 2}df_map = df["key"].map(dict)print("raw:\n", df.head())print("mapped:\n", df_map)raw: ...

2020-05-03 08:46:14 1661

原创阿里云提交spark 任务找不到 project，是因为endpoint不对

阿里云提交spark 任务找不到 project，发现是因为spark -odps 的endpoint 不正确，从阿里云project 的配置（https://setting-cn-beijing.data.aliyun.com/#/dataSource）中找到endpoint，然后修改endpoint 之后就正确了。 ./bin/spark-submit --jars cupid/o...

2020-04-29 20:08:47 601

原创 keras的自定义 layer和Model

本文对https://www.cnblogs.com/zdm-code/p/12245906.html 里面的一些细节做了修改，model里面增加了一层softmax。import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layers,Sequential,optimi...

2020-04-19 12:24:37 1418

原创复旦中文文本分类语料库结构化解析版本

搜狗新闻文本分类预测没有整理为好用的格式，花了点时间修改为\u0001 分割的数据create table sougou_text( id bigint, cate string, wenxian string, origin_from string, origin_city string, origin_num string,...

2020-04-06 15:11:30 1426

原创如何在linux命令行（终端）执行ipynb 文件。可以不依赖jupyter。

安装 runipypip install runipy终端执行ipynbrunipy <YourNotebookName>.ipynb在终端命令行执行shell脚本，（也可以在crontab 中执行）：(base) [recommend@app-0-5-B-006 script]$ cat run1.sh#!/bin/bashcd /hom...

2020-01-11 10:17:13 22022 3

原创 mac 下brew的源更换为阿里云

# 替换brew.git:cd "$(brew --repo)"git remote set-url origin https://mirrors.aliyun.com/homebrew/brew.git# 替换homebrew-core.git:cd "$(brew --repo)/Library/Taps/homebrew/homebrew-core"git remote set-...

2019-09-03 08:09:39 1944

原创搜索引擎算法之关键词类目预测

在搜索算法中，关键词类目是非常重要的一个话题，是搜索排序中的一个重要模块。搜索排序可以可以简单的分成几个模块：文本相关性、质量分、转化率。文本相关性可以由粗到细分解为类目相关性、属性相关性、语义相关性几个部分。本文重点解析一下类目相关性。例如用户搜索“连衣裙”，最相关的类目是“女装-连衣裙”、“童装-连衣裙”。而其他类目中包含连衣裙就不是那么相关，例如帽子类目的商品“适合沙滩连衣裙的帽子”。所...

2019-04-29 13:48:29 3740

原创各公司的机器学习平台的github

linkedin：https://github.com/linkedin/photon-ml/wiki/Photon-ML-Tutorial 我们用了里面的LR算法。奇虎：https://github.com/Qihoo360/XLearning阿里妈妈：https://github.com/alibaba/x-deeplearning...

2019-03-14 09:23:47 598

原创搜索引擎算法之同义词、近义词、上位词挖掘

在搜索引擎中，我们会碰到大量的同义词需求。用户在描述同一个东西的时候，会有各种各样的描述。在电商搜索环境中，同义词分成好几类： 1. 品牌同义词：nokia=诺基亚，Adidas=阿迪达斯 2. 产品同义词：投影仪≈投影机，电话≈cell phone;automobile 和car。 3.旧词和新词：自行车 -> 脚踏车 4...

2019-03-14 09:19:58 10927

原创 bert-as-service 尝试

肖涵博士，bert-as-service 作者。现为腾讯 AI Lab 高级科学家、德中人工智能协会主席。启动server：bert-serving-start -model_dir uncased_L-12_H-768_A-12 -num_worker=4/home/zhongling/tensorflow1.4/lib/python3.5/site-packages...

2019-01-26 21:57:21 6196 1

原创搜索引擎算法之Query Similarity （query relevance、查询的相似性或相关性）

目录介绍：一、计算相似性的方法很多，最简单是是根据字面的编辑距离来计算相似性。例如: 二、更近一步，很自然想到搜索点击的结果来计算两个Query的相似性。三、当然我们也可以借助协同过滤的方法，把query和点击item作为一个评分矩阵，按照协同过滤的方法来计算相关性。四、由于点击数据受到搜索结果的影响，由于排序质量的问题，点击的位置...

2019-01-06 13:54:48 6868 2

原创搜索引擎算法之 Query Tagging

《Using Search-Logs to Improve Query Tagging》，google论文https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38276.pdf根据搜索查询语料来标注词性标签。基于统计的方法来做。搜索：budget rent a car搜...

2019-01-05 14:35:34 1060

原创搜索引擎算法之 Query Analysis

在搜索引擎的算法优化中，Query分析有相当多的论文，其中主题包括：Query的类目预测。例如搜索“运动鞋”，可能包括：男士运动鞋、女士运动鞋、儿童运动鞋等类目，预测Query所在的类目对提高搜索结果的相关性非常重要。如果能够识别用户或者意图是男性还是女性，搜索结果又可以去掉很多不相关的类目。 Query的相关性计算。用于下拉补全词推荐、相关词推荐。不过补全词和相关词推荐在产品上是不...

2019-01-05 14:05:56 2113

原创开源报表工具 Metabase 使用技巧- 通过外表解决英文转中文的功能

在管理界面找到具体的报表名称和字段：选择设置：外表的定义：CREATE TABLE `dim_search_scenario_info` (`scenario` varchar(50) COLLATE utf8mb4_bin DEFAULT NULL,`chinese` varchar(100) COLLATE utf8mb4_bin NOT NULL,PRI...

2018-08-30 13:16:17 4256

原创开发中常用linux命令

1.找出所有shell 里面，找到所有shellfind /opt/task/ | grep -v pyspark2 | grep ".sh$" > a.sh 2.找出含有cluster 字符串的文件过滤其中有submit 和 cluster 字符串的shell文件：import oswith open("a.sh","r") as f: for ...

2018-07-09 15:27:05 249

原创图像相似性搜索思路

为什么做图像相似性搜索？通过图像找相似性比较容易。应用场景：通过图片找相似作品。比如足迹可以使用。新发布作品，通过图片找最相似的作品。各种推荐场景，可以把图像相似性的特征用在计算相似作品上面。算法思路：用AutoEncoder，发现用卷积的方法无法降维。放弃。。。搜索是考虑用Resnet之类的算法，尝试发现用倒数n层的特征区分度不大。用基于2-channel network的图片相似度判别，每次...

2018-06-26 22:48:56 1605

原创开源报表工具 Metabase 使用技巧-日期筛选实例

很多公司都有大量的数据，要把这些数据做出报表无疑需要大量的时间。虽然有EChart之类的图表工具，无奈开发成本还是太高。用BDP、Tableau 之类的软件，需要花钱买账号不说，数据安全也不好保证。因此一个开源的数据报表工具就显得非常重要。目前我们开始使用MetaBase这样的工具。 Metabase为什么好用呢？我们看中了它的几大原因。 1、可...

2018-06-26 19:51:17 12811 7

原创阅读GRU 用于推荐的代码

https://github.com/hidasib/GRU4Rec/blob/master/examples/rsc15/preprocess.pypython preprocess.pyFull train set Events: 31637239 Sessions: 7966257 Items: 37483Test set Events: 71222 Sessions: 15324 Item...

2018-04-17 09:03:11 2213

原创 scala 两个list 拼接 ++:

scala> val x = List(1)x: List[Int] = List(1)scala> val y = LinkedList(2)y: scala.collection.mutable.LinkedList[Int] = LinkedList(2)scala> val z = x ++: yz: scala.collection.mutable.Lin...

2018-03-01 14:07:59 11406

原创 excel 常用技巧

LOOKUP 的注意知识点：1、LOOKUP要查询一个明确的值或者范围的时候(也就是知道在查找的数据列是肯定包含被查找的值)，查询列必须按照升序排列。（在EXCEL帮助文档里也是这么说的）如果所查询值为明确的值，则返回值对应的结果行，如果没有明确的值，则向下取的于所查询值最近的值2、查找一个不确定的值，如查找一列数据的最后一个数值，在这种情况下，并不需呀升序排列。（下面有例子特别说明）Mac 的e...

2018-02-11 13:57:19 363

原创 ES增加3个雇员的文档

curl -XPUT 'localhost:9200/megacorp/employee/1' -d '{"first_name" : "John","last_name" : "Smith","age" : 25,"about" : "I love to go rock climbing","interests": [ "sports&q

2018-02-08 20:14:43 509

原创 HUE平台oozie 调度系统设置踩坑记录

通过oozie调用hive和shell脚本都没有问题。shell脚本需要先上传到hdfs 的某个目录下，只要账户对这个目录有读权限就行。Stdoutput Warning: /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports

2018-01-18 16:54:15 3987

原创中文维基百科word2vec训练及其代码

参考文章：中英文维基百科语料上的Word2Vec实验数据来自：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2繁体转为简体： opencc -i zhwiki.txt -o zhwiki.txt.simle -c zht2zhs.ini先把文件拆分为多个文件：split -l 3000

2018-01-05 13:22:30 814

原创 spark 安装standalone 的坑

spark 对应的scala 版本要注意通过spark-shell 来检查：spark 版本和scala的版本不一致，就没有办法运行了。花了2个多小时发现的坑。命令如下：$ ./bin/spark-shelllog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.Muta

2017-12-26 23:43:27 608

原创 python3.5 如何在virtural env 下面使用libsvm

python的libsvm设置

2017-07-25 21:00:08 838

转载 Ubuntu 16.04 RTL8111/8168/8411 不能上网经常断网解决办法 Author 时鹏亮 | 11/18/2016 = =这奇葩情况发生在从14.04升级到16.04之后，开始以

Ubuntu 16.04 RTL8111/8168/8411 不能上网经常断网解决办法修改了其中wget的部分：替换wget 这一段：去这里下载：https://github.com/mtorromeo/r8168Author 时鹏亮 | 11/18/2016= =这奇葩情况发生在从14.04升级到16.04之后，开始以为是服务器挂了，看实体机是正常

2017-07-21 07:05:00 7267

原创 wordPress 安装

使用阿里云镜像：https://market.aliyun.com/products/53616009/cmjj018048.html?spm=5176.730005.0.0.Xbpat7wordpress设置类目别名一定不要用中文。

2017-06-21 21:41:07 746

原创阿里云数加Max Compute的Java Map Reduce程序读取文本资源及其命令行和IDE运行配置

最近有个业务是想从商品数据中解析出需要的关键词。关键词来自一个词库，词库文件包括产品类目词、菜品词等等。选择用阿里云Max Compute 的Map Reduce（MR）来实现。

2017-06-07 17:18:19 1299

原创 placeholder 和计算

import tensorflow as tfimport numpy as np# 设计一个3维数组x = tf.placeholder('float', [None,2,2])# 加法器y = tf.add(x,x)#随机产生一个2*2 数组rand_array2=np.random.rand(2,2)# 编程3维rarray = [rand_array1]

2017-04-14 20:33:00 2321

logview里面SourceXML页面，找到 <TaskPlan> </TaskPlan>里面的内容的json格式转换

1.打开Chrome左上角三个点按钮 -> 更多工具 -> 扩展程序 2.打开右上角的开发者模式，点击加载已解压缩的扩展程序，导入上述文件夹 3. 找到插件，将其锁定在工具栏 4.把logview 里面SourceXML页面，找到 <TaskPlan> </TaskPlan>里面的内容，copy到这个插件里面的左侧即可使用了。

2023-09-15

出价公式推导 1705.09416.pdf

Optimal Real-Time Bidding for Display Advertising

2021-05-28

数字ip转ip v4的工具

数字ip转ip v4的excel工具，数字ip转ip v4的excel工具

2018-02-02

RTL8188C_8192C_USB_linux_v4.0.2_9000.20130911

无线网卡驱动 rtl 8188 网卡

2017-05-20

速卖通标题优化技巧

速卖通标题优化各种功能：标题诊断热词分析宝贝找词标题优化海量直通车关键词

2015-11-19

张乐博士的最大熵手册

张乐博士的最大熵手册张乐博士的最大熵手册张乐博士的最大熵手册

2011-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除