自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 资源 (11)
  • 收藏
  • 关注

转载 基于矩阵分解(MF,Matrix Factorization)的推荐算法

1 LMF2 SVD3 SVD++4 ALS参考博客:https://blog.csdn.net/weixin_41843918/article/details/90216729

2020-04-08 21:56:38 692 1

原创 矩阵分解与PCA降维知识点整理

目录1 矩阵谱分解2 矩阵LU分解3 满秩分解4 QR分解5 特征值分解6 奇异值分解7 PCA1 矩阵谱分解2 矩阵LU分解n阶方阵可能通过初等变换变为上三角矩阵,不一定存在。3 满秩分解4 QR分解5 特征值分解6 奇异值分解7 PCA其中第二步详细过程:由第(3)式和...

2020-04-07 14:37:44 948

原创 分类模型原理及优缺点整理总结

https://blog.csdn.net/qq_29153321/article/details/105299243除了上篇博客提到的决策树与剪枝、bagging与随机森林、极端随机树、Adaboost、GBDT算法外,还有以下几种算法:1 KNNKNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的某个(些)属性的平均值赋给该样本,就可以得到该样本...

2020-04-06 23:40:07 7102

原创 决策树与剪枝、bagging与随机森林、极端随机树、Adaboost、GBDT算法原理详解

1、决策树基本概念:从一组无次序、无规则的实例中推理出决策树表示形式的分类规则。1.1 ID3具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归调用以上方法,构建决策树。基础概念:- 熵:熵越大,随机变量的不确定性越大。- 条件熵:H(Y|X)表示在已知随机变量X的条件下...

2020-04-05 23:08:44 8289

原创 文章排序-pyspark wide_deep模型及基于TF Serving的模型服务部署(五)

一、wide_deep模型Wide部分的输入特征:离散特征离散特征之间做组合不输入有连续值特征的,至少在W&D的paper里面是这样使用的。Deep部分的输入特征:raw input+embeding处理对非连续值之外的特征做embedding处理,这里都是策略特征,就是乘以个embedding-matrix。在注:训练:notice: Wide部分用FTRL来训...

2020-03-30 16:07:38 573

原创 文章排序-pyspark FTRL模型(四)

构建TFRecords文件TFRecords其实是一种二进制文件,虽然它不如其他格式好理解,但是它能更好的利用内存,更方便复制和移动,并且不需要单独的标签文件。import tensorflow as tfimport pandas as pdfrom pyspark.sql import SparkSessionspark = SparkSession \ .builder ...

2020-03-30 15:53:57 648

原创 文章排序-pyspark LR模型(三)

最基础的模型目前都是基于LR的点击率预估策略,目前在工业使用模型做预估的有这么几种类型宽模型 + 特征⼯程LR/MLR + 非ID类特征(⼈⼯离散/GBDT/FM)宽模型 + 深模型wide&deep,DeepFM使用TensorFlow进行训练深模型:DNN + 特征embedding使用TensorFlow进行训练一、构造训练集,用户和文章特征作为训练集特...

2020-03-30 15:28:47 954

原创 pyspark 文章画像和用户画像(二)

文章特征文章特征包括:文章关键词权重、文章频道、文章向量其中文章关键词和文章向量的求取可参考https://blog.csdn.net/qq_29153321/article/details/104680282一、获取文章频道、k个关键词权重# 文章关键词数据:article_id,channel_id,keywords,topicsarticle_profile = spark.sp...

2020-03-30 15:13:14 510

原创 文本向量化表示

1、One-hot编码0、1表示缺点是矩阵稀疏,维数高和不能保留语义2、词袋(BOW)模型统计各词在文本中出现次数缺点是不能保留语义,维数高和稀疏性3、TF-IDF词频*逆词频缺点是不能保留语义4、N-Gram考虑了词的顺序N=1时称为unigram,N=2称为bigram,N=3称为trigram缺点是随着N的增大,词表迅速膨胀,数据出CBOW现大量稀疏的问题。5、Wo...

2020-03-30 14:39:55 632

原创 关键词提取算法总结

一、TF-IDFtf-idf = tf(词频)*idf(逆词频)其中tf(词频)为该词在该文档中出现的次数/该文档总次数,idf(逆词频) = log(N/1+N(x)),N为总文档数,N(x)为文档中出现该词的文档数。二、TextrankTextRank思想非常简单:通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。Tex...

2020-03-29 23:28:46 1160 1

原创 pyspark 相似文章推荐-Word2Vec+Tfidf+LSH(一)

本文目的最近在研究LSH方法,主要发现用pyspark实现的较少,故结合黑马头条推荐系统实践的视频进行了本地实现。本项目完整源码地址:https://github.com/angeliababy/text_LSH项目博客地址:https://blog.csdn.net/qq_29153321/article/details/104680282算法本章主要介绍如何使用文章关键词获取文章...

2020-03-05 21:32:30 3355 2

原创 crontab或apscheduler定时任务设置

定时任务设置一、Linux 设置定时任务crontab命令示例如下:crontab -e# 进入定时任务编辑0 6 * * * python3 predict.py >> /home/pi/logs/predict.log 2>&1定时说明:定时设置顺序分别为分、时、天、月、星期、命令。星号(*):代表所有可能的值。逗号(,):可以用逗号隔开的值指定...

2020-03-02 22:20:23 635

原创 中、柬文性别预测实践

方法一:调用包,只适合中文#!/usr/bin/env python# -*- coding:utf-8 -*-import ngendernames = ['阿宝','阿彪','阿城','阿丑','阿达']for name in names: import re lang_re = re.compile(r'[^\u4e00-\u9FBF]', re.S)...

2020-02-24 17:16:01 185

原创 Wide&Deep原理及实践

背景根据推荐系统使用数据的不同,推荐算法可分为基于用户行为推荐、基于内容推荐等。主流的推荐系统算法可以分为协同过滤推荐(Collaborative Filtering Recommendation)、基于内容推荐(Content-basedRecommendation)和混合推荐三种。混合推荐一般有UserCF、ItemCF、热度推荐、时效推荐、历史阅读推荐、用户爱好推荐等方法。推荐排序方法一...

2020-01-19 16:12:30 714

原创 摘要提取实践-基于依存句法和语义角色标注的三元组抽取

本篇文章主要介绍摘要提取的方法。本项目完整源码地址:链接: https://pan.baidu.com/s/1yymEHofUoFzjbN_mdThsKw 提取码: yd3z项目博客地址:https://blog.csdn.net/qq_29153321/article/details/104037335一、背景介绍目前自动摘要(Automatic Summarization)的方法主...

2020-01-19 14:26:12 4867 2

原创 mongo简单使用

Mongo查询# 普通{"typeTags.child.child.tagName":"坠楼事故"}{"typeTags.0.child.0.child.0.tagName":"坠楼事故"}{"$or":[{"typeTags.child.child.tagName":"羊楼洞传奇沉浸式电影"}, {"recommendDescTags.tagName":"羊楼洞传奇沉浸式电影"}...

2020-01-17 18:19:03 149

原创 情感分析/文本分类模型的几种方法介绍及比较

文本分类模型一、fastTexthttps://fasttext.cc/docs/en/unsupervised-tutorial.htmlfastText模型架构:其中x1,x2,…,xN−1,xN表示一个文本中的n-gram向量,每个特征是词向量的平均值。这和前文中提到的cbow相似,cbow用上下文去预测中心词,而此处用全部的n-gram去预测指定类别代码如下,只能在linux环...

2020-01-17 17:47:38 3681

原创 中文分词模型算法调研

1. 原理-分词算法1.1. 基于词典的分词1、最大匹配分词算法:寻找最优组合的方式是将匹配到的最长词组合在一起。其缺点是严重依赖词典,无法很好地处理分词歧义和未登录词。优点是由于这种方法简单、速度快、且分词效果基本可以满足需求,因此在工业界仍然很受欢迎。2、最短路径分词算法:将一句话中的所有词匹配出来,之后寻找从起始点到终点的最短路径作为最佳组合方式基于Dijkstra算法求解最短路径、...

2020-01-17 17:11:14 1455

原创 中文命名体识别的几种方法介绍及比较

本文目的最近在研究命名体识别的多种方法,主要是为了让一些像我这样的人少走些弯路,直接找到最实用的方法,对下面几种最常用的方法进行了实践.本项目完整源码地址:链接: https://pan.baidu.com/s/1UO9SSKON9rQm97eNv-l9pg 提取码: djvv项目博客地址:https://blog.csdn.net/qq_29153321/article/details...

2020-01-17 15:21:14 1038

原创 柬文分词的效果评估

柬文分词的效果评估目前本公司项目上使用的柬文分词为NIPTICT机构调用CRF++算法工具进行的分词,由于目前的分词效果一般,故对多种柬文分词算法进行了研究评估。一、柬文分词算法介绍下面为各种算法的标识做简要介绍。网上已有的模型: NIPTICT:https://niptict.edu.kh/khmer-word-segmentation-tool/柬文常用分词,本项目使用的分词,...

2020-01-17 15:05:24 318

原创 文本特征处理及文本聚类的几种方法

文本特征处理及聚类的几种方法本项目完整源码地址:https://github.com/angeliababy/textcluster项目博客地址:https://blog.csdn.net/qq_29153321/article/details/104015257数据准备测试数据说明data_offline文件夹包含200 economy 类,200个sports类,200个envir...

2020-01-17 10:33:45 5180 19

原创 文章召回-基于ALS的协同过滤算法实践及评估

基于ALS的协同过滤算法本项目完整源码地址:https://github.com/angeliababy/ALS_col项目博客地址: https://blog.csdn.net/qq_29153321/article/details/104007318原理ALS算法属于User-Item CF,也叫做混合CF。它同时考虑了User和Item两个方面。用户和商品的关系,可以抽象为如下的三...

2020-01-16 17:24:59 872

原创 时序分析-利用深度时空残差网络预测城市范围的交通流量

利用深度时空残差网络预测城市范围的交通流量本项目完整源码地址:https://github.com/angeliababy/passenger_forecast项目博客地址: https://blog.csdn.net/qq_29153321/article/details/104005743原理部分参考论文《Deep Spatio-Temporal Residual Networks f...

2020-01-16 15:32:22 2702 5

原创 cuda入门-numba加速和pycuda加速

Spark on GPU 计算本项目完整源码地址:https://github.com/angeliababy/SparkGPU_Offline项目博客地址: https://blog.csdn.net/qq_29153321/article/details/103988522本项目旨在研究GPU混合计算框架对Spark分布式计算进行加速,以下为研究测试代码代码目录结构:-|-batch...

2020-01-15 14:21:39 1583

原创 预训练模型在图片预测中的简单应用

迁移学习、预训练模型、图片预测本项目完整源码地址:https://github.com/angeliababy/Transfer_learning项目博客地址: https://blog.csdn.net/qq_29153321/article/details/103973211识花,花朵数据集选用数据为同一大类的样本,5个类别的花种图像,共3000多张,同一大类别且样本数较少,故识别难...

2020-01-14 15:04:12 1777

原创 tensorflow分布式原理及实战

Tensorflow 集群distributed tensorFlow一般将任务分为两类job:一类叫参数服务器,parameter server,简称为ps,用于存储tf.Variable;一类就是普通任务,称为worker,用于执行具体的计算。Tensorflow的分布式模型,分别是同步/异步更新,同步更新、异步更新有图间复制和图内复制。同步更新与异步更新同步随机梯度下降法(Sync-...

2020-01-14 11:07:59 655

原创 回归模型-kaggle房价预测

房价回归模型github链接:环境:python3本文目的1.机器学习的特征工程处理2.各种回归模型的应用本项目完整源码地址:https://github.com/angeliababy/houseprice_regression项目博客地址: https://blog.csdn.net/qq_29153321/article/details/103967670数据准备数据来源是...

2020-01-14 09:44:18 5623 1

原创 数值计算+GPU加速算法

1. 背景介绍由于目前在研究基于pyspark+GPU的实时及离线研究时,GPU的性能(运行时间)并没有得到提升或提升不明显。基于这个原因,该研究只针对基于python写cuda程序的数值计算加速算法(不考虑使用spark的场景),进一步研究对GPU的性能研究及使用场景分析。2. 测试环境2.1. 硬件角色 主机 CPU核数 CPU内存 GPU显存 磁盘数据节点 192.168.6.17...

2020-01-13 14:14:39 2090

原创 mapD安装及操作文档

mapD安装 安装JDK yum install java-1.8.0-openjdk-headless 创建mapd用户并更新密码 useradd -U mapdpasswd mapd 安装CUDA驱动 通过路径查找发现已安装。若无安装,下载对应显卡的驱动程序,登陆网址下载指定版本驱动https://www.nvidia.cn/Download/index...

2020-01-13 12:06:14 407

原创 GPU数据库PG-strom安装及使用

1 Postgresql安装1.1 获取postgresql源码下载postgresql-9.5.10.tar.gz (https://www.postgresql.org/ftp/source/v9.5.10/)解压 tar -xzf postgresql-9.5.10.tar.gz进入postgresql-9.5.10文件夹1.2 编译postgresql源码$ ....

2020-01-13 12:00:30 756

原创 face_recogniton人脸识别安装及使用

文章目录一 安装部分1.1 face_recognition简介1.2 环境参数1.3 下载face_recognition源代码二 简单的命令行界面使用2.1 人脸识别三 人脸检测3.1 HOG+SVM模型3.1.1 代码3.1.2 测试结果3.2 cnn模型3.2.1 代码3.2.2 测试结果3.3 视频中的人脸检测3.3.1 代码3.3.2 测试结果四 人脸关键点检测4.1 人脸关键点检测(...

2020-01-13 10:04:42 977

原创 dlib人脸识别安装及使用教程

文章目录一 dlib本地安装与编译1.1 dlib源码下载1.2 dlib C++编译示例程序1.2.1 dlib库编译1.2.2 C++示例程序配置、运行1.3 dlib python API编译二 dlib库的主要功能及准确率评估2.1 代码功能简介2.2 人脸检测和人脸关键点2.2.1 数据集、代码准备2.2.2 测试效果图2.2.3 准确率2.3 人脸识别2.3.1 数据集、代码准备2...

2020-01-13 09:50:18 7597

原创 dlib人脸识别代码解读

文章目录一 人脸关键点检测器的训练1.1 原理1.1.1 级联回归公式1.1.2 回归方程求解1.1.3 分裂点1.2 源代码1.3 代码解读1.3.1 预处理阶段1.3.2 训练阶段1.3.3 测试及保存1.4 代码流程图二 人脸检测器的训练(HOG+SVM)2.1 原理2.1.1 常规的HOG特征2.1.2 源代码中的HOG特征2.2 源代码2.3 代码解读2.3.1 预处理阶段2.3.2 训...

2020-01-13 09:19:39 3691 2

原创 基于objection detection的车牌检测

[@TOC]一 车牌区域检测1.1 数据集处理及相关文件准备1.1.1 数据集准备使用LabelImg工具标注接近578张.jpg图片(以carNO为主,标注3类:car、carNO、person)后,为了增加样本的多样性,在578张图片中挑选几十张图片进行高斯模糊、旋转、畸变、高斯噪声等操作,对新得到的图片进行标注,最终样本扩充到了713张图片。数据集存放参照Pascal VOC200...

2020-01-11 17:09:35 325 1

原创 object_detection部分源码解析

主要参考基于VGG的ssd基于mobilenet的ssd预训练模型基于slim1 构建自己的模型第一步,了解slim建立新模型的框架。定义一个Model类,主要有五部分组成:preprocess:在输入图像上运行检测器之前,对输入值进行任何预处理(例如缩放/移位/重新整形)。predict:产生可以传递给损失或后面处理函数的“原始”预测张量。这里会涉及到模型结构。postproc...

2020-01-11 15:28:29 595

原创 object_detection物体检测开源框架使用及性能评估(九)

第九章 Mask_rcnn模型开源框架安装及使用鉴于Tensoeflow Object Detection API提供的mask_rcnn模型没有训练操作的指导,而目前语义分割成为了新的视觉研究的趋势,故对Mask_rcnn模型进一步研究。9.1 环境参数Python 3.4+TensorFlow 1.3+Keras 2.0.8+Numpy, skimage, scipycv29...

2020-01-11 15:14:19 240

原创 object_detection物体检测开源框架使用及性能评估(八)

第八章 yolo开源框架模型评估8.1 各模型精度对比Yolo官网提供在mAp@IoU=0.5的mAp值如下:8.2 测试图片评估评估效果根据第六章中的6.1-6.3的结果进行判定。检测速度:yolov1- yolov 3的tiny模型很快,yolov1- yolov 3模型较慢,其中yolov3最慢检测效果:yolov1- yolov 3的tiny模型检测效果均较差,yolov1...

2020-01-11 15:11:56 237

原创 object_detection物体检测开源框架使用及性能评估(七)

第七章 yolo开源框架安装及使用yolo框架主要是做实时目标检测的,它的模型分基础和tiny两种类型,可以让用户在速度和检测效果之间进行平衡选择。实时摄像头目标检测需要cuda。7.1 yolov37.1.1 yolov3模型在目录:/home/users/chenzhuo下安装Darknet# git clone https://github.com/pjreddie/darkne...

2020-01-11 15:10:33 331

原创 object_detection物体检测开源框架使用及性能评估(六)

第六章 object_detection开源框架模型评估本章主要为对object_detection开源框架预训练模型、基于预训练模型训练自己的模型进行精度、速度等各方面的评估。6.1 预训练模型评估6.1.1 预训练模型精度对比这些预训练模型都是基于coco数据集训练出来的,从下图中(官方提供)可以看出faster_rcnn_nas的评估精度(COCO mAp)最高,但是它的物体识别速度...

2020-01-11 15:01:19 456

原创 object_detection物体检测开源框架使用及性能评估(五)

第五章 基于GPU服务器的object_detection开源框架模型训练上一章主要介绍基于tensorflow-cpu的object_detection开源框架的模型训练操作(文中若无特殊说明均基于tensorflow-cpu运行),而该节将介绍基于GPU服务器的object_detection开源框架的训练,分为单机训练和分布式训练,并以ssd模型为例进行说明(4.1.5节的模型训练操作不同...

2020-01-11 14:48:59 228

citus-5.2.2.tar.gz

pg分布式工具,citus是PG的一个sharding插件,可以把PG变成一个分布式数据库。目前在苏宁有大量的生产应用跑在citus+pg的环境中。

2020-01-13

干货-客流预测深度学习模型文件

(利用深度时空残差网络预测城市范围的人流量) 深度学习、客流预测、Resnet网络结构

2019-03-05

通信专业实务考试:初级

通信专业实务考试:初级,对考试很有帮助。

2018-11-15

基于eclipse的spark入门基础案例(hadoop、spark)

第一章 Hortonworks安装 第二章 在Eclipse中运行Hadoop平台的WordCount程序 第三章 在Eclipse中运行Spark平台的WordCount程序

2018-07-23

Deep Reinforcement Learning for Sponsored Search Real-time Bidding

Deep Reinforcement Learning for Sponsored Search Real-time Bidding,一篇强化学习方面的论文

2018-07-05

基于标签的强化学习推荐算法研究与应用

基于标签的强化学习推荐算法研究与应用,这是一篇论文

2018-07-05

DRN: A Deep Reinforcement Learning Framework for News Recommendation

基于强化学习的个性化推荐方面的论文,个性化推荐的前沿方向

2018-07-05

可进行物体检测标注的车牌图片

自己搜集的几百张可用于车或车牌标注的图片,感兴趣者可以联系提供标注的文件

2018-07-05

object detection预训练模型ssd

object detection预训练模型之一的ssd模型,它是最简单常用的模型之一

2018-05-20

object_detection图片标注工具labelImg

object_detection图片标注工具labelImg,使用这个代码能很好的使用object detection API进行准备自己的数据集

2018-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除