自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (3)
  • 收藏
  • 关注

原创 2020-11-18

字节跳动内推--校招--实习--社招 全岗位速览-----校招内推:https://job.toutiao.com/s/J9Y4HNQ 全岗位速览-----社招&实习: https://job.toutiao.com/s/J9YFU4M 1、目标群体实习(有机会转正) or 社招 or 校招2、流程 发送简历到[email protected] or 点击链接 https://job.toutiao.com/s/J9YFU4M投递 笔面试..

2020-11-18 10:58:02 167

原创 逻辑回归资料总结

这是我学习LR和使用LR训练模型时用到的资料,注明了url和文章要点,供参考。https://www.zhihu.com/question/266442920数据穿越现象数据(特征)穿越在金融领域经常会发生,因为贷款用户是否发生逾期的表现期比较长(一般几个月),在加工特征时候需要特别强调不能使用申贷之后的数据。原因很简单,就是老生常谈的保证模型泛化性。如何保证模型的泛化性?一般评估...

2019-03-07 10:18:56 663

原创 逻辑回归实践总结三

LR总结二--特征工程中的几个疑难问题的理解上篇总结使用LR时关于特征工程方面的知识,这篇总结下对其中几个疑难问题的理解。我所面对的任务是训练一个LR模型来预测用户对歌曲的喜爱与否。一、为什么对某些特征进行离散化?有些特征虽然也是数值型,但是其值相加减是没有意义的,也需要转换成离散型。比如说年龄的两个值20和30,在w确定的情况下,x是特征向量,x的年龄特征是20与特征是30时相比...

2019-03-04 21:00:07 1001

原创 逻辑回归实践总结二

LR总结二--特征工程上篇总结了LR的理论,这篇总结使用LR时关于特征工程方面的知识。主要从特征来源、特征选择、特征处理几个方面总结。我所面对的任务是训练一个LR模型来预测用户对歌曲的喜爱与否。一、特征来源一般情况下模型所需要的特征来自于两个方面,1:和业务相关的原始特征,2:通过其他模型提取的高级特征。针对我的问题,第一种来源的特征就有很多,比如歌曲的相关信息(歌曲名,歌手名,歌...

2019-03-04 20:57:36 2590

原创 逻辑回归实践总结一

最近使用LR的方法,训练了一个排序模型,边实践边总结,这篇说下LR相关的理论知识。一、LR的定义LR是Logistic Regression 的缩写,称为逻辑回归。假设数据集为,其中m代表数据个数,是数据的特征向量,维度为n,是其j维的值,是数据的类别,只有两个值{+1,-1},1代表正样本,-1代表负样本。LR是一种分类模型,它通过以下公式判断出特征向量的类别:其中w是权重向...

2019-02-26 22:58:31 2189

原创 朴素贝叶斯分类方法用于歌词分析

朴素贝叶斯分类方法用于歌词分析一、朴素贝叶斯分类器在机器学习中、朴素贝叶斯分类器是一系列以假设特征之间强独立下运用贝叶斯原理为基础的简单概率分类器。这种分类器的特点是简单,见效快,但是准确率也低。实际上独立假设常常是不准确的,但是各类条件特征之间的解耦意味着每个特征的分布都可以独立地被当做一维分布来估计。这样减轻了由于维数灾难带来的阻碍,当样本的特征个数增加时就不需要使样本规模呈指数增长。...

2018-12-10 22:17:39 567

原创 歌词分析浅析

歌词分析浅析最近正在考虑新歌推荐的问题,突然想起了一直没有处理过的对象-歌词,想利用歌词做点什么,没什么目的,尝试了歌词分词,歌词相似度计算、歌词分类、word2vec歌词聚合、查找相似歌曲,最终收获了一个根据歌词产生类似歌曲的方法。一、歌词预处理歌词数据源是某音乐网站top1万的歌曲的歌词。歌词文本的一种格式是lrc格式,其中时间用[]隔开,歌词解析器根据时间来解析。原始格式和展...

2018-11-28 20:32:05 5541 1

原创 感知机原理及实现(Python)

感知机模型是二类分类的线性分类模型。感知机对应于输入空间中将实例划分为正负两类的分离超平面,利用梯度下降法对损失函数进行极小化,求得感知机模型。1、模型定义加入输入空间(特征空间)是,输出空间是{+1,-1}。输入x表示实例的特征向量,对应于特征空间的一个点,输出y表示实例的类别。输入空间到输出空间由如下函数定义:                                    ...

2018-11-26 18:00:08 1046

原创 一维搜索算法介绍及其实现

一维搜索算法介绍及其实现当进行优化算法实现时、一般都要进行一系列如下格式的迭代运算x(k+1) = x(k) + a(k) *s(k),其中s(k)是变量变化的方向,而a(k)可以确定变量变化的大小,即我们平时所说的步长,a(k)被称为学习率。求最佳步长即求一元函数:的极值问题,这一过程被称为一维搜索。一维搜索也是解多维最优化问题的重要支柱。一维搜索一般有如下方法,解析法和数值...

2018-11-10 17:43:41 9904

原创 优化算法介绍2

优化算法介绍2牛顿法、拟牛顿法介绍及其实现上篇博客介绍了利用梯度方法进行优化的几个算法,简单来说就是通过计算损失函数的在当前点的梯度,衡量向哪个方向移动会获得最快的降速,本篇所讲的几个算法是它们的延伸。他们不仅计算出当前点的下降速度,而且还计算出当前下降速度的加速度,即这个下降速度会变大还是变小。牛顿法主要用在两个地方1、求解线性方程的解。2、作为一种优化方法。牛顿法求解线...

2018-11-10 17:04:42 442

原创 逻辑回归优化算法总结一

逻辑回归中的优化算法总结一假设我们有m个数据对(x,y),且数据x的维度为n的自变量,y为离散型因变量。在逻辑回归中,我们的任务通常是训练出一个多项式函数,其中w0等为未知常数,被称为权重,所有权重记为。(这个是线性回归的多项式函数,逻辑回归还需要一个sigmod函数进行压缩)我们通过这个多项式函数来拟合已有的数据对应关系(x,y),通常用如下公式来计算两者的差异和拟合程度。因为在数据...

2018-10-21 21:58:15 4930

原创 Redis 迁移 ssdb(一)

Redis 迁移 ssdb(一)由于公司机器不够,为了节约成本,推荐用的缓存从redis换成ssdb,本文记录自己所采用的方法和踩的坑。一、数据整理推荐使用的redis,存放的数据可以分为下面几类:a 用户的缓存,用来过滤近期给用户推过的商品 b 相似商品结果,用来快速得到某种商品的相似商品列表 c 静态数据,用来获取商品的静态信息 d 冷启动数据,热门的商品列表 e 用户行为数据,有...

2018-10-14 21:28:38 563

原创 ALS算法原理和在音乐推荐上的应用

ALS算法原理和在音乐推荐上的应用ALS(Alternating least squares,交替最小二乘法)本来是一种数学上的优化方法,自从有人用它在Netflix大赛中使用于推荐系统,并获得冠军后,逐渐被用在各个行业的推荐系统中。一、ALS推荐算法的原理1.1 矩阵分解ALS推荐算法是基于矩阵分解的一种方法。先看矩阵分解的含义。推荐所使用的数据可以抽象成一个[m,n]的矩阵...

2018-08-30 13:05:52 9476 3

原创 视频推荐ALS算法使用总结说明

ALS算法使用总结说明一、算法流程最近终于把ALS算法上线了,前前后后整了一个半月,现在把这个经历记录下。我的目的是利用ALS算法做视频推荐,当然这只是作为其中一个算法。为了达到这个目的,我经过分析之后,使用下面的流程。1、接收视频的请求2、获取用户的历史记录(包括用户观看历史、点赞的视频、分享的视频、评论的视频)3、根据历史记录中的视频获取相似视频4、权重排序5、返回...

2018-08-27 23:09:20 2372 2

原创 《推荐系统入门》--阅读总结

推荐系统入门总结第2章协同过滤推荐2.1基于用户的最近邻推荐2.1.1基于用户的最近邻推荐(user-basednearest negibor recommendation)1、算法步骤和假设step1:给定用户-物品的二维矩阵(元素是用户对物品的评分)和用户标识作为输入step2:找出与当前用户过去有相似偏好的用户(最近邻)step3:对当前用户没有见过的物品p,利用最近邻用户对p的评分计算当前...

2018-06-26 12:35:39 367

翻译 YouTube视频推荐系统

[免责说明:本文是翻译文章,原文链接见文末。本文翻译并未按照原文逐字翻译,而是在我理解的基础上做了修改,中括号内文字是本人自行添加。本文翻译是在Google翻译的基础上做了增删,望包涵。][文章说明:我最近在作视频推荐方面的工作,查询资料时偶尔看到这篇paper。很多博客说的比较含糊,本着细节决定成败的理念,抽时间翻译了它,作为自己的参考。][文章大意:这篇paper概述了2010年的youbub...

2018-06-11 23:39:08 1186

翻译 Google assisant 2018谷歌IO大会 谷歌助理背后的系统设计

[文章说明:本文是翻译文章,原文链接见文末。本文翻译并未按照原文逐字翻译,而是在我理解的基础上做了修改,小括号内文字是本人自行添加。本文翻译是在Google翻译的基础上做了增删,望包涵。][文章大意:我惊讶于谷歌在2018年I/O大会上展示的谷歌助理的本领,于是去Googleblog找了资料,这篇博文来自于谷歌助理项目负责人,讲述了谷歌助理背后的系统Duplex。它同时讲述了研制Duplex系统背...

2018-05-17 19:18:48 2753

原创 入门Spark-Streaming遇到的问题

入门Spark-Streaming遇到的问题以前没有用过spark,只是大概了解是大数据需要的框架。前几天组内需要构建一个用户模型,因为要求实时更新数据,所以只好硬着头皮去学着写了一个程序,大概两周的时间,中间遇到的问题记录如下。一个程序一般分为数据读取→数据处理→结果输出的过程。学习一门新语言总要面对环境搭建→学习语法→写Demo熟悉→实战演练的过程。所以本文的顺序如下1、环境搭建;2、语法和D...

2018-05-16 19:00:37 2948

百面机器学习-机器学习面经

《百面机器学习》PDF版,高清版,分享分享,主要讲机器学习方面求职面试会问到的地方

2018-12-17

C++语言学习

C++语言学习入门,简单易懂,知识面广,基础知识较多。

2012-12-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除