自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

__kingzone__的专栏

学习数据挖掘~

  • 博客(228)
  • 资源 (10)
  • 收藏
  • 关注

原创 离散数学基本概念

1. 群环域群:{G,·}中“乘法“运算满足封闭性、结合律、单位元、逆元。环:中为阿贝尔群,为半群,”乘法“对”加法“满足分配律。域:中为交换群,为交换群,”乘法“对”加法“满足分配律。交换群:在群的基础上,再满足交换律。广群:封闭性。半群:封闭性、结合律。阿贝尔群:交换群。2. 偏序与全序偏序(partially ordered set,直译过来是部分有序集合

2020-05-11 21:59:15 6844

转载 学习SVM(四) 理解SVM中的支持向量(Support Vector)

学习SVM(四) 理解SVM中的支持向量(Support Vector)版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/chaipp0607/article/details/73716226学习SVM(一) SVM模型训练与分类的OpenCV实现 学习SVM(二) 如何理解支持向量机的最大分类间隔 学习SVM(三)理解SVM中的对偶问题 学习SV...

2018-12-08 22:59:32 19465 1

转载 谷歌开源TF-Ranking可扩展库,支持多种排序学习

铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI最近,谷歌新开源了可扩展的TensorFlow库TF-Ranking,可用于学习排序。所谓学习排序,也就是对项目列表进行排序,从而将整个功能最大化的过程。 TF-Ranking中有一套完整的学习排序的算法,包含成对或列表损失函数、多项目评分、排名度量优化和无偏见的学习排名。谷歌在官方博客表示,TF-Ranking在创...

2018-12-07 13:50:28 1264

转载 从ctr预估问题看看f(x)设计—DNN篇

从ctr预估问题看看f(x)设计—DNN篇lambdaJihow to model anything已关注吴海波等 223 人赞了该文章上接机器学习模型设计五要素,这一篇接着讲模型结构设计从ctr预估问题看看f(x)设计—LR篇提到ctr预估的f(x)可以分 大规模离散LR,Trees Model,DNN&Embedding,以及Reinforcement-...

2018-11-13 11:20:38 1082

转载 【论文阅读笔记】Deep Learning based Recommender System: A Survey and New Perspectives

【论文阅读笔记】Deep Learning based Recommender System: A Survey and New Perspectives2017年12月04日 17:44:15 cskywit 阅读数:1116更多个人分类: 机器学习版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/cskywit/article/det...

2018-11-09 12:00:13 930

转载 N-gram语言模型 & Perplexity & 平滑

N-gram语言模型 & Perplexity & 平滑2018年04月03日 18:16:20 qjf42 阅读数:646版权声明:本文为博主原创文章,欢迎交流分享,未经博主允许不得转载。 https://blog.csdn.net/qjf42/article/details/79761786 文章目录1. N-gram语言模型 2. Perplexity(...

2018-11-07 12:16:19 4030

转载 炼丹术的终结——神经网络结构搜索之一

炼丹术的终结——神经网络结构搜索之一2018年04月10日 00:23:14 张雨石 阅读数:2820 标签: 强化学习深度学习网络结构搜索RLNAS 更多个人分类: 论文笔记版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xinzhangyanxiang/article/details/79875007深度学习在2010年燃起来以...

2018-11-07 12:15:13 365

原创 机器学习(二):线性回归、梯度下降、正规方程组

线性回归(Linear Regression)1 最小二乘法(Least Mean Squares)梯度下降(Gradient Descent)2 正规方程组(Normal Equations)3 极大似然法4 Locally weighted linear regression(LWR) ...

2018-10-12 23:05:38 433

原创 sklearn与Keras的verbose相关源码

  GridSearchCV的verbose参数 grid_search.py813行838行555行if self.verbose > 0:if isinstance(parameter_iterable, Sized):n_candidates = len(parameter_iterable)print("Fitting {0} folds for...

2018-10-12 23:02:32 1016

转载 不均衡学习的抽样方法

通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布。研究表明,对于一些基分类器来说,与不均衡的数据集相比一个均衡的数据集可以提高全局的分类性能。数据层面的处理方法是处理不均衡数据分类问题的重要途径之一,它的实现方法主要分为对多数类样本的欠抽样和对少数类样本的过抽样学习两种。其主要思想是通过合理的删减或者增加一些样本来实现数据均衡的目...

2018-08-23 21:57:17 3896

转载 在分类中如何处理训练集中不平衡问题

原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题  在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原...

2018-08-23 21:50:56 580

转载 在分类中如何处理训练集中不平衡问题

原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题  在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原...

2018-08-23 21:50:56 1205

转载 Python机器学习Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手册

Python机器学习Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手册 NumpySciPyScikit-LearnPandasKerasMatplotlibNeural Network Zoo 图片来源http://www.asimovinstitute...

2018-08-19 15:21:52 1087

转载 【更新于12.29】深度学习论文汇总

本博客用于记录自己平时收集的一些不错的深度学习论文,近9成的文章都是引用量3位数以上的论文,剩下少部分来自个人喜好,本博客将伴随着我的研究生涯长期更新,如有错误或者推荐文章烦请私信。深度学习书籍和入门资源LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. [PDF](深度学习最权威...

2018-08-08 10:43:38 1198 3

转载 玩转Fasttext

转自:http://albertxiebnu.github.io/fasttext/ Fasttext是Facebook AI Research最近推出的文本分类和词训练工具,其源码已经托管在Github上。Fasttext最大的特点是模型简单,只有一层的隐层以及输出层,因此训练速度非常快,在普通的CPU上可以实现分钟级别的训练,比深度模型的训练要快几个数量级。同时,在多个标准的测试数据集...

2018-08-05 11:37:09 10181 4

转载 NLP︱高级词向量表达(二)——FastText(简述、学习笔记)

FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification(...

2018-08-05 11:11:28 2949

转载 Learning to Rank 简介

去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和算法,不仅有效地解决了排序的问题,其中一些算法(比如LambdaRank)的思想非常新颖,可以在其他领域中进行借鉴。鉴于排序在许多领域中的核心地位,L2R可以被广泛的应用在信息(文档)检索,协同过滤等领域。 ...

2018-08-03 13:55:52 1045

转载 keras参数调优

原文:https://machinelearningmastery.com/grid-search-hyperparameters-deep-learning-models-python-keras/本文主要想为大家介绍如何使用scikit-learn网格搜索功能,并给出一套代码实例。你可以将代码复制粘贴到自己的项目中,作为项目起始。下文所涉及的议题列表:如何在scikit-learn...

2018-07-30 21:59:26 4217 1

转载 十、如何选择神经网络的超参数

本博客主要内容为图书《神经网络与深度学习》和National Taiwan University (NTU)林轩田老师的《Machine Learning》的学习笔记,因此在全文中对它们多次引用。初出茅庐,学艺不精,有不足之处还望大家不吝赐教。  在之前的部分,采用梯度下降或者随机梯度下降等方法优化神经网络时,其中许多的超参数都已经给定了某一个值,在这一节中将讨论如何选择神经网络的超参数。...

2018-07-30 21:46:36 13653

转载 神经网络结构设计指导原则

下面这个神经网络结构设计指导原则是Andrew NG在coursera的ML课程中提到的:输入层:神经元个数=feature维度 输出层:神经元个数=分类类别数 隐层:  默认只用一个隐层 如果用多个隐层,则每个隐层的神经元数目都一样 隐层神经元个数越多,分类效果越好,但计算量会增大 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

2018-07-30 21:23:21 3720

转载 神经网络中隐层数和隐层节点数问题的讨论

神经网络中隐层数和隐层节点数问题的讨论一 隐层数        一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向。一般来讲应设计神经网络应优先考虑3层网络(即有1个隐层)。一般地,靠增加隐层节点数来获得较低的误差,其训练效果要比增加隐层数更容易实现。对于没有隐层的神经网络模型,实际上就是一个线性或...

2018-07-30 20:24:45 68530 8

转载 谈谈深度学习中的 Batch_Size

谈谈深度学习中的 Batch_SizeBatch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning )的形式,这样做至少有 2 个好处:其一,由全数据集确定的方向能够更好地代表样本总体,...

2018-07-30 20:01:06 248

转载 深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)

前言(标题不能再中二了)本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent...

2018-07-30 19:53:59 1723

转载 《Wide and Deep Learning for Recommender Systems》学习笔记

顾名思义,Google提出的这篇文章将Wide Model和Deep Model结合起来进行,思路非常值得学习。  1.Wide Model首先说一下Wide Model,就是上图中左边的那一部分,是一个简单的逻辑回归模型。这一部分比较简单,不多有一个新的思路就是交叉特征:  论文中一个比较形象的例子For binary features, a cross...

2018-07-26 18:34:53 290

转载 《Deep Neural Networks for YouTube Recommendations》学习笔记

Google出品,学习一下!  文章脉络清晰,主要包括六个部分:YouTube使用DNN的背景、整体推荐系统框架、候选集生成(candidate generation)、排序(ranking)、总结、感谢,其中候选集生成和排序是推荐系统框架的重要组成部分。 本文主要学习下整体推荐系统框架、候选集生成(candidate generation)、排序(ranking)这三个部分 ...

2018-07-26 18:31:10 832 1

转载 4篇YouTube推荐系统论文, 一起来看看别人家的孩子

4篇YouTube推荐系统论文, 一起来看看别人家的孩子最近一直在花时间研究和实现一些推荐算法,并且搭建系统在产品中进行测试。我读了一些关于Netflix等网站“如何使用Collaborative Filtering来预测用户对其他影片的打分”的文章,之前也曾在Pinterest目睹了Related Pin从传统的计算co-occurence,到深度学习以及两次打分系统的设计转变。但最...

2018-07-26 18:06:05 3179

转载 使用sklearn做单机特征工程

使用sklearn做单机特征工程目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filter    3.1.1 方差选择法...

2018-07-23 10:52:32 197

转载 特征工程

转自:https://www.alibabacloud.com/help/zh/doc-detail/69558.htm#%E7%89%B9%E5%BE%81%E5%BC%82%E5%B8%B8%E5%B9%B3%E6%BB%91特征工程更新时间: 2018-05-02目录 主成分分析 特征尺度变换 特征离散 特征异常平滑 随机森林特征...

2018-07-23 10:15:46 2878

转载 DNN论文分享 - Item2vec: Neural Item Embedding for Collaborative Filtering

本篇文章在 ICML2016 Machine Learning for Music Discovery Workshop前置点评: 这篇文章比较朴素,创新性不高,基本是参照了google的word2vec方法,应用到推荐场景的i2i相似度计算中,但实际效果看还有有提升的。主要做法是把item视为word,用户的行为序列视为一个集合,item间的共现为正样本,并按照item的频率分布进行负样本采...

2018-07-20 11:44:50 1113

转载 【翻译】Neural Collaborative Filtering--神经协同过滤

【说明】  本文翻译自新加坡国立大学何向南博士 et al.发布在《World Wide Web》(2017)上的一篇论文《Neural Collaborative Filtering》。本人英语水平一般+学术知识匮乏+语文水平拙劣,翻译权当进一步理解论文和提高专业英语水平,translate不到key point还请见谅。何博士的主页:http://www.comp.nus.edu.sg...

2018-07-19 21:48:46 15889 4

转载 推荐系统遇上深度学习(二十一)--阶段性回顾

本系列已经写了二十篇了,但推荐系统的东西还有很多值得探索和学习的地方。不过在这之前,我们先静下心来,一起回顾下之前学习到的东西!由于是总结性质的文章,很多细节不会过多的涉及,有兴趣的同学可以点击文章中给出的链接进行学习。本文中涉及的大多数算法是计算广告中点击率预估用到的模型,当然也会涉及pair-wise的模型如贝叶斯个性排序以及list-wise的如京东的强化学习推荐模型。好了,废话...

2018-07-19 21:41:53 5260

转载 python平台下实现xgboost算法及输出的解释

python平台下实现xgboost算法及输出的解释1. 问题描述​ 近来, 在python环境下使用xgboost算法作若干的机器学习任务, 在这个过程中也使用了其内置的函数来可视化树的结果, 但对leaf value的值一知半解; 同时, 也遇到过使用xgboost 内置的predict 对测试集进行打分预测, 发现若干样本集的输出分值是一样的. 这个问题该怎么解释呢? 通过翻阅Sta...

2018-07-19 21:27:48 3075 1

转载 推荐系统遇上深度学习(十六)--详解推荐系统中的常用评测指标

最近阅读论文的过程中,发现推荐系统中的评价指标真的是五花八门,今天我们就来系统的总结一下,这些指标有的适用于二分类问题,有的适用于对推荐列表topk的评价。1、精确率、召回率、F1值我们首先来看一下混淆矩阵,对于二分类问题,真实的样本标签有两类,我们学习器预测的类别有两类,那么根据二者的类别组合可以划分为四组,如下表所示:上表即为混淆矩阵,其中,行表示预测的label值,列表示真实...

2018-07-19 16:06:50 13525

转载 各大公司广泛使用的在线学习算法FTRL详解

转载请注明本文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html   现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-re...

2018-07-19 11:34:38 525

转载 交叉熵(Cross-Entropy)与最大似然

交叉熵(Cross-Entropy)交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。1.什么是信息量?假设XX是一个离散型随机变量,其取值集合为X,概率分布函数为p(x)=Pr(X=x),x∈p(x)=Pr(X=x),x∈X,我们定义事件X=x0X=x0的信息量为: I(x0)=−log(p(x0))I(x0)=−log(p(x0)),可以理解为...

2018-07-18 21:08:20 3616 1

转载 Scikit-learn——LogisticRegression与SGDClassifier

1.sklearn.linear_model.logistic regression一般来说,逻辑回归用梯度下降算法来求解参数比较常见;所以这也导致一开始误以为LogisticRegression模型就是用梯度下降算法来实现的,当遇到SGDClassifier(Stochastic Gradient Descent)随机梯度下降分类器的时候,就有点蒙了。梯度下降明明是一个求解算法,怎么就和分类...

2018-07-16 17:33:48 3256

转载 LogisticRegression - 参数说明

LogisticRegression,一共有14个参数: 逻辑回归参数详细说明参数说明如下:penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(over...

2018-07-16 16:15:59 19378

转载 Python: sklearn库中数据预处理函数fit_transform()和transform()的区别

敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:涉及到这两个函数的代码如下:# 从sklearn.preprocessing导入StandardScalerfrom sklearn.preprocessing import StandardScaler# 标准化...

2018-07-10 15:31:24 3847

转载 Kaggle滑水 - CTR预估(LR)

下面,我们结合Kaggle赛题:Avazu:Click-Through Rate Prediction,练习数据挖掘技术在CTR预估中的应用。本文内容包括赛题任务简析,以及基于LR(逻辑斯蒂回归)的初步实现。本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。1.任务概述CTR(Click Through Rate,点击率),是“推荐系统/计算广告”等领域的重要...

2018-07-09 16:41:08 4765 2

转载 初学者如何查阅自然语言处理(NLP)领域学术资料

昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个...

2018-07-09 10:38:10 330

OWB自学手册

OWB比较简单的入门手册,可以作为入门。

2013-05-31

Hadoop in Action

Hadoop in Action is an example-rich tutorial that shows developers how to implement data-intensive distributed computing using Hadoop and the Map- Reduce framework. DESCRIPTION Hadoop is an open source implementation of Google's MapReduce framework for scalable, distributed data processing. Hadoop in Action is for programmers, architects, and project managers who have to process large amounts of data offline. The book begins with several simple examples that illustrate the basic idea behind Hadoop. Later chapters explain the core framework components and demonstrate Hadoop in a variety of data analysis tasks. Throughout the book, readers will learn best practices and design patterns, and how to write meaningful programs in a MapReduce framework. KEY POINTS Explains distributed computing, MapReduce, and the Hadoop framework Focuses on most-used features and rapid development solutions Numerous hands-on examples to illustrate abstract ideas Concise, developer-centric, In Action style Multiple case studies demonstrate real-world Hadoop uses Covers popular Hadoop extensions that ease development and extend functionality

2013-01-07

All of Statistics

由美国当代著名统计学家L·沃塞曼所著的《统计学元全教程》是一本几乎包含了统计学领域全部知识的优秀教材。本书除了介绍传统数理统计学的全部内容以外,还包含了Bootstrap方法(自助法)、独立性推断、因果推断、图模型、非参数回归、正交函数光滑法、分类、统计学理论及数据挖掘等统计学领域的新方法和技术。本书不但注重概率论与数理统计基本理论的阐述,同时还强调数据分析能力的培养。本书中含有大量的实例以帮助广大读者快速掌握使用R软件进行统计数据分析。 本书适用于统计学、数学、计算机科学、机器学习与数据挖掘等领域的高年级本科生、研究生,对于相关领域的广大科研工作者和实际工作者来说也不失为一本有价值的参考书。

2012-12-09

数据挖掘:概念与技术

这本书系统地论述数据挖掘的基本概念、基本技术和最新进展。全书分10章,全面而深入地介绍数据库技术的发展和数据挖掘的应用,数据仓库和联机分析技术,数据预处理技术(数据清理、数据集成和转换、数据归约),数据挖掘技术(数据的分类、预测、关联和聚类),先进数据库系统中的数据挖掘方法,以及数据挖掘的应用和一些具有挑战性的问题。书中注重实效,在讨论概念与技术时辅以实例,并提供代表性算法。

2012-12-09

编程珠玑.pdf

本书是计算机科学方面的经典名著。书的内容围绕程序设计人员面对的一系列实际问题展开。作者Jon Bentley 以其独有的洞察力和创造力,引导读者理解这些问题并学会解决方法,而这些正是程序员实际编程生涯中至关重要的。本书的特色是通过一些精心设计的有趣而又颇具指导意义的程序,对实用程序设计技巧及基本设计原则进行了透彻而睿智的描述,为复杂的编程问题提供了清晰而完备的解决思路。本书对各个层次的程序员都具有很高的阅读价值。

2012-11-01

C程序设计语言(第2版) 中文

C语言经典名著,Kernighan与Ritchie著

2012-11-01

OpenGL_Nehe中文教程

OpenGL_Nehe中文教程 OpenGL_Nehe中文教程

2010-04-10

杭州电子oj题集-acm

杭州电子科技acm在线评判系统离线题集 oj

2008-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除