1 CoderBoom

尚未进行身份认证

on the way

等级
TA的排名 8w+

MachineLearning小汇总----持续更新......

目标函数定义:1.GBDT(GradientBoostingDecisionTree)GradientBoosting是一种Boosting的方法,它的主要思想是每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数式评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模型不断提升性能,其最好的方法就是使...

2019-03-27 10:49:22

推荐系统-Ctr点击率预估理论基础及项目实战

Ctr点击率预估理论基础及项目实战1.机器学习推荐算法模型回顾召回(粗排)利用业务规则结合机器学习推荐算法得到初始推荐结果,得到部分商品召回集ALS\UserCF\ItemCF\FP-Growth\规则等方式召回排序(精排)1期:根据不同推荐位通过不同的模型得到推荐结果2期:将推荐的所有结果通过Ctr或Cvr预估结果进行排序GBDT\LR\GBDT+LR\FM()\FFM...

2019-03-25 09:21:54

解决数据不平衡

解决数据不平衡问题方案机器学习中不平衡数据集的工具箱软件包:imbalanced-learn0.3.2介绍文档:https://pypi.python.org/pypi/imbalanced-learn/API文档:http://contrib.scikit-learn.org/imbalanced-learn/stable/详细API:http://contrib.scikit-lea...

2019-03-13 09:28:04

GBDT&XGBoost&LightGBM的区别

GBDT&XGBoost&LightGBM的区别GBDT​ 梯度提升树是在提升树的基础上发展而来的一种适用范围更广的方法,当处理回归问题时,提升树可以看作是梯度提升树的特例(分类问题时不时特例).因为提升树在构建树的每一步的过程中都是去拟合上一步获得模型在训练集上的残差.这个残差正好是损失函数的梯度,对应于GBDT每一步要拟合的对象.主要思想​ 在...

2019-03-13 09:02:33

推荐系统-用户标签预测算法基础实践-决策树2

推荐系统-用户标签预测算法基础实践1.泰坦尼克号获救人员识别实战加强iris的代码实战(掌握)代码版本一:未经过pca降温的X#1.进行数据的读入---导入数据fromsklearn.datasetsimportload_irisiris=load_iris()#2.对数据进行简单的统计分析和图形化的展示print(iris.keys())#['data','tar...

2019-03-04 14:36:13

推荐系统-用户标签预测算法基础实践-决策树(一)

推荐系统-用户标签预测算法基础实践1.用户画像概述用户画像就是给到用户打标签用户画像用户角色用户属性用户画像和用户角色较为接近,而用户属性使用户的画像中的子集用户画像阶段1.用户画像基础2.用户画像指标体系3.标签数据存储方式4.标签数据开发5.性能优化及作业调度6.用户画像应用及优化用户画像基础场景用搜索领域个性化推荐领域其他领域个人征信数...

2019-02-21 15:55:34

推荐系统-Python语言及数据科学库基础(三)

机器学习语言必备-数据科学必备库1.Pandas介绍Pandas的名称来自于paneldata(面板数据)和Python数据分析(dataanalysis),Pandas是处理结构化数据的利器,利用python数据以及数据结构完成对结构化数据的处理和分析功能。特点1.一个强大的分析和操作大型**结构化数据集**所需的工具集2.基础是NumPy,提供了高性能矩阵的运算3.提供了大...

2019-02-15 20:51:29

推荐系统-Python语言及数据科学库基础(二)

机器学习语言必备-Python语言入门(二)1.函数详解函数分为4中类型根据参数和返回值进行判断没有返回值没有参数有参数没有返回值没有返回值有参数有参数有返回值的全局变量和局部变量global#函数有几种类型:#1.函数的返回值#2.函数的参数#无返回值无参数defrepeatString():print("helloWorld\...

2019-02-15 10:17:49

推荐系统-Python语言及数据科学库基础(一)

机器学习语言必备-Python语言入门(一)Python基础+数据科学基础[Numpy/Pandas/Matplotlib/Scipy]1.Python语言介绍&为什么Python如此受欢迎?Python语言特点Python:面向对象+解释型Python解析器:4种CpythonJpythonIronPythonPyPyPython版本Python2.x...

2019-02-15 10:17:07

推荐系统-关联规则理论基础与业务实践

推荐系统-关联挖掘算法实战1.基于知识的推荐方法简介基于知识区别于以往基于协同过滤算法,基于知识的推荐更多的是交互式问答的环节,分为基于约束的部分,第二是基于实例的部分,使用基于关联规则方法全是基于知识的推荐。2.关联规则算法引入啤酒与尿布的故事关联规则-------寻找关联购买商品的关系**关联分析,**用于发现隐藏在大型数据集中有意义的联系。购物篮分析----一次购买分析-...

2019-01-27 10:23:20

推荐系统-基于模型协同过滤理论基础与业务实

推荐系统-基于模型协同过滤理论基础与业务实践1.SparkMllib库框架详解Spark机器学习库五个组件MLAlgratham算法:分类,聚类,降维,协同过滤Pipelines管道----Featurization特征化----特征抽取,特征转换,特征降维,特征选择Persistence持久化----模型的保存,读取,管道操作...

2019-01-27 10:19:20

推荐系统-经典协同过滤算法【基于记忆的协同过滤算法、基于模型的协同过滤算法】

推荐系统-经典协同过滤理论基础实践1.协同过滤推荐方法CF简介协同过滤CF基于记忆的协同过滤----用户和物品的相似度矩阵用户相似度的推荐物品相似度推荐UserCF用户协同过滤算法ItemCF物品的协同过滤推荐算法基于模型的协同过滤----隐因子LFM(latentfatormachine)隐藏因子的分解模型-----矩阵分解(将一个矩阵分解成连个矩阵的乘...

2019-01-15 22:31:27

推荐系统-机器学习理论基础详解01

推荐系统-机器学习理论基础详解1.大数据时代究竟改变了什么?(了解)改变的是思维方式1.数据重要性:数据资源--------数据资产(增值)2.方法论:基于知识的理论完美主义-------基于数据的历史经验主义翻译:你好吗?基于知识翻译:----借助语言学家你youyour好goodbest等吗dodoes等Areyougood?Arey...

2019-01-15 18:09:52

storm_入门02学习笔记----【storm原理、storm整个hdfs和mysql、storm定时器使用、日志监控告警项目的流程和业务处理逻辑】

storm_入门02学习笔记1、目标1、掌握storm任务提交和执行过程2、掌握storm整合hdfs和mysql3、掌握storm定时器使用4、掌握日志监控告警项目的流程和业务处理逻辑2、storm内部原理和任务提交(1)客户端提交topology到nimbus主节点(2)nimbus主节点接受到客户端的任务信息,然后保存到本地目录,后期把任务的分配信息写入到zk集群中...

2018-12-14 21:23:32

storm_入门01学习笔记----【storm集群搭建、一键脚本启动关闭storm、storm与kafka整合】

storm_day01学习笔记1、目标1、熟悉storm的相关概念2、掌握搭建一个storm集群3、掌握编写简单的storm应用程序4、掌握storm的并行度设置5、掌握storm的数据分发策略6、掌握storm与kafka整合2、storm概述2.1storm是什么storm是由twitter公司开源,捐献apache基金会,是一个实时处理框架。storm特点:来一条...

2018-12-12 22:02:26

Hbase入门----【hbase内部原理和架构(★★★★★)、掌握hbase的寻址机制(★★★★★)、hbase表中的rowkey设计(★★★★★★★)】

hbase入门学习笔记1、目标1、掌握hbase相关概念2、掌握搭建一个hbase集群3、掌握hbaseshell命令行操作4、掌握hbase内部原理和架构(★★★★★)5、掌握hbase的寻址机制(★★★★★)6、掌握hbase表中的rowkey设计(★★★★★★★)2、hbase概述2.1hbase是什么​ hbase是基于hdfs进行数据的分布式存储,具有高可...

2018-12-09 21:44:05

大数据实时阶段----【Spark04之sparkStreaming整合flume、sparkStreaming整合kafka (★★★★★)】

typora-copy-images-to:img_spark04typora-root-url:img_spark04spark_入门04学习笔记1、目标1、掌握sparkStreaming原理和架构2、掌握DStream常用的操作3、掌握sparkStreaming整合flume4、掌握sparkStreaming整合kafka(★★★★★)2、sparkStrea...

2018-12-07 16:40:07

kafka入门

kafka入门学习笔记1、目标1、掌握kafka相关概念2、掌握搭建一个kafka集群3、掌握kafka生产者和消费者代码开发4、掌握kafka的分区策略5、掌握kafka整合flume6、掌握kafka如何保证消息不丢失2、kafka概述2.1kafka是什么kafka是由linkedin开源,捐献apache基金会,它是一个实时的分布式消息队列。它提供了一个对于实时...

2018-12-06 22:48:13

kafka_Manager监控工具的安装与作用

kafkaManager监控工具的安装与使用第一步:上传kafkaManager的压缩包将我们kafkaManager的压缩包上传到我们kafka集群的任意一台机器即可第二步:修改kafkaManager的配置文件vimapplication.conf更改一配置文件kafka-manager.zkhosts,修改为我们的zookeeper的地址即可kafka-manager....

2018-12-05 23:09:02

kafka的文件存储机制

kafka的文件存储机制1、概述同一个topic下有多个不同的partition,每个partition为一个目录,partition命名的规则是topic的名称加上一个序号,序号从0开始。每一个partition目录下的文件被平均切割成大小相等(默认一个文件是1G,可以手动去设置)的数据文件,每一个数据文件都被称为一个段(segmentfile),但每个段消息数量不一定相等,这种...

2018-12-05 23:02:42

查看更多

勋章 我的勋章
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得