自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 LR原理

1.基础理论2.参数求解:梯度下降算法3.防止过拟合:L1&L2正则化4.Spark MLlib Logistic Regression源码解析5.Spark MLlib Logistics Regression实例--------------------------1. 基础理论logistic回归本质上是线性回归,只是在特征到结果的映射中

2017-06-15 20:20:07 1068

原创 Git常用命令与常识

Git SSH key 生成git config --global user.name "xxx"git config --global user.email "[email protected]"ssh-keygen -t rsa -C "[email protected]"持续更新…

2017-05-26 14:58:00 344

原创 Python-pyspark中常见问题总结

在实际工作中经常遇到各种坑,特别适用pyspark进行相关挖掘探索,有许多编程上的问题,在这里逐个记录一下吧,便于以后查找……pyspark中将dataframe注册为内存数据表时,命名中不能带点(.),否则出现无法找到数据表 如下所示,registerDataFrameAsTable将df注册为内存数据表时,由于惯性思维,习惯性指定到hive仓库的某个库某个表,结果出现无法找到对应的表df

2017-05-10 09:06:59 1803

原创 Python-调用Java的jar包

在实际工作中,有许多算法包是基于Java写的,而习惯了Python进行挖掘的同学会对Java比较犯怵,另一个原因就是在进行工程整合的时候,多语言在同一个工程下面管理起来也不是很方便。因此,考虑在Python环境下调用Java的jar包。1.安装# 安装JPype1pip install JPype1>>> from jpype import *>>> startJVM(getDefaultJVM

2017-05-08 19:54:29 1332

原创 推荐系统-基于PersonalRank推荐模型

时间:2017年5月 出处: 声明:版权所有,转载请联系作者并注明出在推荐系统中,用户对物品的行为数据可以转化成图的形式,具体来说,可以转化为二分图进行表示,基于图来考虑推荐问题也是一种常用的思路之一。1.PageRank模型PageRank是Google网页排序的经典算法,这里只做简要概述,详细的算法推导过程及实现,可以网上找找相关资料,挺多的。 PageRank是Larry Page 和

2017-05-07 12:17:35 1855 1

原创 推荐系统-基于userCF推荐模型

时间:2017年5月 出处: 声明:版权所有,转载请联系作者并注明出1.UserCF原理基于用户的协同过滤推荐算法先使用统计技术寻找与目标用户有相同喜好的邻居,然后根据目标用户的邻居的喜好产生目标用户的推荐。 基本原理就是利用用户访问行为的相似性来互相推荐用户可能感兴趣的资源,如下图所示: 上图示意出基于用户的协同过滤推荐机制的基本原理,假设用户A喜欢物品A、物品C,用户B喜欢物品B,

2017-05-05 21:11:17 2451

原创 推荐系统-基于itemCF推荐模型

时间:2017年5月 出处: 声明:版权所有,转载请联系作者并注明出虽然目前工业界很少再直接通过itemCF来进行推荐,但可以从这个算法中体会到这种集体智慧的应用。1.ItemCF原理充分利用集体智慧,即在大量的人群的行为和数据集中收集答案,以帮助我们对整个人群得到统计意义上的结论,推荐的个性化程度高。 基于以下两个出发点: (1)兴趣相近的用户可能会对同样的东西感兴趣; (2)用户可能

2017-05-05 21:00:12 6824

原创 推荐系统-推荐冷启动问题

1.推荐冷启动概述推荐系统通常需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件。 2.推荐冷启动分类推荐冷启动问题主要分为以下3类: 2.1. 用户冷启动用户冷启动主要解决如何给新用户做个性化推荐的问题,因为新用户历史行为记录非常稀少而产生的。 2.2. 物品领启动物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问

2017-05-05 20:42:08 1937

原创 Anaconda安装

俗话说,工欲善其事必先利其器,在挖掘探索过程中,有个好的工具集合,会省下很多时间。基于Python的科学探索,Anaconda是一个不错的选择,它集成了python大部分的工具包和算法包,同时对于第三方的算法包安装也非常方便。1.下载Anaconda首先到官网http://continuum.io/downloads下载anaconda,如:Anaconda2-4.1.1-Linux-x86_64.

2017-04-28 10:54:07 769

原创 常用技术网站收集

常用技术网站收集1.国内官方技术博客美团官方技术博客:提供了许多互联网行业常见解决方案,具有很大参考价值 奇虎360技术博客:黑产/Hacker攻防/安全等领域相关技术博客2.国外官方技术博客Google开发者博客:可以了解许多前言的算法和数据挖掘相关的项目 Google 开源项目风格指南Facebook官方技术博客

2017-04-28 10:00:56 372

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除