自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

挖掘+算法

互相学习,一起提升

  • 博客(12)
  • 收藏
  • 关注

原创 centos6--xlearn安装方式及采坑记录

初始的安装环境是centos6gcc版本是4.4.7安装xlearn需要满足c++11的标准。安装xlearn的目的主要就是想要调用ffm模型。直接说满足安装条件的最短路径吧。主要就是需要升级gcc,gcc 6.3.0是满足的,6.1.0是不行的,因为已经安装成功,其他版本没有去尝试。yum -y install centos-release-sclyum -y install devt...

2019-06-28 14:26:34 363

原创 crontab使用注意事项

1.脚本中的文件路径尽量使用绝对路径,因为crontab默认文件的路径是用户的根目录,这和原先文件的所在路径很多时候是不一样的。2.可以通过cat /var/****** 查看报错信息...

2019-06-11 17:57:32 222

转载 hive 回顾---字段拆分为 多行+多列

...

2019-05-05 16:12:01 4309 2

原创 spark从notebook启动

环境准备:anaconda3、spark1.把pyspark文件夹复制到sitepakage中2.设置spark_home和pythonpath

2019-04-29 16:50:50 279

原创 spark中pmml文件创建方式

def saveToLocalFile(pmml:PMML,path:String): Unit ={JAXBUtil.marshalPMML(pmml, new StreamResult(path))}

2019-04-16 11:48:44 396

转载 箱线图

学习箱线图的时候,总感觉学的不顺手,先了解箱线图原理有很大的帮助。本篇适用于初学者举一例:(数据是编的)某大学22位学生离校时间(天):1  2  2  2  3  3  3  4  4  5  5  5  6  6  7 &...

2019-04-11 11:39:22 2996

原创 pandas分组排序功能

在一个班级里,学生考试科目有语文、数学、英语,分别有对应的成绩。现在,想要列出每个科目班级的前五名的情况,要求包含科目、姓名、成绩、名次。通过以下代码实现:import pandas as pda=['小红','小绿','小蓝','小白','小青','小紫','小粉','小傻','小红','小绿','小蓝','小白','小青','小紫','小粉','小傻','小红','小绿','小蓝','...

2019-03-28 10:30:30 7076

转载 AUC直观解释--转

auc指标含义的理解 机器学习实践中分类器常用的评价指标就是auc,不想搞懂,简单用的话,记住一句话就行auc取值范围[0.5,1],越大表示越好,小于0.5的把结果取反就行。想搞懂的,看An introduction to ROC analysis (Tom Fawcett)这篇论文把。我把这篇论文的要点整理了...

2019-03-01 08:59:25 2225

原创 python爬虫--彩票数据爬取

最近对彩票比较感兴趣,所以想要爬取一些彩票数据。爬虫相关的库使用的不是很熟练,基本是现学现用,使用如下代码:import pandas as pdimport requestsimport xlwtimport timefrom bs4 import BeautifulSoupimport numpy as npfrom matplotlib import pyplot as plt...

2019-02-25 20:50:50 10870 3

原创 参数调优开发总结--问题1--L1、L2正则化转化为弹性网参数和正则化参数

Spark中的逻辑回归算法中有两个参数,regParam正则化参数和elasticNetParam弹性网参数,通过设置这两个参数,可以间接确定算法中的L1和L2参数。反推公式公式比较简单,可以从源码中看到,如下val regParamL1 = $(elasticNetParam) * $(regParam)val regParamL2 = (1.0 - $(elasticNetPara...

2019-02-15 17:31:51 1511

转载 多分类ROC曲线

转自https://blog.csdn.net/xyz1584172808/article/details/818392301 基本概念一个分类模型(分类器)是一个将某个实例映射到一个特定类的过程.分类器的结果可以是给出该实例所属的类别,也可以给定该实例属于某个类别的概率。 首先来考虑一个两类预测问题(双分类器),其结果要么是真(p)要么是假(n).在双分类器中有4类可能的输出.如果输出...

2019-02-14 11:13:38 46702 10

原创 逻辑回归损失函数和对数损失函数的关系

以单样本为例,逻辑回归损失函数C=−yz+ln(1+ez)C=-yz+ln(1+e^{z})C=−yz+ln(1+ez)其中z=wxz=wxz=wx∂C∂z=−y+11+e−z={1,y=10,other values \frac{\partial C}{\partial z}=-y+\frac{1}{1+e^{-z}}=\left \{\begin{array}{cc}1, &...

2019-01-23 13:35:28 2732 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除