自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 数据挖掘随笔:数据集类别不平衡问题

在处理分类问题时,数据集可能会存在类不平衡问题,如在某冰箱厂家生产的10000台冰箱中,有9900台为合格产品,而剩余的100台为不合格产品。在这种情境下,即使采用将全部样本分类为正类的分类器也可以得到99%的准确率,但看似很高的准确率却并没有任何意义,因为在实际应用中需要重点关注的往往正是那些总量只占1%的错误分类样本。这就使得分类器准确性的评估变得没有意义。通过阅读《数据挖掘导论》第五章的相应...

2018-05-23 23:40:06 3763

原创 Spark菜鸟之路(2):IntelLij初探

这里安装了一个用于Scala的IDE——IntelLij,下面来配置一下相关设置进入Configure——Plugins 搜索Scala找到Default Project Structure,创建新的JDK选项在Global Libraries中选择Scala SDK,但是没出来。。。创建Maven工程GroupId,可以理解为用来标志你整个项目组的,或者你这些代码属于某一个完整的项目,比如上面的...

2018-05-16 13:41:41 298

原创 Spark菜鸟之路(1):Spark在Windows10下的环境配置

1)安装Scala从https://www.scala-lang.org/download/all.html下载Scala相应版本查看JAVA版本两种下载还是选择msi吧。。。

2018-05-15 22:09:53 2928 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除