7 千寻~

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 508

回归(regression)与分类(classification)的区别

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”回归与分类的不同1.回归问题的应用场景(预测的结果是连续的,例如预测明天的温度,23,24,25度)回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为...

2017-02-28 21:53:43

xgboost: Higgs Boson Machine Learning Challenge

代码原始出处: https://github.com/dmlc/xgboost/tree/master/demo/kaggle-higgs一、问题介绍竞赛官网:https://www.kaggle.com/c/higgs-boson/希格斯玻色子(英语:Higgs boson)是标准模型里的一种基本粒子,是因物理学者彼得·希格斯而命名。2012年7月4日,欧洲核子研究组织(CE...

2019-07-28 13:29:38

shell命令行&&、||和 ; 的使用方法

一、&&运算符:如下:&&左边的命令(命令1)返回真(即返回0,成功被执行)后,&&右边的命令(命令2)才能够被执行;换句话说,“如果这个命令执行成功&&那么执行这个命令”。command1 && command2语法格式如下:command1 && command2 [&&am...

2019-07-28 13:21:14

机器学习:什么是欠拟合和过拟合

1.什么是欠拟合和过拟合先看三张图片,这三张图片是线性回归模型拟合的函数和训练集的关系第一张图片拟合的函数和训练集误差较大,我们称这种情况为欠拟合 第二张图片拟合的函数和训练集误差较小,我们称这种情况为合适拟合 第三张图片拟合的函数完美的匹配训练集数据,我们称这种情况为过拟合类似的,对于逻辑回归同样也存在欠拟合和过拟合问题,如下三张图2.如何解决欠拟合...

2019-07-27 11:25:32

docker入门

Docker 是一个开源的应用容器引擎。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口,更重要的是容器性能开销极低。总结起来一句话,docker确实好用。docker的教程主要参考菜鸟教程,链接如下。按照链接的教程,操作一下,就会对docker有初步的理解...

2019-07-23 16:11:17

极大似然估计和贝叶斯决策详解

原博客链接1 :https://blog.csdn.net/zengxiantao1994/article/details/72787849原博客链接2: https://blog.csdn.net/linyanqing21/article/details/50939009主要内容:总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。 原...

2018-12-26 20:49:13

Jupyter Notebook使用教程(如何在code和markdown切换,快捷键设置)

1、启动在终端中输入以下命令:jupyter notebook --allow-root执行命令之后,在终端中将会显示一系列notebook的服务器信息,同时浏览器将会自动启动Jupyter Notebook。启动过程中终端显示内容如下:$ jupyter notebook[I 08:58:24.417 NotebookApp] Serving notebooks fr...

2018-12-07 11:32:36

markdown(md)文件的基本常用编辑语法

.md即markdown文件的基本常用编写语法(图文并茂)原文:https://www.cnblogs.com/liugang-vip/p/6337580.html起因:因为现在的前端基本上都用上了前端构建工具,那就难免要写一些readme等等的说明性文件,但是这样的文件一般都是.md的文件,编写的语法自然跟其他格式的文件有所区别,置于为什么要用这种格式的文件,不要问我,我也不知道,大...

2018-12-06 22:48:12

我上了985,211,才发现自己一无所有 | 或者,也不能这么说

转载:旦事记  《我上了985,211,才发现自己一无所有 | 或者,也不能这么说》一文 我是在很久以后才意识到原来那些看起来光鲜亮丽的人心里也是在自卑的。  这个发现很偶然,是有一次我的学霸舍友回来,非常非常不开心,趴在桌子上很久很久没有起来。 我打着炉石呢,觉得不对劲回过头说你怎么了。她抬起头来说,哎,我才发现人与人的差距这么大。你不知道我今天参加讨论课,有个女...

2018-11-02 08:40:46

机器学习中的范数规则化之 L0、L1与L2范数

原文:https://blog.csdn.net/zouxy09/article/details/2497199        今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存...

2018-10-24 16:12:13

词嵌入向量(Word Embedding)的建模

1、Embedding函数从前面的定义,我们期望在隐层中找到一个/组嵌入函数W(这里采用lookup table的方式),使得![][3]具体的,假设指定固定的向量维度,W("篮球")=(0.2, -0.4, 0.7, ...),W("苹果")=(0.0, 0.6, -0.1, ...),W初始化时可以赋值给每个维度一个随机数,并通过与output层连接建立学习模型/任务后得到有意义的向量。...

2018-09-29 21:48:03

词嵌入向量(Word Embedding)的原理和生成方法

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”WordEmbedding词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用WordEmbedding将一个单词转换成固定长度的向量表示,从而便于进行数学处理。本文将介绍WordEmb...

2018-09-29 11:08:12

Bow词袋模型原理与实例(bag of words)

The bag-of-words model is a simplifying assumption used in natural language processing and information retrieval. In this model, a text (such as a sentence or a document) is represented as an unordere...

2018-09-29 10:50:59

程序化广告交易中的点击率预估

指标  广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标:     1. 排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。     2. 数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标。如果我们对CTR普遍低估,我...

2018-09-18 12:24:04

GBDT+LR特征融合的例子

sklearn直接使用.apply即可完成,下面看下简单的例子,GBDT+LR融合后比直接使用GBDT预测,AUC提升了0.004import pandas as pdfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import GradientBoostingClassifierf...

2018-09-18 12:21:22

CTR预估中GBDT与LR融合方案

原文:https://blog.csdn.net/lilyth_lilyth/article/details/480321191、 背景      CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线...

2018-09-18 11:14:01

pandas的iloc、loc、ix的使用(列切片及行切片)

loc:通过选取行(列)标签索引数据 iloc:通过选取行(列)位置编号索引数据 ix:既可以通过行(列)标签索引数据,也可以通过行(列)位置编号索引数据df是一个dataframe,列名为ABCD具体值如下:ABCD0ss小红81aa小明d4ff6ak小紫...

2018-09-15 22:07:30

解决jupyter中matplotlib中文乱码问题

第一步:系统中文字体查看[hadoop@p168 ~]$ fc-list :lang=zh/System/Library/Fonts/STHeiti Medium.ttc: 黑体\-简,黑體\-簡,Heiti SC,黒体\-簡,Heiti\-간체:style=中等,中黑,Medium,Halbfett,Normaali,Moyen,Medio,ミディアム,중간체,Médio,Средний...

2018-09-14 23:13:37

Kaggle案例之泰坦尼克船员幸存预测

无意间在网易云课堂上找了一个Kaggle案例,泰坦尼克获救船员预测,在此之前我是从没接触过kaggle,毕竟是刚入门的小白,看着视频,算是真正实战了一次,主要是在这个过程中学到了很多东西。下面视频地址http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052093&...

2018-09-14 10:54:03

使用sklearn优雅地进行数据挖掘

目录1 使用sklearn进行数据挖掘  1.1 数据挖掘的步骤  1.2 数据初貌  1.3 关键技术2 并行处理  2.1 整体并行处理  2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤  数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤...

2018-09-06 09:49:23

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。