2 青木长风

尚未进行身份认证

人生如逆旅,且歌且叹,随遇而安。 csu-cs-17级

等级
TA的排名 20w+

第一场数据挖掘比赛的一些经验心得

本篇文章主要介绍内容:数据去噪,采样,特征工程数据去噪:无论是数据挖掘的比赛也好,还是日常生活中的各种项目也好,我们拿到手的数据集含有噪声数据是很正常的。噪声会降低我们的数据质量,从而影响我们模型的效果。因此,对噪声的处理是必须的,这一点是众所周知的事情。但是,在去噪的过程中我们也要注意以下问题。在我们这些天做的一个比赛上,一个队友,拿着没有好好处理噪音的数据集却误打误撞跑出了最高的分数,这...

2019-05-17 09:34:44

文本分析入门(三)

https://zhuanlan.zhihu.com/p/65481094

2019-05-14 15:28:18

文本分析入门(二)

还是先上新概念。分词我们在做文本挖掘的时候,要对文本做的预处理首先就是分词。对于英文来说,因此单词之间天然有空格隔开,因此可以按照空格分词(但也有需要把多个单词做成一个分词的时候)。而对于中文来说,由于没有空格,那么分词就变成了一个需要专门去处理去解决的问题。我们现在的分词都是基于统计来分词。对于一个良好的分词系统来说应该由词典和统计两套系统组成。统计,是为了给词典不断可持续地更新,不断加入...

2019-05-12 10:03:54

数据挖掘竞赛之后处理

最近开始入坑数据挖掘比赛,总是听圈内大佬们提到后处理涨分。我就一直很疑惑,一直都是数据预处理,怎么又冒出来一个后处理。在网上学习了之后,决定写一篇文章总结一下。就我目前学习到的数据挖掘的流程来说,一般拿到数据之后先进行数据的分析,清洗工作,比如去除离群点,填充缺失的数据。然后对数据进行处理,比如将object转成categorical类型,把房子的x室y厅z卫分成xyz三个属性…做特征写...

2019-05-12 00:37:20

文本分析入门(一)

今天在图书馆查了不少资料,感觉没什么特别好的学习途径。主要通过博客,李航的《统计学习方法》,相关比赛代码来学习。首先还是介绍几个名词,一个新领域总是有很多新名词。Tokenization:将文本转化为tokens的过程Tokens:在文本里的展示的单词或实体Textobject:一个句子、短语、单词或文章文本分析也好,平时做的数据挖掘也好,开始都是需要数据预处理。文...

2019-05-07 15:37:42

TFIDF文本分析

TF-IDF是一种文本特征提取统计算法。什么是词频?词频(TF)即一个词语在文本中出现的频率。文本总数(D):所搜集的所有文本数。含关键词的文本数(Dw):含有某个词(关键字)的文本数目。公式:TF-IDF(w)=TF(w)*IDF(w)TF(w)=w在所有文件中出现的次数/该文件的总词数。IDF(w)=log(D/(Dw+1))//+1避免分母为0IDF的作用:降低具有普遍性...

2019-05-06 23:58:58

未来杯 城市-房产租金预测开源baseline

昨天跟队友开源了一份线上0.85的baseline,发在我们的知乎专栏里了。知乎地址:https://zhuanlan.zhihu.com/p/64715267github地址:https://github.com/leo6033/future-AI-challenge下面贴一下baseline的主要代码部分:defparseData(df):"""预处理数据...

2019-05-06 12:06:55

KNN实现手写数字识别(代码读懂后复现)

首先感谢https://blog.csdn.net/u012162613/article/details/41768407的分享!所谓KNN就是对那个你要预测的点,找出其k个邻居,也就是距离他最近的k个点,这k个样本中出现频率最高的类别即作为测试样本的类别。那么,这个距离一般用什么来计算呢?一般有欧式距离、标准化欧式距离、马氏距离、余弦距离。这里我们采用欧式距离:即N维欧氏空间中两点x1...

2019-04-19 20:40:25

Numpy.array[]的:与::与:,:的区别

x=np.array([1,2,3,4,5,6,7,8,9,10,11,12])print(x[1:5])#打印index为1~5的数组,范围是左闭右开print(x[3:])#打印index=3之后的数组,包含index=3print(x[:9])#打印index=9之前的数组,不包含index=9print(x[1:-2])#打印index=1到倒数第2个index之间的数组prin...

2019-04-19 17:09:49

numpy的mat和array的区别

mat()函数与array()函数生成矩阵所需的数据格式有区别:mat()函数中数据可以为字符串以分号(;)分割,或者为列表形式以逗号(,)分割。而array()函数中数据只能为逗号。2.mat()函数与array()函数生成的矩阵计算方式不同(1)mat()函数中矩阵的乘积可以使用*或.dot()函数。矩阵对应位置元素相乘需调用numpy.multiply()函数。(2)...

2019-04-19 17:03:27

LR回归复现

参考https://www.cnblogs.com/csu-lmw/p/10661475.html代码目前还有bug未修复frommathimportexpimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfrom...

2019-04-14 11:32:02

天梯赛L2-004,L2-005,L2-006三题题解

因为最近报名了acm校赛,但是感觉自己好久没有做算法题了,为了能维护一下我这个大二老狗的脸,开始做几个算法题复习一下。这里水题就不放上来了,先放几个树和集合的题。https://pintia.cn/problem-sets/994805046380707840/problems/994805070971912192L2-004这是二叉搜索树吗?这个题就是给你一个前序遍历的结果,让你判断是...

2019-04-13 19:59:12

用cross_val_score对鸢尾花数据集进行交叉验证

fromsklearnimportdatasets#自带的数据集fromsklearn.model_selectionimporttrain_test_split,cross_val_scorefromsklearn.neighborsimportKNeighborsClassifierimportmatplotlib.pyplotaspltiris=dataset...

2019-04-13 19:32:29

天池工业蒸汽比赛代码复现,采用模型LR+GBR,并融合

importnumpyasnpimportpandasaspdfromsklearn.metricsimportmean_squared_errorfromsklearn.model_selectionimporttrain_test_splitfromsklearnimportlinear_modelfromsklearn.ensembleimport...

2019-04-13 19:26:20

ID3决策树算法实现

首先对于ID3决策树我通过看书理解了其思想。然后经过鱼佬的文章之后我学习了其算法实现。感觉对代码的理解还是不够,很多地方还是没弄懂,要继续努力!首先使用数据集age,work,hourse,loan,class青年,否,否,一般,否青年,否,否,好,否青年,是,否,好,是青年,是,是,一般,是青年,否,否,一般,否中年,否,否,一般,否中年,否,否,好,否中年,是,是,好,...

2019-04-09 11:17:18

kaggle泰坦尼克比赛总结

泰坦尼克数据挖掘比赛是kaggle上的新手入门赛,作为一个基础还没打好的菜鸡强行敲了一波代码,但是大部分还是跟着别人的思路,看着别人的代码写的。因此代码就不放了,放了跟搬运没啥区别。单纯总结一下学习感悟吧。做数据挖掘的第一步就是读取数据之后进行分析和预处理。所要用到的python库有pandas,numpy,matplotlib,seaborn...1.读取数据之后先统计一下缺失值情况。...

2019-04-07 17:21:19

sklearn实例

python的机器学习的库确实好用,但是切记在使用的时候要懂算法本质与细节,不然调参全靠脸…学习完这些库之后我就要开始把算法底层实现一下,不能做个工具小子。importnumpyasnpimportpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearnimportpreproces...

2019-04-07 16:46:59

seaborn使用教程

最近为了做数据挖掘的比赛,在不断学习python的这些库,同时学习机器学习的一些算法比如决策树的ID3,C4.5,CART三个算法,SVM,随机森林,梯度提升决策树算法…鉴于我对这些算法的理解还不够深入,因此还是先放我学习python库的代码。之后要实现一下底层,先实现一个ID3试试。下面给出seaborn的示例代码:importnumpyasnpimportpandasaspd...

2019-04-07 16:38:53

机器学习吴恩达——第二周

7逻辑回归7.1分类问题在分类问题中,我们要预测的变量y是离散的值,比如说0,1。这时我们可以采用逻辑回归来处理问题。在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们也谈到了肿瘤分类问题的例子,区别一个肿瘤是恶性的还是良性的。...

2019-03-31 17:39:00

matplotlib示例

importmatplotlib%matplotlibinline#如果输入上面一行,则会在输出结果中产生插图,而不是独立的图importmatplotlib.pyplotaspltimportnumpyasnpx=np.arange(0.1,4,.01)plt.figure(figsize=(20,10))plt.plot...

2019-03-24 23:36:00

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。