自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 字节跳动 数据研发实习面经(一面二面)

上上周周五投了字节跳动的数据研发的岗位,然后上周进行了一面,上周周天进行了二面,目前还没出结果,但是应该是凉了。在这里写点东西留个经验教训。首先这是我的第一次面试,之前一直在准备竞赛,论文,没打算找实习。等我想找实习的时候已经6月中旬,很晚了。这时候投简历发现大厂主要就字节跳动还在找人了。我目前比较熟练的就是python,sql,数据挖掘,所以找的也都是数据研发,大数据开发,python后端等工作。一面:python深拷贝浅拷贝,BFS遍历树,微信红包算法(实现每个人期望相同),sql中le

2020-06-24 14:58:40 2375

原创 第一场数据挖掘比赛的一些经验心得

本篇文章主要介绍内容:数据去噪,采样,特征工程数据去噪:无论是数据挖掘的比赛也好,还是日常生活中的各种项目也好,我们拿到手的数据集含有噪声数据是很正常的。噪声会降低我们的数据质量,从而影响我们模型的效果。因此,对噪声的处理是必须的,这一点是众所周知的事情。但是,在去噪的过程中我们也要注意以下问题。在我们这些天做的一个比赛上,一个队友,拿着没有好好处理噪音的数据集却误打误撞跑出了最高的分数,这...

2019-05-17 09:34:44 665

原创 文本分析入门(三)

https://zhuanlan.zhihu.com/p/65481094

2019-05-14 15:28:18 254

原创 文本分析入门(二)

还是先上新概念。分词我们在做文本挖掘的时候,要对文本做的预处理首先就是分词。对于英文来说,因此单词之间天然有空格隔开,因此可以按照空格分词(但也有需要把多个单词做成一个分词的时候)。而对于中文来说,由于没有空格,那么分词就变成了一个需要专门去处理去解决的问题。我们现在的分词都是基于统计来分词。对于一个良好的分词系统来说应该由词典和统计两套系统组成。统计,是为了给词典不断可持续地更新,不断加入...

2019-05-12 10:03:54 323

原创 数据挖掘竞赛之后处理

最近开始入坑数据挖掘比赛,总是听圈内大佬们提到后处理涨分。我就一直很疑惑,一直都是数据预处理,怎么又冒出来一个后处理。在网上学习了之后,决定写一篇文章总结一下。就我目前学习到的数据挖掘的流程来说,一般拿到数据之后先进行数据的分析,清洗工作,比如去除离群点,填充缺失的数据。然后对数据进行处理,比如将object转成categorical类型,把房子的x室y厅z卫分成xyz三个属性…做特征写...

2019-05-12 00:37:20 506

原创 文本分析入门(一)

今天在图书馆查了不少资料,感觉没什么特别好的学习途径。主要通过博客,李航的《统计学习方法》,相关比赛代码来学习。首先还是介绍几个名词,一个新领域总是有很多新名词。Tokenization:将文本转化为tokens的过程Tokens:在文本里的展示的单词或实体Text object:一个句子、短语、单词或文章文本分析也好,平时做的数据挖掘也好,开始都是需要数据预处理。文...

2019-05-07 15:37:42 3306

原创 TFIDF文本分析

TF-IDF是一种文本特征提取统计算法。什么是词频?词频(TF)即一个词语在文本中出现的频率。文本总数(D):所搜集的所有文本数。含关键词的文本数(Dw):含有某个词(关键字)的文本数目。公式:TF-IDF(w)=TF(w)*IDF(w)TF(w)=w在所有文件中出现的次数/该文件的总词数。IDF(w)=log(D/(Dw+1))//+1避免分母为0IDF的作用:降低具有普遍性...

2019-05-06 23:58:58 1635

原创 未来杯 城市-房产租金预测开源baseline

昨天跟队友开源了一份线上0.85的baseline,发在我们的知乎专栏里了。知乎地址:https://zhuanlan.zhihu.com/p/64715267github地址:https://github.com/leo6033/future-AI-challenge下面贴一下baseline的主要代码部分:def parseData(df): """ 预处理数据 ...

2019-05-06 12:06:55 1356

原创 KNN实现手写数字识别(代码读懂后复现)

首先感谢https://blog.csdn.net/u012162613/article/details/41768407的分享!所谓KNN就是对那个你要预测的点,找出其k个邻居,也就是距离他最近的k个点,这k个样本中出现频率最高的类别即作为测试样本的类别。那么,这个距离一般用什么来计算呢?一般有欧式距离、标准化欧式距离、马氏距离、余弦距离。这里我们采用欧式距离:即N维欧氏空间中两点x1...

2019-04-19 20:40:25 727

原创 Numpy.array[]的:与::与:,:的区别

x=np.array([1,2,3,4,5,6,7,8,9,10,11,12])print(x[1:5])#打印index为1~5的数组,范围是左闭右开print(x[3:])#打印index=3之后的数组,包含index=3print(x[:9])#打印index=9之前的数组,不包含index=9print(x[1:-2])#打印index=1到倒数第2个index之间的数组prin...

2019-04-19 17:09:49 313

原创 numpy的mat和array的区别

mat()函数与array()函数生成矩阵所需的数据格式有区别:mat()函数中数据可以为字符串以分号(;)分割,或者为列表形式以逗号(,)分割。而array()函数中数据只能为逗号。2.mat()函数与array()函数生成的矩阵计算方式不同(1) mat()函数中矩阵的乘积可以使用 * 或 .dot()函数。矩阵对应位置元素相乘需调用numpy.multiply()函数。(2) ...

2019-04-19 17:03:27 2301

原创 LR回归复现

参考https://www.cnblogs.com/csu-lmw/p/10661475.html代码目前还有bug未修复from math import expimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom ...

2019-04-14 11:32:02 123

原创 天梯赛L2-004,L2-005,L2-006三题题解

因为最近报名了acm校赛,但是感觉自己好久没有做算法题了,为了能维护一下我这个大二老狗的脸,开始做几个算法题复习一下。这里水题就不放上来了,先放几个树和集合的题。https://pintia.cn/problem-sets/994805046380707840/problems/994805070971912192L2-004 这是二叉搜索树吗?这个题就是给你一个前序遍历的结果,让你判断是...

2019-04-13 19:59:12 137

原创 用cross_val_score对鸢尾花数据集进行交叉验证

from sklearn import datasets#自带的数据集from sklearn.model_selection import train_test_split,cross_val_scorefrom sklearn.neighbors import KNeighborsClassifierimport matplotlib.pyplot as pltiris=dataset...

2019-04-13 19:32:29 1343

原创 天池工业蒸汽比赛代码复现,采用模型LR+GBR,并融合

import numpy as npimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom sklearn import linear_modelfrom sklearn.ensemble import...

2019-04-13 19:26:20 665

原创 ID3决策树算法实现

首先对于ID3决策树我通过看书理解了其思想。然后经过鱼佬的文章之后我学习了其算法实现。感觉对代码的理解还是不够,很多地方还是没弄懂,要继续努力!首先使用数据集age,work,hourse,loan,class青年,否,否,一般,否青年,否,否,好,否青年,是,否,好,是青年,是,是,一般,是青年,否,否,一般,否中年,否,否,一般,否中年,否,否,好,否中年,是,是,好,...

2019-04-09 11:17:18 243

原创 kaggle泰坦尼克比赛总结

泰坦尼克数据挖掘比赛是kaggle上的新手入门赛,作为一个基础还没打好的菜鸡强行敲了一波代码,但是大部分还是跟着别人的思路,看着别人的代码写的。因此代码就不放了,放了跟搬运没啥区别。单纯总结一下学习感悟吧。做数据挖掘的第一步就是读取数据之后进行分析和预处理。所要用到的python 库有pandas,numpy,matplotlib,seaborn...1.读取数据之后先统计一下缺失值情况。...

2019-04-07 17:21:19 327

原创 sklearn实例

python的机器学习的库确实好用,但是切记在使用的时候要懂算法本质与细节,不然调参全靠脸…学习完这些库之后我就要开始把算法底层实现一下,不能做个工具小子。import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn import preproces...

2019-04-07 16:46:59 938

原创 seaborn使用教程

最近为了做数据挖掘的比赛,在不断学习python的这些库,同时学习机器学习的一些算法比如决策树的ID3,C4.5,CART三个算法,SVM,随机森林,梯度提升决策树算法…鉴于我对这些算法的理解还不够深入,因此还是先放我学习python库的代码。之后要实现一下底层,先实现一个ID3试试。下面给出seaborn的示例代码:import numpy as npimport pandas as pd...

2019-04-07 16:38:53 765

原创 机器学习吴恩达——第二周

7 逻辑回归7.1 分类问题在分类问题中,我们要预测的变量y是离散的值,比如说0,1。这时我们可以采用逻辑回归来处理问题。 在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们 也谈到了肿瘤分类问题的例子,区别一个肿瘤是恶性的还是良性的。...

2019-03-31 17:39:00 180

原创 matplotlib示例

import matplotlib%matplotlib inline#如果输入上面一行,则会在输出结果中产生插图,而不是独立的图import matplotlib.pyplot as pltimport numpy as npx=np.arange(0.1,4,.01)plt.figure(figsize=(20,10))plt.plot...

2019-03-24 23:36:00 373

原创 pandas基本操作——1

这里来介绍一下pandas。由于知识点比较多,决定分几篇介绍。import numpy as npimport pandas as pd #pandas是基于numpy的一个开源python库。#我认为相当于python版excel#series是一种一维数组,是基于ndarray设计的,但是他多了一个功能就是自定义标签。#说的明白点就是索...

2019-03-17 16:20:00 163

原创 numpy基本操作

numpy提供了一种n维数组对象:np.array()。将数组封装为对象,有助于科学计算中的诸多操作。下面给出示例import numpy as np#创建ndarray数组,一维数组,二维数组,利用reshape调整数组的行和列。a=np.array([1,2,3])print(a)b=np.array([[1,2,3],[4,5...

2019-03-17 11:49:00 84

原创 python的一些基本知识

1.python通常是一行写完一条语句,但是如果语句很长,我们可以使用反斜杠来实现多行语句。例如:total=item_one+\item_two+\item_three但是在[],(),{}中不需要使用反斜杠。>>> total=['item_one','item_two',... 'item_four','item_five']...

2019-03-16 16:19:00 171

原创 机器学习吴恩达——第一周

本篇博客内容均为个人理解,如有错误,敬请指出。1.1 Welcome to ML列举了一些机器学习常见的应用,如:1.手写识别2.垃圾邮件分类3.图像处理4.搜索引擎......据我看来,模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域都与机器学习有很深的关联。1.2机器学习的定义据我到目前个人的理解来看,机器学习就是依靠目前...

2019-03-10 11:58:00 191

原创 迷宫问题(记录路径)压栈

上节课数据结构老师最后讲的迷宫问题。老师用的方法其实就是深度优先搜索。 这里用广度优先搜索解决迷宫问题,顺便温习一下最近学的栈。用队列实现广度优先搜索。用栈输出路径using namespace std;int maze[5][5],vis[5][5];int bu[4][2]={1,0,-1,0,0,1,0,-1};struct node{int x;int y;int n...

2018-09-28 19:04:19 342

原创 数据结构单链表

单链表

2018-09-17 16:55:35 71

原创 关于归并排序

暑假集训的时候就有接触到归并排序,但是当时并没什么好好地去学习。开学之后数据结构老师提了好几次归并排序,我发现模板代码我已经忘的一干二净了。于是这两天重新学了一遍。所谓归并排序,就是将两个排好序的序列归并在一起,形成一个新序列。 那么,如何得到排好序的序列呢,这里就体现了分治的思想。 我们可以将一个序列,分成两个,四个,八个….分到每个序列只有一个元素。那么这些序列就都是排好序的(因为每个...

2018-09-16 14:36:06 142

原创 神奇STL之map

对于map,官方文档讲的是 Maps are associative containers that store elements formed by a combination of a key value and a mapped value, following a specific order. 即:映射是关联容器,它按照特定顺序存储由键值和映射值的组合形成的元素。 键值通常是用来排...

2018-09-14 11:39:03 135

原创 快速幂和矩阵快速幂

愿乘长风破万里浪

2018-09-13 17:32:08 216

原创 数论

数论基础 (a+b)%c=((a%c)+(b%c))%c (a*b)%c=(a%c)*(b%c)判断素数:bool isprime(int x)//算法复杂度为O(根号n) { if(x<=1) return false; for(int i=2;i<=sqrt(x+0.5);i++){ if(x%i==0) ...

2018-09-13 17:10:51 145

原创 next_permutation用法

当需要对一个序列中的元素进行全排列,可以使用该函数。 bool next_permutation(BidirectionlIterator first,BidirectionalIterator last); 包含于头文件int a[]={1,2,3,4,5}; //产生所有下一组合,时间复杂度为n!,速度较慢 next_permutation(a,a+5); prev_permut...

2018-09-11 21:27:00 8148

原创 关于字符串读入

一、scanf(“%s”,str); 遇见空格或换行就停止。二、cin>>str;与scanf(); 相似遇见空格或换行就停止;以文件结束。三、gets(str); gets(str)函数与 scanf(“%s”,&str) 相似,但不完全相同,使用scanf(“%s”,&s) 函数输入字符串时存在一个问题, 就是如果输入了空格会认为字符串结束,空格后的...

2018-09-11 09:35:21 4929

原创 二分查找

二分查找是我接触的第一个算法。但是其实我们最早接触的关于二分查找就是那个猜数字的游戏。也就是,生成一百以内的随机数,给n次机会猜。想必大家都知道一定是每次一半一半的猜才能快。二分法原理不难,优点是查找次数少,速度快,性能好。缺点则是要求必须是有序表。下面直接上模板代码:(截图是为了不希望直接复制粘贴..还是要自己敲比较好…虽然二分是...

2018-09-10 10:33:00 80

原创 三分搜索

原理什么的都是相同的,三分搜索也是基于分治思想的查找算法。但是我们仔细想想二分查找,是不是只适合单调函数。而三分搜索可以用于凸函数和凹函数。三分搜索同样有left和right,但是中点不再是一个mid,而是两个midl=(left+right)/2; midr=(midl+right)/2;因此可以判断出两个中点相对于函数极值的位置懒得画图了,...

2018-09-10 10:32:00 112

原创 与二分查找类似的三分搜索

原理什么的都是相同的,三分搜索也是基于分治思想的查找算法。 但是我们仔细想想二分查找,是不是只适合单调函数。 而三分搜索可以用于凸函数和凹函数。 三分搜索同样有left和right,但是中点不再是一个mid,而是两个 midl=(left+right)/2; midr=(midl+right)/2; 因此可以判断出两个中点相对于函数极值的位置 懒得画图了,直接拿网上的一个图来解释一下。...

2018-09-10 10:15:14 1104

原创 算法之二分查找

二分查找是我接触的第一个算法。 但是其实我们最早接触的关于二分查找就是那个猜数字的游戏。 也就是,生成一百以内的随机数,给n次机会猜。 想必大家都知道一定是每次一半一半的猜才能快。 二分法原理不难,优点是查找次数少,速度快,性能好。 缺点则是要求必须是有序表。下面直接上模板代码: (截图是为了不希望直接复制粘贴..还是要自己敲比较好…虽然二分是最简单的算法,但是自己敲的习惯还是...

2018-09-09 21:32:26 192

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除