青木长风-CSDN博客

原创字节跳动数据研发实习面经（一面二面）

上上周周五投了字节跳动的数据研发的岗位，然后上周进行了一面，上周周天进行了二面，目前还没出结果，但是应该是凉了。在这里写点东西留个经验教训。首先这是我的第一次面试，之前一直在准备竞赛，论文，没打算找实习。等我想找实习的时候已经6月中旬，很晚了。这时候投简历发现大厂主要就字节跳动还在找人了。我目前比较熟练的就是python，sql，数据挖掘，所以找的也都是数据研发，大数据开发，python后端等工作。一面：python深拷贝浅拷贝，BFS遍历树，微信红包算法（实现每个人期望相同），sql中le

2020-06-24 14:58:40 2375

原创第一场数据挖掘比赛的一些经验心得

本篇文章主要介绍内容：数据去噪，采样，特征工程数据去噪：无论是数据挖掘的比赛也好，还是日常生活中的各种项目也好，我们拿到手的数据集含有噪声数据是很正常的。噪声会降低我们的数据质量，从而影响我们模型的效果。因此，对噪声的处理是必须的，这一点是众所周知的事情。但是，在去噪的过程中我们也要注意以下问题。在我们这些天做的一个比赛上，一个队友，拿着没有好好处理噪音的数据集却误打误撞跑出了最高的分数，这...

2019-05-17 09:34:44 665

原创文本分析入门（三）

https://zhuanlan.zhihu.com/p/65481094

2019-05-14 15:28:18 254

原创文本分析入门（二）

还是先上新概念。分词我们在做文本挖掘的时候，要对文本做的预处理首先就是分词。对于英文来说，因此单词之间天然有空格隔开，因此可以按照空格分词（但也有需要把多个单词做成一个分词的时候）。而对于中文来说，由于没有空格，那么分词就变成了一个需要专门去处理去解决的问题。我们现在的分词都是基于统计来分词。对于一个良好的分词系统来说应该由词典和统计两套系统组成。统计，是为了给词典不断可持续地更新，不断加入...

2019-05-12 10:03:54 323

原创数据挖掘竞赛之后处理

最近开始入坑数据挖掘比赛，总是听圈内大佬们提到后处理涨分。我就一直很疑惑，一直都是数据预处理，怎么又冒出来一个后处理。在网上学习了之后，决定写一篇文章总结一下。就我目前学习到的数据挖掘的流程来说，一般拿到数据之后先进行数据的分析，清洗工作，比如去除离群点，填充缺失的数据。然后对数据进行处理，比如将object转成categorical类型，把房子的x室y厅z卫分成xyz三个属性…做特征写...

2019-05-12 00:37:20 506

原创文本分析入门（一）

今天在图书馆查了不少资料，感觉没什么特别好的学习途径。主要通过博客，李航的《统计学习方法》，相关比赛代码来学习。首先还是介绍几个名词，一个新领域总是有很多新名词。Tokenization：将文本转化为tokens的过程Tokens：在文本里的展示的单词或实体Text object：一个句子、短语、单词或文章文本分析也好，平时做的数据挖掘也好，开始都是需要数据预处理。文...

2019-05-07 15:37:42 3306

原创 TFIDF文本分析

TF-IDF是一种文本特征提取统计算法。什么是词频？词频（TF）即一个词语在文本中出现的频率。文本总数（D）：所搜集的所有文本数。含关键词的文本数（Dw）：含有某个词（关键字）的文本数目。公式：TF-IDF（w）=TF（w）*IDF（w）TF（w）=w在所有文件中出现的次数/该文件的总词数。IDF（w）=log(D/(Dw+1)）//+1避免分母为0IDF的作用：降低具有普遍性...

2019-05-06 23:58:58 1635

原创未来杯城市-房产租金预测开源baseline

昨天跟队友开源了一份线上0.85的baseline，发在我们的知乎专栏里了。知乎地址：https://zhuanlan.zhihu.com/p/64715267github地址：https://github.com/leo6033/future-AI-challenge下面贴一下baseline的主要代码部分：def parseData(df): """ 预处理数据 ...

2019-05-06 12:06:55 1356

原创 KNN实现手写数字识别（代码读懂后复现）

首先感谢https://blog.csdn.net/u012162613/article/details/41768407的分享！所谓KNN就是对那个你要预测的点，找出其k个邻居，也就是距离他最近的k个点，这k个样本中出现频率最高的类别即作为测试样本的类别。那么，这个距离一般用什么来计算呢？一般有欧式距离、标准化欧式距离、马氏距离、余弦距离。这里我们采用欧式距离：即N维欧氏空间中两点x1...

2019-04-19 20:40:25 727

原创 Numpy.array[]的:与::与:,:的区别

x=np.array([1,2,3,4,5,6,7,8,9,10,11,12])print(x[1:5])#打印index为1~5的数组，范围是左闭右开print(x[3:])#打印index=3之后的数组，包含index=3print(x[:9])#打印index=9之前的数组，不包含index=9print(x[1:-2])#打印index=1到倒数第2个index之间的数组prin...

2019-04-19 17:09:49 313

原创 numpy的mat和array的区别

mat()函数与array()函数生成矩阵所需的数据格式有区别：mat()函数中数据可以为字符串以分号(；)分割，或者为列表形式以逗号（，）分割。而array()函数中数据只能为逗号。2.mat()函数与array()函数生成的矩阵计算方式不同(1) mat()函数中矩阵的乘积可以使用 * 或 .dot()函数。矩阵对应位置元素相乘需调用numpy.multiply()函数。(2) ...

2019-04-19 17:03:27 2301

原创 LR回归复现

参考https://www.cnblogs.com/csu-lmw/p/10661475.html代码目前还有bug未修复from math import expimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom ...

2019-04-14 11:32:02 123

原创天梯赛L2-004，L2-005，L2-006三题题解

因为最近报名了acm校赛，但是感觉自己好久没有做算法题了，为了能维护一下我这个大二老狗的脸，开始做几个算法题复习一下。这里水题就不放上来了，先放几个树和集合的题。https://pintia.cn/problem-sets/994805046380707840/problems/994805070971912192L2-004 这是二叉搜索树吗？这个题就是给你一个前序遍历的结果，让你判断是...

2019-04-13 19:59:12 137

原创用cross_val_score对鸢尾花数据集进行交叉验证

from sklearn import datasets#自带的数据集from sklearn.model_selection import train_test_split,cross_val_scorefrom sklearn.neighbors import KNeighborsClassifierimport matplotlib.pyplot as pltiris=dataset...

2019-04-13 19:32:29 1343

原创天池工业蒸汽比赛代码复现，采用模型LR+GBR，并融合

import numpy as npimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom sklearn import linear_modelfrom sklearn.ensemble import...

2019-04-13 19:26:20 665

原创 ID3决策树算法实现

首先对于ID3决策树我通过看书理解了其思想。然后经过鱼佬的文章之后我学习了其算法实现。感觉对代码的理解还是不够，很多地方还是没弄懂，要继续努力！首先使用数据集age,work,hourse,loan,class青年,否,否,一般,否青年,否,否,好,否青年,是,否,好,是青年,是,是,一般,是青年,否,否,一般,否中年,否,否,一般,否中年,否,否,好,否中年,是,是,好,...

2019-04-09 11:17:18 243

原创 kaggle泰坦尼克比赛总结

泰坦尼克数据挖掘比赛是kaggle上的新手入门赛，作为一个基础还没打好的菜鸡强行敲了一波代码，但是大部分还是跟着别人的思路，看着别人的代码写的。因此代码就不放了，放了跟搬运没啥区别。单纯总结一下学习感悟吧。做数据挖掘的第一步就是读取数据之后进行分析和预处理。所要用到的python 库有pandas，numpy，matplotlib，seaborn...1.读取数据之后先统计一下缺失值情况。...

2019-04-07 17:21:19 327

原创 sklearn实例

python的机器学习的库确实好用，但是切记在使用的时候要懂算法本质与细节，不然调参全靠脸…学习完这些库之后我就要开始把算法底层实现一下，不能做个工具小子。import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn import preproces...

2019-04-07 16:46:59 938

原创 seaborn使用教程

最近为了做数据挖掘的比赛，在不断学习python的这些库，同时学习机器学习的一些算法比如决策树的ID3，C4.5，CART三个算法，SVM，随机森林，梯度提升决策树算法…鉴于我对这些算法的理解还不够深入，因此还是先放我学习python库的代码。之后要实现一下底层，先实现一个ID3试试。下面给出seaborn的示例代码：import numpy as npimport pandas as pd...

2019-04-07 16:38:53 765

原创机器学习吴恩达——第二周

7 逻辑回归7.1 分类问题在分类问题中，我们要预测的变量y是离散的值，比如说0，1。这时我们可以采用逻辑回归来处理问题。在分类问题中，我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们也谈到了肿瘤分类问题的例子，区别一个肿瘤是恶性的还是良性的。...

2019-03-31 17:39:00 180

原创 matplotlib示例

import matplotlib%matplotlib inline#如果输入上面一行，则会在输出结果中产生插图，而不是独立的图import matplotlib.pyplot as pltimport numpy as npx=np.arange(0.1,4,.01)plt.figure(figsize=(20,10))plt.plot...

2019-03-24 23:36:00 373

原创 pandas基本操作——1

这里来介绍一下pandas。由于知识点比较多，决定分几篇介绍。import numpy as npimport pandas as pd #pandas是基于numpy的一个开源python库。#我认为相当于python版excel#series是一种一维数组，是基于ndarray设计的，但是他多了一个功能就是自定义标签。#说的明白点就是索...

2019-03-17 16:20:00 163

原创 numpy基本操作

numpy提供了一种n维数组对象：np.array()。将数组封装为对象，有助于科学计算中的诸多操作。下面给出示例import numpy as np#创建ndarray数组,一维数组，二维数组，利用reshape调整数组的行和列。a=np.array([1,2,3])print(a)b=np.array([[1,2,3],[4,5...

2019-03-17 11:49:00 84

原创 python的一些基本知识

1.python通常是一行写完一条语句，但是如果语句很长，我们可以使用反斜杠来实现多行语句。例如：total=item_one+\item_two+\item_three但是在[],(),{}中不需要使用反斜杠。>>> total=['item_one','item_two',... 'item_four','item_five']...

2019-03-16 16:19:00 171

原创机器学习吴恩达——第一周

本篇博客内容均为个人理解，如有错误，敬请指出。1.1 Welcome to ML列举了一些机器学习常见的应用，如：1.手写识别2.垃圾邮件分类3.图像处理4.搜索引擎......据我看来，模式识别，统计学习，数据挖掘，计算机视觉，语音识别，自然语言处理等领域都与机器学习有很深的关联。1.2机器学习的定义据我到目前个人的理解来看，机器学习就是依靠目前...

2019-03-10 11:58:00 191

原创迷宫问题（记录路径）压栈

上节课数据结构老师最后讲的迷宫问题。老师用的方法其实就是深度优先搜索。这里用广度优先搜索解决迷宫问题，顺便温习一下最近学的栈。用队列实现广度优先搜索。用栈输出路径using namespace std;int maze[5][5],vis[5][5];int bu[4][2]={1,0,-1,0,0,1,0,-1};struct node{int x;int y;int n...

2018-09-28 19:04:19 342

原创数据结构单链表

单链表

2018-09-17 16:55:35 71

原创关于归并排序

暑假集训的时候就有接触到归并排序，但是当时并没什么好好地去学习。开学之后数据结构老师提了好几次归并排序，我发现模板代码我已经忘的一干二净了。于是这两天重新学了一遍。所谓归并排序，就是将两个排好序的序列归并在一起，形成一个新序列。那么，如何得到排好序的序列呢，这里就体现了分治的思想。我们可以将一个序列，分成两个，四个，八个….分到每个序列只有一个元素。那么这些序列就都是排好序的(因为每个...

2018-09-16 14:36:06 142

原创神奇STL之map

对于map，官方文档讲的是 Maps are associative containers that store elements formed by a combination of a key value and a mapped value, following a specific order. 即：映射是关联容器，它按照特定顺序存储由键值和映射值的组合形成的元素。键值通常是用来排...

2018-09-14 11:39:03 135

原创快速幂和矩阵快速幂

愿乘长风破万里浪

2018-09-13 17:32:08 216

原创数论

数论基础 (a+b)%c=((a%c)+(b%c))%c (a*b)%c=(a%c)*(b%c)判断素数：bool isprime(int x)//算法复杂度为O(根号n) { if(x&amp;lt;=1) return false; for(int i=2;i&amp;lt;=sqrt(x+0.5);i++){ if(x%i==0) ...

2018-09-13 17:10:51 145

原创 next_permutation用法

当需要对一个序列中的元素进行全排列，可以使用该函数。 bool next_permutation(BidirectionlIterator first,BidirectionalIterator last); 包含于头文件int a[]={1,2,3,4,5}; //产生所有下一组合，时间复杂度为n！，速度较慢 next_permutation(a,a+5); prev_permut...

2018-09-11 21:27:00 8148

原创关于字符串读入

一、scanf(“%s”,str); 遇见空格或换行就停止。二、cin>>str;与scanf(); 相似遇见空格或换行就停止；以文件结束。三、gets(str); gets(str)函数与 scanf(“%s”,&str) 相似，但不完全相同，使用scanf(“%s”,&s) 函数输入字符串时存在一个问题，就是如果输入了空格会认为字符串结束，空格后的...

2018-09-11 09:35:21 4929

原创二分查找

二分查找是我接触的第一个算法。但是其实我们最早接触的关于二分查找就是那个猜数字的游戏。也就是，生成一百以内的随机数，给n次机会猜。想必大家都知道一定是每次一半一半的猜才能快。二分法原理不难，优点是查找次数少，速度快，性能好。缺点则是要求必须是有序表。下面直接上模板代码：（截图是为了不希望直接复制粘贴..还是要自己敲比较好…虽然二分是...

2018-09-10 10:33:00 80

原创三分搜索

原理什么的都是相同的，三分搜索也是基于分治思想的查找算法。但是我们仔细想想二分查找，是不是只适合单调函数。而三分搜索可以用于凸函数和凹函数。三分搜索同样有left和right，但是中点不再是一个mid，而是两个midl=(left+right)/2; midr=(midl+right)/2;因此可以判断出两个中点相对于函数极值的位置懒得画图了，...

2018-09-10 10:32:00 112

原创与二分查找类似的三分搜索

原理什么的都是相同的，三分搜索也是基于分治思想的查找算法。但是我们仔细想想二分查找，是不是只适合单调函数。而三分搜索可以用于凸函数和凹函数。三分搜索同样有left和right，但是中点不再是一个mid，而是两个 midl=(left+right)/2; midr=(midl+right)/2; 因此可以判断出两个中点相对于函数极值的位置懒得画图了，直接拿网上的一个图来解释一下。...

2018-09-10 10:15:14 1104

原创算法之二分查找

二分查找是我接触的第一个算法。但是其实我们最早接触的关于二分查找就是那个猜数字的游戏。也就是，生成一百以内的随机数，给n次机会猜。想必大家都知道一定是每次一半一半的猜才能快。二分法原理不难，优点是查找次数少，速度快，性能好。缺点则是要求必须是有序表。下面直接上模板代码：（截图是为了不希望直接复制粘贴..还是要自己敲比较好…虽然二分是最简单的算法，但是自己敲的习惯还是...

2018-09-09 21:32:26 192

所爱隔山海