3 zyuPp

尚未进行身份认证

你今日练习了吗?

等级
TA的排名 13w+

【特征工程入门与实践】【特征构建】

特征构建填充分类特征定性填充定量填充编码分类变量扩展数值特征文本的特征构建填充分类特征定性填充对于定性的列,我们可以计算最常见的类别用于填充X['city'].fillna(X['city'].value_counts().index[0])当然,我们不可能对于每一个列都这样写,我们需要建立机器学习流水线,构建自定义的转换器,一次性把数据转换好使用TransformerMixin作为基类,则自动实现fit_transform()函数from sklearn.base import T

2020-05-25 11:33:10

【SQL性能优化】【索引】

索引介绍索引是用来优化sql的,索引可以提升效率,但是也有可能引起效率降低,所以我们必须要知道如何合理使用索引!一、确定何时使用索引整个数据表的数据量少时不需要索引(万级以下)字段的重复度较大,即不同值较少,例如性别,不需要索引也有例外,如果性别比是9:1,那么对比例少的做索引也可以加快查询,即留意分布情况二、索引的业务逻辑功能分类索引的本质目的是帮助我们快速定位想要查找的数据普通索引无任何约束,主要用于提高查询效率唯一索引有数据唯一性约束,一张表可以存在多个唯一索引主键索引

2020-05-25 09:20:38

【特征工程与实践】【特征增强:清洗数据】

特征增强:清洗数据识别数据中的缺失值开始查看缺失值处理缺失值的方法删除有害的行填充缺失值流水线上的填充缺失值(pipeline和Imputer)标准化和归一化z-score标准化min-max标准化行归一化受尺度影响的一些算法识别数据中的缺失值本章只处理定量特征,因为目前没有足够工具处理缺失的定性特征,特征构建那一章会解决这个问题。当获得一份数据集时,首先进行探索性分析,之后本书就对皮马印第安人糖尿病预测数据集进行EDA,画了一些直方图分析属性与目标值的关系,同时绘制相关矩阵,查看相关性系数。开始查

2020-05-21 15:38:25

【特征工程入门与实践】【特征理解】

特征理解结构化与非结构化数据定量与定性数据数据的4个等级EDA与数据可视化描述性统计一、结构化与非结构化结构化数据一般以表格形式组织,行是观察值,列是特征非结构化数据不遵循标准组织结构的数据,通常是一团的,或只有一列。例如服务器日志和推文二、定量数据与定性数据定量数据本质上是数值,应该是衡量某样东西的数量。定性数据本质上是类别,应该是描述某样东西的性质。如:今天的降雨量是定量,今天的天气是晴天还是阴天是定性。数据可能同时是定量和定性,如餐厅评分,虽然是数值,

2020-05-19 15:50:25

【数据库基础复习】

存储过程:存储过程就像一个函数一样,它是一组可以完成某个特定功能的SQL语句集合,用户可以通过给定参数并指定存储过程来调用执行因为SQL语句执行前需要编译,而存储过程就是编译完存在数据库当中,提供我们调用,加快执行效率优点:提供了功能的灵活性,可以被多次调用,很方便,减少网络带宽流量,更加安全,因为可以对存储过程的权限限制,从而避免没有权限的人去访问数据索引:索引是可以帮助mysq...

2020-05-02 14:57:30

【机器学习】【最大熵模型】

最大熵模型最大熵模型是运用了最大熵思想的多分类模型,那就先理解什么叫最大熵!熵熵代表随机变量的不确定性,熵越大代表随便变量越不确定。最大熵的思想当我们猜测一个概率分布,如果对其分布一无所知,则选择熵最大的均匀分布,如果有一定的先验知识,那么就选择满足这些条件的熵最大的分布.核心思想:保留全部不确定性,将风险降到最小模型的推导从训练集T中抽取特征,然后求这些特征在训练集中的经验分布P...

2020-04-28 16:51:38

【SQL】【关于COUNT的用法和细节】

COUNT的定义官方定义:COUNT() 函数返回匹配指定条件的行数。count的三种用法count(列名) 函数返回指定列的值的数目【不计入NULL值】SELECT COUNT(id) FROM tableX;count(*) 函数返回表中的记录数。【可以理解为表格的行数】【计入NULL值】SELECT COUNT(*) FROM tableX;count(DIST...

2020-04-24 10:39:20

【SQL性能优化】【范式设计与反范式设计】

范式设计数据库的设计范式关系型数据库总共有6种范式,按照范式级别从低到高有:第一范式(1NF)第二范式(2NF)第三范式(3NF)巴斯-科德范式(BCNF)第四范式(4NF)第五范式(5NF, 完美范式)特点:高阶范式一定符合低阶范式的要求。越高阶,冗余度越低设计数据表时,通常尽量满足3NF足矣,甚至有时我们会为了提高一些查询性能,选择破坏范式规则,这叫反规范化。数据表的...

2020-04-22 22:29:55

【机器学习】【关联分析】【Apriori】

关联分析关联规则(association rules)是常用的无监督学习算法,目标是发掘数据内在结构特征之间的关联性\color{red}{发掘数据内在结构特征之间的关联性}发掘数据内在结构特征之间的关联性一句话简介:找到特征之间有意义的关系,构建有用的特征和对应的应用。关联规则通常分两类:一是简单关联(事物之间的普通关系),二是序列关联(考虑事物普通关系同时关注时间先后顺序)简单关联规则...

2020-04-21 21:39:54

【面试复习】【数据库与SQL的常考知识点】

借鉴的文章:数据分析面试必备SQL语句1、从表中选取数据select id from table2、多张表取多个字段(表连接)table1有id和name和table2有id和age,取出id,name,age,以id为主键连接select a.id,a.name,b.age from (select id,name from table1) as a --将select之后的内...

2020-04-21 15:23:42

【SQL性能优化】【数据库调优】【概览】

数据库调优目标简单的目的:运行更快,响应更快,吞吐量更大不过目标太泛,不够具体,所以我们需要根据精细的问题定位去调优。通常是以下几种:用户反馈根据用户的问题反馈,找到和数据相关的问题日志分析查看数据库日志和操作系统日志找到异常情况服务器资源监控监控server的CPU、内存、I/O等情况,实时了解服务器性能使用数据库内部状况监控活动会话(active session)监控是其...

2020-04-20 15:41:21

【机器学习】【朴素贝叶斯】

基于贝叶斯定理与特征条件独立假设给定训练集,基于特征条件独立假设学习输入、输入出的联合概率分布基于此模型,对给定输入x,用贝叶斯定理求出后验概率最大的输出y...

2020-04-19 15:42:16

【XGBoost、LightGBM、CatBoost】

XGBoost为什么会有XGBoost?Boosting方法需要不断迭代来生成模型,每次迭代都有新树出现,如果数据集比较复杂,那么计算量会很大,XGBoost就是为了解决这个问题而出现的。陈天奇用C++实现,多线程方式实现回归树并行构建,再改进一下算法,提升训练速度和预测精度。XGBoost和GBDT的区别基分类器:GBDT用CART作为基分类器,而XGB支持线性分类器,还自带正则化...

2020-04-10 16:22:59

【面试复习】【leetcode】【求众数】

leetcode 169 多数元素给定一个大小为 n 的数组,找到其中的多数元素。多数元素是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的,并且给定的数组总是存在多数元素。示例:输入: [3,2,3]输出: 3输入: [2,2,1,1,1,2,2]输出: 2解题思路:暴力法写两个循环,第一个循环所有数,第二个循环计算这个数出现的次数,count&gt...

2020-04-09 22:32:43

【集成学习】【随机森林】【AdaBoost、GBDT】

随机森林、AdaBoost、GBDT、XGBoost、LightGBM、CatBoost组合分类器思想:将多个分类器的结果进行多票表决或取平均值,以此作为最终的结果。好处:提升模型精度,整合各个分类器结果,得到更合理的决策边界,减少整体错误处理较大数据集,可以划分多个子集,对子集构建分类器;处理较小数据集,通过自助采样boostrap产生多个数据集,构建分类器当决策边界比较复杂...

2020-04-06 17:29:24

【面试复习】【决策树】

决策树系列本文将会总结一下决策树相关的算法,包括ID3、C4.5、CART决策树决策树是有监督分类模型,本质是选择一个最大信息增益的特征值进行分割,直到达到结束条件或叶子结点纯度达到阈值怎样才算一个好的决策树?\color{red}怎样才算一个好的决策树?怎样才算一个好的决策树?与训练数据矛盾较小的决策树,同时又具有很好的泛化能力决策树学习过程三步走:特征选择、决策树的生成以及决策...

2020-04-06 15:11:47

【面试复习】【leetcode】【Pow(x, n)幂函数】

leetcode 50 Pow(x, n)实现 pow(x, n) ,即计算 x 的 n 次幂函数。示例:输入: 2.00000, 10输出: 1024.00000输入: 2.00000, -2输出: 0.25000解释: 2−2=1/222^{-2} =1/2^{2}2−2=1/22 = 1/4 = 0.25解题思路:暴力法:写个循环,循环n次乘以一个x,O(N)分治...

2020-04-02 21:48:13

【面试复习】【数据结构】【递归和分治】

递归recursion通过函数体来进行的循环例子理解盗梦空间,可以进入一层梦之后,进入下一层梦,不断循环。。计算n!def Factorial(n): if n<=1: return 1 return n*Factorial(n-1)递归的伪代码:def recursion(level,param1,param2,..): #递归结束条件 if level...

2020-04-02 20:44:33

【机器学习】【SVM】

支持向量机Support Vector Machine缘由(与感知机的区别)当train data线性可分时,存在多个分离超平面可以把两类数据正确分开,感知机利用的是误分类最小的策略,求得分离超平面。但是这是有无穷多个解,而线性svm利用了间隔最大化求分离超平面,解是唯一的,优点是不仅把正负样本点分开,还对最难分的点(即离超平面最近的点)也有足够大的确信度将它们分开核心思想希望用一个平面去...

2020-04-01 16:48:58

【面试复习】【leetcode】【二叉(搜索)树的最近公共祖先】

leetcode 236 二叉树的最近公共祖先给定一个二叉树, 找到该树中两个指定节点的最近公共祖先公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是它自己的祖先)。”示例:例如,给定如下二叉树: root = [3,5,1,6,2,0,8,null,null,7,4]输入: ...

2020-03-30 21:59:14

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。