棒子皮蹦蹦床-CSDN博客

原创《商业数据分析》读书笔记（一）

这本书重点在于讲解商业数据分析背后的重点原则。帮助人形成一套科学的应用数据分析的流程。对于有数据分析基础知识的人来说，可以作为一种融会贯通的思维练习。前言1.介绍：数据分析思考数据机会的普遍存在案例：法国飓风案例：预测客户流失数据科学，工程，和数据驱动决策制定数据处理和“大数据”从大数据1.0到大数据2.0作为战略资产的数据和数据科学能力数据...

2019-11-03 15:57:20 4290 4

原创基于LendingClub数据的信贷分析和建模报告

一：课题分析二：数据获取三：数据探索３．１主要特征含义理解３．２特征分布３．２．１目标特征分布３．２．２分类变量的分布３．２．３连续数值特征分布３．２．４时序特征分布３．２．５文字特征分布３．２．６两两特征的协方差四：数据预处理４．１数据集划分４．２特征缺失值识别与处理４．２．１严重缺失值的处理４．２．２缺失值填充４．３同值性特...

2019-04-24 10:31:57 22409 14

原创《商业数据分析》读书笔记（十二）

12.其他数据科学任务和技巧基本概念：我们的作为许多共同数据科学技巧基础的概念；熟悉数据科学基础版块的重要性主要技巧：关联和共发；行为画像；关联预测；数据约简；潜在信息挖掘；电影推荐；误差的偏差-方差解构；模型融合；从数据中进行因果推理共发和关联：找到互联的项衡量惊喜：提升和杠杆例子：啤酒和彩票脸书喜欢之间的关联画像：找到典型行为关联预测和社交推荐数据约简，潜在...

2019-01-08 21:40:07 370

原创《商业数据分析》读书笔记（十一）

11.决策分析思考二：针对分析工程基本概念：用数据科学解决商务问题——开始于数据工程：设计一个分析方法，基于数据，工具和可用技巧代表技巧：数据科学解法设计中的期望值框架针对慈善邮件的最好前景期望值框架：解构商务问题和重构解法碎片一个简短偏题——关于选择偏差用一个更复杂的模型重访客户流失问题期望值框架：构造一个更复杂的商务问题评估激励的影响从一个期望值解构到数据科...

2019-01-08 21:16:50 403

原创《商业数据分析》读书笔记（十）

10.呈现和挖掘文本基本概念：构建易于挖掘数据呈现的重要性；为了数据挖掘的文本呈现主要技巧：词袋呈现；TFIDF计算；N-grams;填充；命名的实体抽取；主题模型为什么文本重要为什么文本困难呈现词袋词组频率测量稀疏性：逆向文件频率组合它们：TFIDF例子：爵士音乐家*IDF和熵的关系词袋之外N-gram 序列命名的实体抽取主题模型例...

2019-01-08 17:25:45 481

原创《商业数据分析》读书笔记（九）

9.证据和概率基本概念：用贝叶斯规则组合简单证据；通过假设条件独立进行概率推断代表技巧：朴素贝叶斯；证据提升例子：用广告瞄准线上客户概率性的组合证据联结概率和独立贝叶斯规则将贝叶斯规则应用到数据科学条件独立和朴素贝叶斯朴素贝叶斯的优缺点证据“提升”的一个模型例子：脸书“喜欢”中的证据提升行为中的证据：针对用户的广告总结第九章证据和概率我...

2019-01-08 16:55:50 530

原创《商业数据分析》读书笔记（八）

8.可视化模型表现基本概念：各种不确定性之下的模型性能可视化；进一步思考到底要从数据挖掘结果中得到什么主要技巧：效益曲线；累加相响应曲线；提升曲线；ROC曲线排序而不是分类效益曲线ROC图和曲线ROC之下的区域（AUC）累积响应和提升曲线例子：客户流失模型性能分析总结第八章可视化模型性能基本概念：在各种不确定性下可视化模型性能; 进一步考虑数据挖掘结...

2019-01-08 15:51:48 488

原创《商务数据分析》读书笔记（六）

6.相似性，近邻，和聚类基本概念：计算用数据描述的相似性；用相似性预测；作为基于相似性分割的聚类基本技巧：找到相似条目；最近邻方法；聚类理论；计算相似性的距离矩阵相似性和距离最近邻推理例子：威士忌分析最近邻预测模型多少近邻和多大影响几何解释，过拟合，和复杂度控制最近邻理论的问题关于相似性和近邻一些重要的技术细节异质属性*其他距离函数*组合函数：...

2019-01-07 16:09:09 1277

原创《商务数据分析》读书笔记（五）

5.过拟合和如何避免基本概念：泛化；拟合和过拟合；复杂度控制主要技巧：交叉验证；属性选择；树修剪规则化泛化过拟合过拟合检验维持数据和拟合图树归纳中的过拟合数学方程中的过拟合例子：过拟合线性方程*例子：为什么过拟合不好？从维持估计到交叉验证重访客户流失数据集学习曲线避免过拟合和复杂度控制树模型避免过拟合避免过拟合总的方法*避免过...

2019-01-07 15:21:39 1269

原创《商业数据分析》读书笔记（四）

4.用数据拟合模型基本概念：基于数据找到“最优”模型参数；选择数据挖掘的目标；目标函数；损失函数主要技巧：线性回归；逻辑回归；支持向量机（SVM）用数据函数分类线性判别方程优化目标函数从数据中挖掘线性判别式的一个例子用线性判别方程给实例打分和排序支持向量机简介通过数学方程回归类概率估计和逻辑“回归”*逻辑回归：一些技术细节例子：逻辑回归VS树归纳...

2019-01-07 11:47:58 339

原创《商业数据分析》读书笔记（三）

3.预测模型介绍：从相关关系到监督性分类基本概念：识别信息性丰富的属性；用递进属性选择分割数据主要技巧：找到相关性；属性/变量选择；回归树模型，回归，和预测监督分割选择属性例子：用信息增益选择属性用树模型进行监督分割分割可视化一系列规则的树概率估计例子：用树归纳解决客户流失问题总结第三章预测模型入门：从相关性到监督分割基本概念：识别有用属性...

2019-01-07 11:41:41 396

原创《商业数据分析》读书笔记（二）

2.商业问题和数据科学解决方案基本概念：一系列数据挖掘任务主要工具：数据挖掘过程；有监督和无监督数据挖掘从商业问题到数据挖掘任务监督VS非监督理论数据挖掘和其结果数据挖掘过程业务理解数据准备建模评估部署管理数据科学团队的内涵其他分析技术和技巧统计数据库查询数据仓库回归分析机器学习和数据挖掘用这些技巧回答业务问题总结...

2019-01-07 11:12:25 517

原创数据缩放方法总结

一、标准化（Z-Score），或者去除均值和方差缩放标准分数（standard score）也叫z分数（z-score）,是一个分数与平均数的差再除以标准差的过程。用公式表示为：z=(x-μ)/σ。其中x为某一具体分数,μ为平均数，σ为标准差。Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为负数，反之则为正数。标准分数的作用和特点:标...

2018-03-23 10:12:02 11913 1

参考线性回归分析中的哑变量哑变量（Dummy Variable），也叫虚拟变量，引入哑变量的目的是，将不能够定量处理的变量量化，如职业、性别对收入的影响，战争、自然灾害对GDP的影响，季节对某些产品（如冷饮）销售的影响等等。这种“量化”通常是通过引入“哑变量”来完成的。根据这些因素的属性类型，构造只取“0”或“1”的人工变量，通常称为哑变量（dummy variables），记为D。举一个例子，...

2018-03-22 11:58:45 5213

原创 np.where()用法总结

用法一：可以返回一个n维数组，可广播。# np.where(condition, x, y)# condition, x, y, return are all can be #ndarrayx = np.random.randn((4, 4))np.where(x>0, 2, -2)output:用法二：condition 也可以是布尔型数组，每个条件都和x,y对应（广播）用法三：找...

2018-03-21 20:52:15 103080 5

棒子皮蹦蹦床