吃机智豆长大的少女乙-CSDN博客

原创 R语言编程的高效方法

R语言编程的高效方法**R语言编程的高效方法**高效编程之细节知识点并行计算1.查看核数2.可以使用并行计算的场景3.Parellel 包R语言编程的高效方法学习资料来源：datacamp : writing-efficient-r-code网络资源：https://cosx.org/2016/09/r-and-parallel-computinghttp://gforge.se/2...

2020-01-22 16:12:16 2128

原创评分卡建模学习

评分卡模型 Credit card1. 模型理论知识金融行业常用的评分卡模型流程图：1.1 数据准备数据源主要包含行内行外两部分：行内的有客户的基础人口统计特征数据、交易历史数据、信用历史数据等；外部数据有人行征信数据、第三方征信机构数据及社交行为数据等。人行征信在中小型企业中的征信检测效果比较好1.2 数据探索对获得的原始数据进行进一步的探索观察样本的总体分布情况，正负样本是...

2019-04-19 13:58:42 1348 1

转载 Linux语法(不完整）

Linux语法学习工作中需要用到linux做mongodb的一些事情。学一下linux。对服务器来说，图形界面会占用更多的系统资源，而且会安装更多的服务、开放更多的端口，这对服务器的稳定性和安全性都有负面影响。命令提示符[root@localhost ~]#这是Linux系统的命令提示符。[]:提示符的分隔符号 root：显示的是当前的登录用户，现在使用root用户登录 @：分隔符...

2019-03-26 10:02:31 409

转载 HIVE教程

HIVE教程HadoopHadoop是一个开源框架来存储和处理大型数据在分布式环境。它包含两个模块，一个是MapReduce,另外一个是Hadoop分布式文件系统(HDFS).MapReduce: 它是一种并行编程模型在大型集群普遍硬件可用于处理大型结构化，半结构化和非结构化数据。Hadoop生态系统包含了用于协助Hadoop的不同的子项目（工具）模块，如Sqoop, Pig 和 Hive...

2019-03-15 22:45:02 1502

原创 Machine learning tree methods

Machine learning tree methodsLearn how to use tree-based machine learning models to predict future values of a stock’s price, as well as how to use forest-based machine learning methods for regressio...

2019-02-19 22:01:48 663

原创线性回归股价预测

Machine learning for finance in pythonPreparing data and a linear modelExplore the data with some EDAAny time we begin a machine learning (ML) project, we need to first do some exploratory data ana...

2019-02-18 14:40:53 3079 1

原创 Fine-tuning your model

Fine-tuning your model 精修你的模型Metrics（度量） for classificationConfusing matrix混淆矩阵是由false positives，falsenegatives，true positives和true negatives组成的两行两列的表格。它允许我们做出更多的分析，而不仅仅是局限在正确率。Accuracy rate准确率对...

2019-02-09 01:35:08 327

原创 Regression with scikit-learn

Regression with scikit-learnFit & predict for regression# Import LinearRegressionfrom sklearn.linear_model import LinearRegression# Create the regressor: regreg = LinearRegression()# Creat...

2019-02-09 00:45:13 246

原创 Classification with scikit-learn

Classification with scikit-learnBasic model# Import KNeighborsClassifier from sklearn.neighborsfrom sklearn.neighbors import KNeighborsClassifier # Create arrays for the features and the response...

2019-02-08 02:54:03 182

原创 SVM in R

SVM in RSVM算法最初是用来处理二分类问题的，是一种有监督学习的分类算法。对于线性可分的二分类问题，我们可以找到无穷多个超平面，将两类样本进行区分。线性可分SVM所寻找的最优超平面就是要尽可能的远离所有类别的数据点，使得间隔（margin）最大，利用间隔最大化来求得最优超平面。低维中无法分类的话映射到高维空间，如何映射？核函数映射。1. 核函数的选取一般用线性核和高斯核，也就...

2018-12-19 09:02:56 528

原创 Regression Analysis by SAS

SAS for regression analysisI once confound why there are still lots of institutes and companies using SAS.Actually, codes of SAS is quite concise and efficient, enough for business analysis.I concl...

2018-12-15 16:09:57 327

原创 Classification trees

Datacamp LearningClassification trees in RBuilding a simple decision treeThe loans dataset contains 11,312 randomly-selected people who were applied for and later received loans from Lending Club,...

2018-11-04 15:54:15 732

原创 Logistic regression in R

Datacamp LearningLogistic regression in RBuilding simple logistic regression modelsThe donors dataset contains 93,462 examples of people mailed in a fundraising solicitation for paralyzed military...

2018-11-02 08:46:17 3134

原创 Naive Bayes with R

Datacamp LearningNaive Bayes with RComputing probabilitiesThe where9am data frame contains 91 days (thirteen weeks) worth of data in which Brett recorded his location at 9am each day as well as wh...

2018-11-01 23:26:40 445

原创 KNN with R

DATACAMP–machine learning with RNot including the mechanism of knn, this passage focus on how to apply the package “KNN” in R to conduct the classification.It’s my study notes from DATACAMP. link: h...

2018-11-01 17:54:14 345

转载 Python 学习之SQlite

Python 学习之SQlite参考链接：[1]https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001388320596292f925f46d56ef4c80a1c9d8e47e2d5711000[2] http://www.runoob.com/sqlite/sqlit...

2018-10-27 10:56:29 106

转载 Python学习之使用ktinker的GUI设计

Python学习之使用ktinker的GUI设计基础代码from tkinter import *import tkinter.messagebox as messageboxclass Application(Frame): #定义一个类，参数是frame，可以看做是控件的父容器 def__init__(self,master=None): Frame.__i...

2018-10-26 23:21:54 3945

转载 Logistic回归基础篇之梯度上升算法

Logistic回归基础篇之梯度上升算法链接：https://blog.csdn.net/c406495762/article/details/77723333https://blog.csdn.net/c406495762/article/details/77851973代码块"""函数说明:梯度上升算法测试函数求函数f(x) = -x^2 + 4x的极大值...

2018-09-12 08:47:43 706

转载朴素贝叶斯之实例

朴素贝叶斯实例目录朴素贝叶斯实例1.言论过滤器代码2.过滤垃圾邮件代码3.贝叶斯之新浪新闻分类(Sklearn) 1.言论过滤器代码import numpy as npfrom functools import reduce#朴素贝叶斯之言论过滤器#"""函数说明:创建实验样本Parameters: 无Returns: postin...

2018-09-11 19:03:25 1353

转载《机器学习实战》学习笔记（一）：k-近邻算法

k-近邻算法原书中代码为python2中语法，python3的语法参考链接：https://blog.csdn.net/c406495762/article/details/75172850给出k-近邻算法的完整代码（海伦相亲程序）import numpy as npimport operator"""函数说明:kNN算法,分类器Parameters: inX...

2018-09-11 17:33:49 226

转载关于熵的知识——信息论基本概念

信息论1 信息量首先是信息量。假设我们听到了两件事，分别如下：事件A：巴西队进入了2018世界杯决赛圈。事件B：中国队进入了2018世界杯决赛圈。仅凭直觉来说，显而易见事件B的信息量比事件A的信息量要大。究其原因，是因为事件A发生的概率很大，事件B发生的概率很小。所以当越不可能的事件发生了，我们获取到的信息量就越大。越可能发生的事件发生了，我们获取到的信息量就越小。那么信息量...

2018-09-06 17:40:18 8497 1

转载 Machine Learning学习笔记（十四）集成学习（Boosting,Bagging,组合策略）

集成学习在一些数据挖掘竞赛中，后期我们需要对多个模型进行融合以提高效果时，常常会用到Bagging，Boosting，Stacking等这几个框架算法。集成学习在机器学习算法中具有较高的准确率，不足之处就是模型的训练过程可能比较复杂，效率不是很高。目前接触较多的集成学习主要有2种：基于Boosting的和基于Bagging，前者的代表算法有Adaboost、GBDT、XGBOOST、后者...

2018-09-06 11:48:19 1634

原创 Python学习之pandas包

Pandas包学习路线与资料1. 10 Minutes to pandas 【已完成】原版：http://pandas.pydata.org/pandas-docs/stable/10min.html中文版：https://www.cnblogs.com/chaosimple/p/4153083.html2.cookbookshttp://pandas.pydata.or...

2018-09-06 10:37:28 244

转载 Machine Learning学习笔记（十三）随机森林（RandomForest)

随机森林（RandomForest)一、知识铺垫1.1 决策树决策树是机器学习最基本的模型，在不考虑其他复杂情况下，我们可以用一句话来描述决策树：如果得分大于等于60分，那么你及格了。(if-then语句）这是一个最最简单的决策树的模型，我们把及格和没及格分别附上标签，及格（1），没及格（0），那么得到的决策树是这样的但是我们几乎不会让计算机做这么简单的工作，我们把情况变得...

2018-09-05 20:26:45 3645 1

原创数据挖掘的一般流程

数据挖掘的一般流程介绍数据挖掘的一般流程。尚未明了的地方绿字标注，继续学习。数据挖掘是从大量数据中挖掘出有趣模式和知识的过程。数据源一般是数据库、数据仓库、Web等，得到的数据称为数据集(dataset)。其中数据仓库是data mining独有内容，是从多个数据源收集的信息存储库。按照William H.Inmon的说法，“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支...

2018-09-05 18:35:18 24360

转载线性判别法则（LDA)

线性判别法则（Linear Discriminant Analysis)LDA是一种监督学习。也称为Fisher's linear discriminant。LDA的原理是，将带上标签的数据（点），通过投影的方法，投影到维度更低的空间中，使得投影后的点，会形成按类别区分，一簇一簇的情况，相同类别的点，将会在投影后的空间中更接近。要说明白LDA，首先得弄明白线性分类器(Linear Cl...

2018-09-05 15:00:15 1105

转载因子分析（factor analysis)

因子分析（Factor Analysis)首先从原理上说，主成分分析是试图寻找原有自变量的一个线性组合。这个组合方差要大，那么携带的信息也就多，也就是相当于把原始数据的主要成分给拿了出来。而因子分析，是从假设出发，它是假设所有的自变量x出现的原因是因为背后存在一个潜变量f,即因子，在这个因子的作用下，x可以被观察到。什么意思呢，举个例子，比如一个学生考试，数学，化学，物理都考了满...

2018-09-05 14:42:37 6049

转载主成分分析（PCA)

主成分分析（Principal Component Analysis)主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。见链接：[1]https://blog.csdn.net/lyl7...

2018-09-05 14:11:14 343

转载数学建模之线性规划问题（含整数规划和0-1规划）

线性规划问题线性规划是数学规划中的一类最简单规划问题，常见的线性规划是一个有约束的，变量范围为有理数的线性规划。如：为了便于表达，将上面的式子写成矩阵形式：于是约束就表达为了一个不等式。求解MATLAB线性规划时，最常用的函数是linprog函数由于MATLAB中求解的是目标函数是最小值的问题，但如果我们的目标函数是求最大值，可以通过对目标函数中每一项中乘以...

2018-09-05 13:19:56 40296 3

转载数学建模之目标规划问题（总）

数学建模中的目标规划问题对数学建模中的目标规划问题作梳理。一、目标规划的分类约束规划与无约束规划（既无不等式约束又无等式约束）线性规划（目标函数与约束函数均为线性函数）与非线性规划整数规划（包括0-1规划）多目标规划（目标函数形如f(x)=[f1(x),f2(x),…,fn(x)]相关术语：可行解：满足约束条件的一组决策变量的取值可行域：全部可行解的集合 ...

2018-09-05 12:27:20 7313

原创数学建模之层次分析法（AHP）

层次分析法（Analytic Hierarchy Process）AHP是对一些较为复杂的，较为模糊的问题作出决策的简易方法，它特别适用于那些难以完全定量分析的问题。它是美国运筹学家T.L.Saaty教授于上世纪70年代初期提出的一种简便，灵活而又实用的多准则决策方法。目录层次分析法（Analytic Hierarchy Process）一、建模步骤二、层次结构模型...

2018-09-05 12:03:08 129574 20

原创 Machine Learning学习笔记（十一）优化算法的总结

优化算法关于优化：我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题，比如每个企业和个人都要考虑的一个问题“在一定成本下，如何使利润最大化”等。最优化方法是一种数学方法，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。我们现在学习的机器学习算法，大部分的机器学习算法的本质都是建立优化模型，通过最优化方法对目标函数（或损失函数）进行优...

2018-09-05 09:32:04 1408

转载 Machine Learning学习笔记（十）K-means聚类算法

K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。其聚类过程可以用下图表示：如图所示，数据样本用圆点表示，每个簇的中心点用叉叉表示。(a)刚开始时是原始数据，杂乱无章，没有label，看起来都一样，都是绿色的。...

2018-09-04 23:44:29 1591

原创 MYSQL数据库学习笔记（总）

MYSQL 数据库学习笔记一、建表与插入数据使用JETBRAIN的Datagrip编辑数据库。注意建立database之后，使用use database才可能异性后续操作。CREATE DATABASE homework;USE homework;CREATE TABLE students(sno varchar(3) not null, sname varc...

2018-09-04 19:26:39 1552

转载 Machine Learning学习笔记（九）蚁群算法

蚁群算法（Ant Colony Algorithm,ACA)对蚁群算法做归纳总结。蚁群算法概述蚁群算法模拟蚂蚁的觅食行为。蚂蚁在寻找食物时，会在经过的路上释放一种信息素，并能够感知其他蚂蚁释放的信息素。信息素浓度的大小表征路径的远近，信息浓度越高，表示对应的路径越短。通常，蚂蚁会以较大的概率优先选择信息浓度较高的路径，并释放一定量的信息素，以增强该条路径上的信息素浓度，这样...

2018-08-27 13:05:11 2139

转载 Machine Learning学习笔记（八）模拟退火算法

模拟退火算法 (Simulated Annealing)对模拟退火算法做一个归纳总结。知识铺垫搜索问题描述盲目搜索：按照预定的控制策略实行搜索，在搜索过程中，获取的中间信息不用来改进控制策略，成为盲目搜索。启发式搜索：反之。（1）任何有助于找到问题的解，但不能保证找到接的方法均是启发式方法。（2）有助于加速求解过程和找到较优解的方法是启发式方法。盲目搜索：深度优化、...

2018-08-26 17:01:03 2490

转载 Machine Learning学习笔记（七）粒子群优化算法

粒子群优化算法( PARTICAL SWARMS OPTIMIZATION)粒子群优化，是除了蚁群算法，鱼群算法之外的一种群体智能的优化算法，源自对鸟类捕食问题的研究。鸟类捕食问题假设区域里就只有一块食物（即通常优化问题中所讲的最优解），鸟群的任务是找到这个食物源。鸟群在整个搜寻的过程中，通过相互传递各自的信息，让其他的鸟知道自己的位置，通过这样的协作，来判断自己找到的是不是最优解，同...

2018-08-26 16:35:33 6954

转载 Python学习之网络爬虫(一）Requests库与Robots协议

前言大二下学期初在中国慕课网站刷过一遍北京理工大学嵩天老师的Python网络爬虫与信息提取，当时看的仓促，没有认真的做笔记整理。今天对于这门网课的知识点做一个归纳整理，供以后爬虫参考。一、“网络爬虫”课程内容导学The website is the APIpython网络爬虫涉及的内容：Requests:自动爬取HTML页面，自动网络请求提交 robots.txt：网络爬虫...

2018-08-21 14:11:48 1198

转载 Machine Learning学习笔记（六）朴素贝叶斯法（Naive Bayes)

朴素贝叶斯法(Naive Bayes)Naive Bayes的算法原理简单，不多加赘述。参考博文：https://blog.csdn.net/AMDS123/article/details/70173402关键：假设特征独立。朴素贝叶斯代码实现见博文：https://blog.csdn.net/lsldd/article/details/41542107fr...

2018-08-08 09:19:02 191

转载 Machine Learning学习笔记（五）决策树与迭代决策树

决策树决策树是一种基本的分类与回归方法，它可以被认为是一种if-then规则的集合。决策树由节点和有向边组成，内部节点代表了特征属性，外部节点（叶子节点）代表了类别。目录决策树决策树的构建过程计算数据集的经验熵和如何选择最优特征作为分类特征的代码决策树实战篇——为自己配个隐形眼镜ID3、C4.5＆CART算法ID3算法Random ...

2018-08-07 15:43:05 6084

空空如也

空空如也