a_achengsong-CSDN博客

原创一行代码搞定信用评分模型（python）

欢迎大家，上一篇博客【信用卡评分模型（R语言）】详细的讲解了如何开发评分卡，这片博客就不再详细介绍，为方便开发评分卡，本人根据自己经验写了一个python包，导入此包后仅需一行代码即可成功制作评分卡，默认参数已经设置好，效果还可以，欢迎大家使用，如有疑问以及使用中出现BUG，可与我联系，欢迎交流学习。联系方式QQ：990020186包已上传至PYPI官网，可通过pip简易安装。网址：http...

2019-02-28 10:05:50 9563 5

原创信用评分模型（R语言）

信用评分2016年1月10日本文详细的介绍了信用评分卡的开发流程，开发语言为R语言，python版本请见：一行代码搞定信用评分模型（python）python版实例和数据请见我的github：https://github.com/chengsong990020186/CreditScoreModel，如觉得实用就点下star，欢迎大家一起学习交流进步。一、数据准备1、问题的准...

2016-04-23 10:45:57 93500 89

原创 MNIST手写数字识别(tensorflow)

MNIST手写数字识别(tensorflow)最简单的神经网络，仅有一层全链接层，准确率可达0.9226import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("MNIST_data/", one_hot=True)...

2019-07-31 23:13:01 494

原创评分模型的开发、部署、测试、文档说明全流程

评分模型的开发、部署、测试、文档说明全流程文章目录评分模型的开发、部署、测试、文档说明全流程1.使用xgboost训练模型，并保存。2.基于falsk框架，生成实时api接口,进行部署。3.api接口测试。3.1.postman进行测试3.2.使用测试脚本4.api文档xgboost评分模型调用接口接口描述接口说明1.请求URL:2.请求方式3.支持格式4.请求参数说明5.请求示例6.成功返回的...

2019-07-21 23:20:36 1825

原创爬虫--爬取csdn消息并邮箱通知（python3）

之前有很多同学给我发消息，咨询相关问题，我都没能及时回复解答。主要原因是工作比较忙，博客没有每天登入查看消息。等到打开消息，看一些同学的消息，无奈都已经过去了多天。所以这里写了个小脚本，每天爬取博客消息通知，如果有新消息，就发送到个人邮箱提醒。代码如下：#Version: python3#Author: 程松#-*- coding: utf-8 -*-import urll...

2018-02-13 15:40:16 2527 2

原创 bagging和boosting(python代码实现)

分类算法很多，有的效果比较好，有的效果稍微差点。这里还有一种“新”分类算法，就是把多个分类器组合成一个分类器，主要有bagging 和boosting两种。 bagging算法：从原始数据中随机抽取n个样本，重复s次，于是就有个s个训练集，每个训练集都可以训练出一个分类器，最终生成s个分类器，预测结果将有这些分类器投票决定（选择分类器投票结果中最多的类别作为最后预测结果）。代表的有随机森林。

2017-05-16 22:54:10 16867 1

原创支持向量机SVM通俗理解（python代码实现）

这是第三次来“复习”SVM了，第一次是使用SVM包，调用包并尝试调节参数。听闻了“流弊”SVM的算法。第二次学习理论，看了李航的《统计学习方法》以及网上的博客。看完后感觉，满满的公式。。。记不住啊。第三次，也就是这次通过python代码手动来实现SVM，才让我突然对SVM不有畏惧感。希望这里我能通过简单粗暴的文字，能让读者理解到底什么是SVM，这货的算法思想是怎么样的。看之前千万不要畏惧，说到底就...

2017-05-11 02:42:08 87993 116

原创逻辑回归logistic原理（python代码实现）

Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程，为最大化方程，利用牛顿梯度上升求解方程参数。优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。使用数据类型：数值型和标称型数据。

2017-04-08 20:43:39 51797 24

原创朴素贝叶斯文本分类(python代码实现)

朴素贝叶斯（naive bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。优点：在数据较少的情况下仍然有效，可以处理多分类问题。缺点：对入输入数据的准备方式较为敏感。使用数据类型：标称型数据。

2017-04-07 00:02:48 21803 4

原创决策树原理实例（python代码实现）

决策数(Decision Tree)在机器学习中也是比较常见的一种算法，属于监督学习中的一种。看字面意思应该也比较容易理解，相比其他算法比如支持向量机(SVM)或神经网络，似乎决策树感觉“亲切”许多。优点：计算复杂度不高，输出结果易于理解，对中间值的缺失值不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配的问题。使用数据类型：数值型和标称型。简单介绍完毕，让我们来通过一个例子让决策树“

2017-03-26 23:04:13 97761 21

原创 KNN算法原理（python代码实现）

kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点：精度高、对异常值不敏感、无数据输入假定。 - 缺点：计算复杂度高、空间复杂度高。 - 适用数据范围：数值型和标称

2017-03-14 22:42:28 2872

原创数据库中的空值与NULL的区别以及python中的NaN和None

数据库里面的”空值”有两种：空字符(“”)、空值(NULL)。两种存储方式在数据库中都很常见，实际中根据业务或者个人习惯可以用这两种方式来存储“空值”。那这两种到底有什么区别，下面通过例子直接来展示

2017-03-06 21:41:50 34801

原创文件转换为utf-8编码（python小脚本）

本人windows环境，平时从数据库导出数据或者从网上下载csv或txt数据后，会发现各种编码格式。导致有时候打开文件会乱码。为了方便，把文件统一改为utf-8编码，这样就减少了很多麻烦。故写个python小脚本，解决麻烦。以下为思路：在桌面建立空白文件夹，把需要转换编码的文件拖到里面；读取文件夹所有文件；然后以utf-8编码保存文件。以下为python 脚本;# 更改文件编码# 文件统一

2017-03-01 22:57:20 28404 3

原创 Adative-lasso+灰色预测（R）

最近在看特征的选择，看到lasso对特征选择不错，下面直接上干货数据为广州统计年检2015年数据目标：1)梳理影响地方财政收入的关键特征，分析、识别影响地方财政收入的关键特征的选择模型；2)结合目标1的因素分析，对广州市2015年的财政总收入及各个类别收入进行预测。下面为R语言代码部分head(data)#...

2016-08-19 15:03:13 8605 9

原创支持向量机SVM算法原理及应用（R）

只要接触到数据挖掘/机器学习，相比都会听过“支持向量机”的大名。在机器学习领域，支持向量机SVM(Support Vector Machine)是一个有监督的学习模型，通常用来进行模式识别、分类、以及回归分析。SVM涉及的知识面非常广，目标函数、优化过程、并行方法、算法收敛性、样本复杂度等。学习SVM可以看《统计学习方法》、Andrew Ng支持向量机等，这里推荐一个博客，讲的非常详细，我就不搬过...

2016-08-17 16:37:25 51680 4

原创 K-means算法原理以及应用（R）

K-means是一种无监督学习算法，是聚类算法中最简单的一种了。不同与一些分类的监督学习算法，比如逻辑回归、SVM、随机森林等，k-means聚类无需给定Y变量，只有特征X。下面是k-means算法原理及思想。在聚类问题中，给我们的训练样本是，每个，没有了y。 K-means算法是将样本聚类成k个簇（cluster），具体算法描述如下： 1、随机选取k个聚类质心...

2016-08-16 23:58:29 26464 2

原创简单的文本挖掘-用于QQ聊天记录（R）

平时的交流很多都在QQ上，QQ交流已经离不开日常的生活，这里我用R来分析QQ聊天记录，看看平时都聊了什么。首先介绍下用的文本挖掘的包：Rwordseg 一个 R 环境下的中文分词工具，使用 rJava 调用 Java 分词工具 Ansj。该包需配合rJava包一起使用。详见李舰老师博客：http://jianl.org/Rwordseg包不能直接install.packages(...

2016-08-04 19:26:45 10375 4

转载奇异值分解及几何意义

PS：一直以来对SVD分解似懂非懂，此文为译文，原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰，实属不易。原文举了一个简单的图像处理问题，简单形象，真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解，比如个性化推荐中应用了SVD，文本以及Web挖掘的时候也经常会用到SVD。英文原文：We recommend a singul

2016-07-26 18:50:53 1065

原创 logistic回归报错问题：Warning messages: 1: glm.fit:算法没有聚合 2: glm.fit:拟合機率算出来是数值零或一

logistic回归的时候报错问题包括下面两种Warning: glm.fit: algorithm did not convergeWarning: glm.fit: fitted probabilities numerically 0 or 1 occurredWarning messages:1: glm.fit:算法没有聚合2: glm.fit:拟合機率算出来是数值...

2016-07-26 10:40:48 62366 5

原创机器学习与数据挖掘学习之路

机器学习与数据挖掘学习之路这是我个人在学习数据挖掘的时候，通过XMIND整理的学习过程。里面有几条路线，希望能给想学习数据挖掘同学提供一些帮助。不废话了，直接上图：

2016-06-23 10:39:44 2652 1

原创 ROC曲线以及评估指标F1-Score, recall, precision-整理版

最近一直在看ROC曲线，查阅了一些资料，并进行了整理，文章结尾有原资料链接。希望能自己和各位节约时间来找资料，花更多的时间来学习。ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣。ROC曲线怎么来的呢，我们来看经典的混淆矩阵：ROC曲线一般的横轴是FPR，纵轴是F

2016-05-26 19:03:12 20328

转载贝叶斯

目录0. 前言 1. 历史 1.1 一个例子：自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论（Model Comparasion）与贝叶斯奥卡姆剃刀（Bayesian Occam’s Razor） 3.3 最小描述长度原则

2016-05-23 11:28:44 1500

转载 PCA的数学原理

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理，帮助读者了解PCA的工作机制是什么。

2016-05-10 16:50:37 903

原创 Amazon Employee Access 数据分析报告（python）

Amazon Employee Access 数据分析报告报告摘要目标：本分析旨在利用Amazon的员工编号相关信息，来分析和预测当员工申请访问某个编号的资源时，是否被允许访问。方法：在原有部分变量的基础上，利用特征工程的方法，新增了单变量、双变量、三变量、四变量出现的频率和变量出现的条件概率等变量，利用随机森林模型，对目标变量进行预测。结论：一、对于训练集数据分析发现，各变量之间存在着

2016-05-07 15:45:36 5099 1

原创 Detecting Insults in Social Commentary 数据分析报告（python）

# Detecting Insults in Social Commentary 数据分析报告报告摘要目标：本分析旨在利用文本数据判断一个评论是否为侮辱性评论。方法：对评论数据进行数据清洗、停止词处理、词干化基础上，构建词频矩阵，利用逻辑斯蒂回归和L1正则化的逻辑回归对评论是否为侮辱性评论进行判断。结论：对测试集数据进行测试后，发现模型具有一定的判断效果。

2016-05-07 11:13:30 1595

原创 Titanic数据分析报告（python）

Titanic数据分析报告

2016-05-07 10:55:42 13579 1

原创个股与指数的回归分析（python）

个股与指数的回归分析

2016-05-07 09:42:51 24892

程松