sallyyoung_sh-CSDN博客

原创主要变量为分类变量的建模实例——入金分析

#修正中文字体from matplotlib.font_manager import FontProperties myfont=FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=14) sns.set(font=myfont.get_name()) import pandas as pdimport missing...

2018-03-22 17:50:50 2311 1

原创百度百科爬虫爬人物信息

百度百科爬虫爬人物信息，主要是政治人物的部分信息。部分代码适应性不高，需进一步修改。并未设置自动化爬虫，只是对字段进行分类处理。from bs4 import BeautifulSoupimport pandas as pdimport requestsimport jsonimport timeimport urllibimport refrom url

2017-10-31 10:30:47 2441

工作需要，利用中国省、市、乡等基本行政规划以及基本的地址分词字符如街、道之类的，以正则表达式分词的方式做了一个相似地址的判断程序。该程序首先利用正则表达式对地址进行分词，将部分常见的无法用于区分的字段删除，如街、道、号等，将分词后的结果放到gensim进行文本相似度判断。大致的判断结果如下：http://download.csdn.net/download/sallyyoung_sh/10019184原始地址相似地址列表上海市奉贤区南桥镇光明工

2017-10-13 10:21:37 4100 2

原创 Pandas对数据框首列为被预测变量，其他列为自变量求WOE矩阵及IV值

import pandas as pdimport osimport datetimeimport numpy as npimport csvimport mathimport matplotlib.pyplot as pltclass Woefordf(object): os.environ['NLS_LANG']='SIMPLIFIED CHINESE_CHINA.UTF

2017-09-11 14:47:47 2605 1

原创 Python制作的Tries树查找地址中包含的省份

class Trie: root={} END='/' def add_province(self,word): node=self.root for c in word: if c=='省': node[self.END]='省' elif c=='自': node[self.END]='自治区' break else: node=

2017-08-31 14:42:57 538

原创如何用Python Pandas以及正则表达式提取地址中的省份

如题。假设数据在data数据框中，列名为"地址"。#筛选含省份的字段data[data['地址'].str.match('.+省']['地址'].str.extract('(.+[省])',expand=True)#去掉省份前特殊字符的样本data1=data.iloc[:,0].str.replace('.+(号|镇|街|路|乡|道|村|巷|侧|\d|（)'，‘’)#去掉

2017-08-25 13:52:12 14870 2

转载机器学习相关知识

机器学习总结机器学习相关知识写在前面的话保持怀疑的态度（在全新的数据集上测试分类器）天下没有免费的午餐（没有适用的最好学习方法，具体问题具体对待）正确对待缺失值，不同参数的设置可能会对结果产生不同的影响不同算法都有对应的假设数据挖掘的结果总会误导人，保持求真的态度数据类型连续型离散型标称型概念离散化归一化正则化度量指标

2017-06-16 11:50:42 286

转载详解ROC/AUC计算过程

2017-06-14 11:20:14 1751

转载从神经网络说起：深度学习初学者不可不知的25个术语和概念

从神经网络说起：深度学习初学者不可不知的25个术语和概念（上）关键词:大数据神经网络来源:网络整理作者:IOTER 2017-06-11 05:54人工智能，深度学习和机器学习，不论你现在是否能够理解这些概念，你都应该学习。否则三年内，你就会像灭绝的恐龙一样被社会淘汰。——马克·库班(NBA小牛队老板，亿万富翁)马克·库班的这番话可能听起来挺吓人

2017-06-12 12:38:35 2950

转载 TensorFlow 深度学习笔记 TensorFlow实现与优化深度神经网络

TensorFlow 深度学习笔记 TensorFlow实现与优化深度神经网络转载请注明作者：梦里风林Github工程地址：https://github.com/ahangchen/GDLnotes欢迎star，有问题可以到Issue区讨论官方教程地址视频/字幕下载全连接神经网络辅助阅读：TensorFlow中文社区教程 - 英文官方教程

2017-06-12 10:33:20 465

转载通过PyTorch实现对抗自编码器

通过PyTorch实现对抗自编码器By 黄小天2017年4月26日 13:52「大多数人类和动物学习是无监督学习。如果智能是一块蛋糕，无监督学习是蛋糕的坯子，有监督学习是蛋糕上的糖衣，而强化学习则是蛋糕上的樱桃。我们知道如何做糖衣和樱桃，但我们不知道如何做蛋糕。」Facebook 人工智能研究部门负责人 Yann LeCun 教授在讲话中多次提及这一类比。对于无

2017-06-09 10:27:55 5477 2

转载变分自编码（VAE）及代码解读

2017-06-09 10:22:46 2824

转载数据不够大，别玩深度学习？正反双方撕起来了

数据不够大，别玩深度学习？正反双方撕起来了2017-06-07 13:06李林问耕发自凹非寺量子位报道 | 公众号 QbitAI争论，随时可能爆发。比方当你看到一篇名为《数据不够大，别玩深度学习》（Don’t use deep learning your data isn’t that big）的博客时。作者Jeff Leek在这篇博客中

2017-06-09 10:06:14 891

转载用python实现简单的遗传算法

今天整理之前写的代码，发现在做数模期间写的用Python实现的遗传算法，感觉还是挺有意思的，就拿出来分享一下。首先遗传算法是一种优化算法，通过模拟基因的优胜劣汰，进行计算（具体的算法思路什么的就不赘述了）。大致过程分为初始化编码、个体评价、选择，交叉，变异。以目标式子 y = 10 * sin(5x) + 7 * cos(4x)为例，计算其最大值首先是初始化，包括具

2017-05-24 16:01:27 1978 2

转载如何计算两个文档的相似度

http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80前几天，我发布了一个和在线教育相关的网站：课程图谱，这个网站的目的通过对公开课的导航、推荐和点评等功能方便大家

2017-05-22 16:10:42 3337

转载机器学习中用来防止过拟合的方法有哪些？

http://www.leiphone.com/news/201705/eMzzUpdhsG71kFlg.html机器学习中用来防止过拟合的方法有哪些？本文作者：qqfly编辑：贾智龙2017-05-16 15:48导语：给《机器视觉与应用》课程出大作业的时候，正好涉及到这方面内容，所以简单整理了一下（参考 Hinton 的课程）。

2017-05-19 10:50:18 5128

转载机器学习：你需要多少训练数据？

http://www.tuicool.com/articles/AFRvArf训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据，通常针对这些训练数据，模型也会产生相应的结果。但是，问题是你需要多少训练数据合适呢？这恰恰取决于你正在执行的任务、最终想通过模型实现的性能、现有的输入特征、训练数据中含有的噪声、已经提取的特征中含有的噪声以及模型的复杂

2017-05-19 10:37:54 772

转载机器学习算法一览

2017-05-18 17:08:30 751

转载 LearningNotes 变分自编码（VariationalAutoEncoder VAE）

http://www.it165.net/pro/html/201612/78028.htmlLearningNotes 变分自编码（VariationalAutoEncoder VAE）作者：发布日期：2016-12-22 20:36:23我来说两句(0)0Tag标签：编码近年，随着有监督学习的低枝果实被采摘的所剩无几，无监督学

2017-05-18 13:48:22 1850

转载 VAE（4）——实现

本文收录在无痛的机器学习第一季。终于到了实现的地方。前面干燥乏味的公式推导和理论阐述已经让很多人昏昏欲睡了，下面我们要提起精神，来看看这个模型的一个比较不错的实现——GitHub - cdoersch/vae_tutorial: Caffe code to accompany my Tutorial on Variational Autoencoders，当然，这个实现也是一个配套tu

2017-01-20 17:22:44 4811

转载 VAE(3)——公式与实现

VAE(3)——公式与实现冯超 · 3 个月前本文收录在无痛的机器学习第一季。前面两部分我们已经扫除了一些基本概念上的障碍，下面我们来直奔主题——VAE！由于文章是一篇一篇写的，所以照顾到大家观看的情况，我们把前面介绍过的一些重要公式搬过来。首先是系列第一篇的公式——多维高斯分布的KL散度计算公式：希望大家还有印象，如果没有印象就赶紧翻回去看看吧

2017-01-20 17:21:29 6187

转载 VAE(2)——基本思想

本文收录在无痛的机器学习第一季。上一回我们花了很大的篇幅介绍了KL散度，这一回我们来看看VAE，尤其是深度模型下的VAE。前面我们已经见过了许多优秀的深度学习模型，它们达到了非常好的精度和效果。众人曾十分认真地分析过为什么这些模型的效果这么好，结论是深度模型的非线性拟合能力确实很强。不管曾经多么复杂的问题，一个深度模型出马，立刻把问题解决的八九不离十。VAE也是利用了这个特点，我们

2017-01-20 17:20:25 5784

转载 VAE（1）——从KL说起

VAE（1）——从KL说起冯超 · 4 个月前本文收录在无痛的机器学习第一季。前面我们介绍了GAN——Generative Adversarial Network，这个网络组是站在对抗博弈的角度去展现生成模型和判别模型各自的威力的，下面我们来看看这种生成模型和判别模型组合的另一个套路——Variational autoencoder，简称VAE。突然想起来，他也叫VAE，我

2017-01-20 17:19:13 9196 3

转载 MLE极大似然估计和EM最大期望算法

机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到这个世界上，还吸引了那么多世人的目光。我希望自己能通俗地把它理解或者说明白，但是，EM这个问题感觉真的不太好用通俗的语言去说明

2017-01-20 11:21:26 4062 1

转载贝叶斯法则,先验概率,后验概率,最大后验概率

1.贝叶斯法则机器学习的任务：在给定训练数据D时，确定假设空间H中的最佳假设。最佳假设：一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。2.先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被

2017-01-19 23:39:35 1328

转载 KL散度(Kullback-Leibler_divergence)

KL-divergence，俗称KL距离，常用来衡量两个概率分布的距离。1. 根据shannon的信息论，给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X，对x∈X，其出现概率为P(x)，那么其最优编码平均需要的比特数等于这个字符集的熵：a.当log以2为底的时候称之为 bits,结果可以视为多少个二进制位可以表示

2017-01-13 10:57:06 7839

Python使用正则表达式以及gensim查找相似地址的算法

http://blog.csdn.net/sallyyoung_sh/article/details/78222877

2017-10-13

2016年统计用区划代码和城乡划分代码（河北邯郸市）

2017-06-07

2016年统计用区划代码和城乡划分代码（河北秦皇岛市）

2017-06-07

2016年统计用区划代码和城乡划分代码（河北唐山市）

2017-06-07

2016年统计用区划代码和城乡划分代码（河北石家庄市）

2017-06-07

2016年统计用区划代码和城乡划分代码（天津）

国家统计局公布的各大省市区域代码

2017-06-07

2016年统计用区划代码和城乡划分代码（北京）

2016年统计用区划代码和城乡划分代码（北京市）

2017-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

sallyyoung_sh的博客

原创主要变量为分类变量的建模实例——入金分析

原创百度百科爬虫爬人物信息

原创关于相似地址识别的Python代码

原创 Pandas对数据框首列为被预测变量，其他列为自变量求WOE矩阵及IV值

原创 Python制作的Tries树查找地址中包含的省份

原创如何用Python Pandas以及正则表达式提取地址中的省份

转载机器学习相关知识

转载详解ROC/AUC计算过程

转载从神经网络说起：深度学习初学者不可不知的25个术语和概念

转载 TensorFlow 深度学习笔记 TensorFlow实现与优化深度神经网络

转载通过PyTorch实现对抗自编码器

转载变分自编码（VAE）及代码解读

转载数据不够大，别玩深度学习？正反双方撕起来了

转载用python实现简单的遗传算法

转载如何计算两个文档的相似度

转载机器学习中用来防止过拟合的方法有哪些？

转载机器学习：你需要多少训练数据？

转载机器学习算法一览

转载 LearningNotes 变分自编码（VariationalAutoEncoder VAE）

转载 VAE（4）——实现

转载 VAE(3)——公式与实现

转载 VAE(2)——基本思想

转载 VAE（1）——从KL说起

转载 MLE极大似然估计和EM最大期望算法

转载贝叶斯法则,先验概率,后验概率,最大后验概率

转载 KL散度(Kullback-Leibler_divergence)

Python使用正则表达式以及gensim查找相似地址的算法

2016年统计用区划代码和城乡划分代码（河北邯郸市）

2016年统计用区划代码和城乡划分代码（河北秦皇岛市）

2016年统计用区划代码和城乡划分代码（河北唐山市）

2016年统计用区划代码和城乡划分代码（河北石家庄市）

2016年统计用区划代码和城乡划分代码（天津）

2016年统计用区划代码和城乡划分代码（北京）

空空如也