自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

William_Dong的专栏

边学习边记录

  • 博客(73)
  • 收藏
  • 关注

原创 记录

带记录

2021-01-20 11:50:43 144

原创 python有意思的eval函数

eval()函数作用:自动去掉字符串两侧的引号,将字符串转为python语句,即字符串转命令,然后执行转化后的语句例子1:a = 1b = 2c = eval("a+b")print(c)#输出为3例子2:c = eval('pow(2,2)')print(c)#输出为4...

2020-03-27 16:06:34 279

原创 RNN序列模型介绍

5.1 序列模型5.1.1 RNN结构介绍在CNN模型中一定是要求固定长度的输入和输出,而RNN单元的内部结构如下图所示。RNN序列是可以有多种结构的,并且每种结构下又可以有多种变体。One-to-n的结构如下,圆圈或是方块表示的是向量,一个箭头就表示对该向量做一次变换。 one-to-n 的结构可以用来从图像生成文字...

2020-01-03 01:11:07 2352

原创 召回率recall精确率precision准确率accuracy一句话解释

准确率(accuracy):在总样本(全部正样本和负样本)中,预测正确的正样本和负样本的比例。召回率 (Recall):在所有正样本中你预测对了多少(正样本有多少被找出来了,即召回了多少)。精确率 (Precision):你认为的正样本,有多少预测对了。...

2019-12-25 12:08:46 489

原创 boost编译libboost_python3解决PyClass_Type未定义错误

linux系统自带的是python2.7,boost直接编译会变成libboost_python2.7.这时如果你用的是python3执行,那就会出现未定义的符号:PyClass_Type这个错误,因而需要编译boost的python3版本下面是编译libboosr_python3.7的步骤:(1)下载boost并解压进到boost_1_67_0编译并安装boost(2)编译步...

2019-12-11 12:12:47 1717 2

原创 Softmax分类器与cross entropy损失函数

1. Logistic regression模型我们先看下logistic regression模型及损失函数。有m个样本,,。Logistic regression采用的sigmoid函数是损失函数为:2. Softmax回归模型Softmax回归用于多类分类,假设有k个分类,则其中1/ 是为了归一化。3. 损失函数Logistic regression...

2019-10-18 11:29:50 327

原创 Batch Normalization介绍及其在权重初始化中的作用

1. Batch Normalization(Batch Normalization是由Sergey Ioffe et al.在2015年提出)机器学习假设training data和testing data是IID独立同分布,从而在testing data上有很好的效果。实际应用会出现Internal Covariate Shift问题。Batch Normalization(2014年...

2019-10-18 11:16:54 1330

原创 windows下pip升级出错然后pip找不到了解决方案

参考链接:https://www.cnblogs.com/Teachertao/p/11027886.html正是我遇到的问题。1、pip的版本为 9.0.3 想用 pip install -U pip 更新下包,但是在更新过程中出现了报错,如下所示:2、然后尝试用pip install pandas包,提示 ModuleNotFoundError: No module na...

2019-09-19 00:35:38 1371 4

原创 CMake引入opencv编译时includes non-existent path问题解决

在用opencv时编辑CMakeLists.txt时添加下面一句find_package( OpenCV 3.3 REQUIRED )然后就会报下面的错误CMake Error in CMakeLists.txt: Imported target "opencv_calib3d" includes non-existent path "/usr/local/include...

2019-08-31 15:18:28 5267 1

原创 Requests后用Beautifulsoup找不到指定元素(原来是页面元素被注释)

这个问题是在Requests抓取百度贴吧内容列表时出现,可能在抓取其他某些网页时也会出现这个问题。在用Requests时大家习惯加上header,这个header往往是Chrome的header。但是加了这个header就会导致页面中大部分html标签被放在了注释里面,后面用Beautifulsoup的find或是select都找不到对应的标签。head = {'User-Agent':...

2019-03-01 15:01:31 7364 6

原创 Bug解决windows及linux下安装python igraph库报错 Cannot find the C core of igraph

一、首先针对windows电脑的报错pypi网站有多个python igraph的版本通常是下载第二或第三个,但如果电脑没有C编译器的话,使用pip install *.whl文件或是python setup.py install源码都会报以下错误: 尝试了很多人的建议都还是装不成功,最终从https://www.lfd.uci.edu/~gohlke/pythonlibs...

2018-11-22 18:40:28 1124

原创 Gini和AUC的关系(Gini=2AUC-1真的成立吗?)

在做信用评分卡研究时,除了用KS/AUC指标,还经常见到基尼系数(gini coefficient)。gini系数通常被用来判断收入分配公平程度。  图.洛伦茨曲线与基尼系数  Gini coefficient 是指绝对公平线(line of equality)和洛伦茨曲线(Lorenz Curve)围成的面积与绝对公平线以下面积的比例,即gini coefficient = A面积 / ...

2018-10-31 09:54:41 5392

原创 pymysql pymysql.err.OperationalError 1045 Access denied最简单解决办法

我使用的是python3.6+pymysql+mysql8.0在cmd命令行直接输入mysql回车出现:ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO)这时在cmd命令行输入mysql -u root -p 回车输入密码,就可以成功连接数据库但用pymysql登陆报错...

2018-05-10 20:27:12 56410 21

转载 Selenium动态爬虫页面元素无法点击报WebDriverException

亲测以下链接给的第一点和第三点建议非常有用,第二点没试。特转过来。原文链接    https://blog.csdn.net/lyl_7310/article/details/78532628报错selenium.common.exceptions.WebDriverException: Message: Element is not clickable at point (234.75, 22)...

2018-04-26 10:03:43 1154

原创 Python有意思的lambda

lambda的本质是以表达式的形式定义一个匿名函数。lambda的作用是简化了函数定义的书写形式,使得代码更为简洁。注意:(1)lambda并不是一个必要的方法,可以使用函数或其他替代。          (2)lambda并不会提高计算效率。          (3)如果可以用for ...  in  ...  if ... 完成的功能就不用lambda下面介绍下lambda方法 : g = l...

2018-04-11 01:28:12 244

原创 Python有意思的defaultdict方法

本文主要参考最下面的网页,简单做个提炼。defaultdict主要解决在创建的dict为空时的赋值问题。(1)dict.setdefault()方法当不用defaultdict方法时,可用dict.setdefault()方法替代下面使用参考资料中的例子举例。例子是用来统计数组中每个词出现的次数。setdefault(kw,0)方法可在dict中没有kw这个key的时候,将这个key的value设...

2018-04-11 01:11:40 317

原创 python有意思的yield

yield主要使用在遍历、迭代等会占用较大内存的地方。yield 的作用就是把一个函数变成一个 generator,带有 yield 的函数不再是一个普通函数,Python 解释器会将其视为一个 generator。调用这个generator function的时候,返回的是一个 iterable 对象!在 for 循环执行时,每次循环都会执行generator函数内部的代码,并返回一个yield...

2018-04-11 00:08:30 184

原创 Python列表list排序

list排序共有四种方法。1. list[::-1]list的三个参数是:起点,终点,步长。可以缺省。因此,list[::-1]对应的三个参数依次是:第一个参数是起点;第二个参数是终点;第三个参数为-1,其中负数表示从起点到终点位置是倒着取数的,1表示一次减少一个。举例 a=[0,1,2,3,4,5,6,7,8,9]a[:] #是[0,1,2,3,4,5,6,7,8,9]a[::] #是[0,1,...

2018-04-10 19:31:21 2431

原创 Python3 Selenium+ChromeDriver抓取动态网页

以前抓取动态网页是用PhantomJS + Selenium + ChromeDriver,但是新版的Selenium不支持PhantomJS了,程序跑的时候总会跳出一些warnings.现在的操作是放弃PhantomJS,直接用headless ChromeDriver。可直接在Google主页下载个ChromeDriver,都是支持headless的。下面的程序就是启动driver,抓取数据,...

2018-03-30 19:08:30 6818 1

原创 Python3 request抓取网页内容乱码解决方案

下面的解决方案也是参照网上其他人的总结,放在这里方面自己日后查看。 # --- 百度搜索框默认是GBK编码 orgName_gbk = orgName.encode('gbk') orgName_gbk = urllib.parse.quote(orgName_gbk) search_url = 'https://zhidao.baid...

2018-03-29 16:41:30 1881

转载 深度学习之一:CNN初见

本篇是转载以下链接的网址,对CNN有很直观的介绍http://www.36dsj.com/archives/420651,BP算法2,激励函数3,正则化与交叉验证等其他防止过拟合的方法BP神经网络在之前的工作中取到了不错的效果,但是在Micheal Nilson的数的第五章,描述了之前的神经网络在增加多个隐含层之后训练效果会大大下降,也就是说,对

2017-06-06 19:46:33 499

原创 LDA perplexity计算

LDA程序使用的是JgibbLDA,根据其输出的结果,一师兄给了如下的计算perplexity函数/** * @param tw_list是topic word矩阵(.phi文件)的每一行 * @param dt_list是document topic 矩阵(.theta)的每一行 * @param as_list是 .tassign文件的每一行 * */ public do

2015-12-13 21:54:34 7508 10

原创 JgibbLDA输出结果说明与示例

JgibbLDA输出以下几个文件:.others文件存储LDA模型参数,如alpha、beta等。.phi文件存储topic-word分布,每一个元素是p(word|topic),每一行是一个主题,列内容为词语(应该是设定的top多少的词)。.theta文件存储document-topic分布,每一个元素是p(topic|document),每一行是一个文档,列内容是主题概率。

2015-12-13 21:14:23 3226 1

原创 电脑同时安装两个版本java jdk

1. 下载安装两个JDK,在C:\Program Files\Java2. JDK版本间的切换  a) 修改注册表: HKEY_LOCAL_MACHINE  -----> SOFTWARE   -----> JavaSoft  -----> Java Runtime Environment  -----> CurrentVersion, 把这个键值改成你需要的jdk版本号。  b) 设

2015-06-13 12:49:44 10865

原创 matlab SVM 并行计算

SVM ten-fold cross validation 的时候用并行计算% this is script is for SVM training and testingtic;clcclearallData=dlmread('features_LDA_ratios.txt'); % allData=importdata('experiment1.mat'); % al

2015-04-19 17:28:20 2089

原创 Stanford CoreNLP使用

package dong.aid;import java.util.List;import java.util.Properties;import edu.stanford.nlp.dcoref.CorefCoreAnnotations.CorefChainAnnotation;import edu.stanford.nlp.ling.CoreAnnotations.LemmaAnno

2015-04-15 23:29:04 3358

原创 Apache OpenNLP使用

import java.io.*;import opennlp.tools.sentdetect.SentenceDetectorME;import opennlp.tools.sentdetect.SentenceModel;import opennlp.tools.tokenize.Tokenizer;import opennlp.tools.tokenize.TokenizerME

2015-04-14 10:13:24 3972 4

原创 EXCEL VB自定义宏对worksheet简单计算

第一个Sub Test()Dim i As IntegerFor j = 2 To 20numerator = Cells(j, 3)s = 0targerID = Cells(j, 2)For i = 2 To 20If Cells(i, 2) = targerID Thens = s + Cells(i, 3)End IfNext i

2015-04-12 22:42:53 1117

原创 Matlab自带PCA程序princomp Training & Testing及高维数据解决方法

关于PCA的介绍和程序使用,请参照下面文章http://blog.csdn.net/watkinsong/article/details/8234766 [COEFF,SCORE,latent] = princomp(X) returns latent, a vector containing the eigenvalues of the covariance matrix o

2015-04-05 23:03:52 2958

转载 ROC曲线和Gini系数之间的关系

https://staesthetic.wordpress.com/2014/04/14/gini-roc-auc-and-accuracy/

2015-03-23 20:08:45 3776

转载 Htmlparser使用的非常好的教程

转自 http://blog.csdn.net/jediael_lu/article/details/26285951

2015-01-21 14:41:29 725

原创 java导入外部jar包

1. Copy 下载的jar包2. 右击Project名,选择paste。 jar包就会被放到Referenced Libraries下面。3. 右击jar包,选择build path。这时jar包就成功导入了。在project workspace文件夹下就会有这个jar包。源jar包就可以删掉了。

2015-01-21 10:45:20 968

原创 JAVA读写CSV文件(包括arraylist遍历)

import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.util.ArrayList;import java.util.Iterator;publ

2015-01-20 10:14:35 2873

原创 Java开发环境安装与配置

Step1: 下载jdk,http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlStep2: 下载eclipse, http://www.eclipse.org/downloads/ , 选择 eclipse for java EE develoeprs.具体

2015-01-19 20:50:13 386

原创 Python RAKE 关键字提取

RAKE, 即Automatic keyword extraction。来自于M. W. Berry and J. Kogan (Eds.), Text Mining: Applications and Theory.unknown: John Wiley and Sons, Ltd.一书的第一章https://www.airpair.com/nlp/keyword-extraction-tuto...

2014-11-20 22:28:04 5771 1

原创 Coursera_An Introduction to Interactive Programming in Python_Mini-project # 8 RiceRock

http://www.codeskulptor.org/#user38_Ef6manEpXc_21.py完成所有要求# implementation of RiceRocksimport simpleguiimport mathimport random# globals for user interfaceWIDTH = 800HEIGHT = 600score = 0live...

2014-11-16 15:27:56 634

原创 Coursera_An Introduction to Interactive Programming in Python_Mini-project # 7 Spaceship

http://www.codeskulptor.org/#user38_mT9p7Gz3Un_9.py

2014-11-14 10:19:15 885

原创 Coursera_An Introduction to Interactive Programming in Python_Music Player

http://www.codeskulptor.org/#user38_eG2ICYkUDG_0.py

2014-11-13 00:37:50 810

原创 Coursera_An Introduction to Interactive Programming in Python_Mini-project # 6 Blackjack

http://www.codeskulptor.org/#user38_pPTeGUCnFc_15.py# Mini-project #6 - Blackjackimport simpleguiimport random# load card sprite - 936x384 - source: jfitz.comCARD_SIZE = (72, 96)CARD_CE

2014-11-10 13:39:56 673

原创 Coursera_An Introduction to Interactive Programming in Python_Mini-project # 5 Memory

http://www.codeskulptor.org/#user38_6vsNKw1hBx_9.py

2014-11-05 11:25:59 545

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除