自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

转载 似然与极大似然估计

转载一篇很好的理解:原文地址:http://fangs.in/post/thinkstats/likelihood/似然与极大似然估计Likelihood & Maximum likelihood似然与概率在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)...

2019-05-31 11:54:44 275

转载 Python中copy,deepcopy,=之深拷贝浅拷贝使用详解

python中对于对象的拷贝分为浅拷贝(copy)和深拷贝(deepcopy)两种方式。其中浅拷贝由“=”完成。而深拷贝由copy模块中deepcopy()函数担任。**浅拷贝和深拷贝的区别是:浅拷贝只是将原对象在内存中引用地址拷贝过来了。让新的对象指向这个地址。而深拷贝是将这个对象的所有内容遍历拷贝过来了,相当于跟原来没关系了,所以如果你这时候修改原来对象的值跟他没关系了,不会随之更改。1...

2019-05-18 15:21:38 602

转载 jieba文档

jieba“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documentation.特点支持三种分...

2018-04-15 21:51:36 642

转载 python之sys模块详解

python之sys模块详解sys模块功能多,我们这里介绍一些比较实用的功能,相信你会喜欢的,和我一起走进python的模块吧!sys模块的常见函数列表sys.argv: 实现从程序外部向程序传递参数。sys.exit([arg]): 程序中间的退出,arg=0为正常退出。sys.getdefaultencoding(): 获取系统当前编码,一般默认为ascii。sys.setdefaultenc...

2018-03-22 15:08:05 606

转载 机器学习中的数据预处理(sklearn preprocessing)

Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布)。实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的singlearray-like数据集操作。一、标准化,均值去除和按方差比例缩放(Standardization, or mean remo...

2018-03-16 15:31:05 812

转载 Sklearn-GridSearchCV

GridSearchCV,用来自动调参,只要把参数输进去,就能给出最优化的结果和参数,适合于小数据集。GridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。GridSearchCV官方网址:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.htmsv...

2018-03-13 22:15:53 601

原创 Python sklearn包中的一些小函数笔记

sklearn

2017-12-14 22:14:02 1004

原创 Python3 使用SVM--Lasso等,训练模型,画出auc曲线

注意:roc_curve() 这个函数来源于:sklearn.metrics.roc_curveroc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=True)注意它的参数:Parameters:y_true : array, shape = [n_samples] True

2017-12-08 16:55:10 4171

原创 Python3 一些小函数的笔记

一、 row.pop()函数去掉列表最后一列 labels.append(row.pop()) #pop已经发挥作用二、范数http://blog.csdn.net/shijing_0214/article/details/51757564(参考范数) np.linalg.norm((yTestwineQModel.predict(xTest)),2)/sqrt(le

2017-12-08 16:33:03 279

原创 python3抽样方式(两种)

笔记:python3有放回的抽样(两种方式) 1.使用 random.sampleimport randomidxTest = random.sample(range(nPoints),nSample) 2.使用 random.choice (一次选一个)nBagSamples=50for i in range(nBagSamples): idxBag.append(np.

2017-11-22 21:19:43 13230

原创 KFold,StratifiedKFold k折交叉切分

StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。例子:import numpy as np from sklearn.model_selection import KFold,StratifiedKFoldX=np.array([ [1,2,3,4], [11,12,13,14], [21,22,2

2017-09-08 16:41:05 71106 4

转载 nump中的为随机数产生器的seed():np.random.RandomState

笔记: nump.random.RandomState(0)为随机数产生器的种子,里面的数字相同,则产生的随机数相同。rng = numpy.random.RandomState(23355)arrayA = rng.uniform(0,1,(2,3))该段代码的目的是产生一个2行3列的assarray,其中的每个元素都是[0,1]区间的均匀分布的随机数这里看以看到,有一个23355这个数字,其

2017-09-08 09:44:07 6352

转载 R词云--wordcloud2

wordcloud2是基于wordcloud2.js封装的一个R包,使用HTML5的canvas绘制。浏览器的可视化具有动态和交互效果,相对于曾经的R包worldcoud,wordcloud2还支持任意形状的词云绘制.一、安装好以后,包内含有两份data.frame格式的词频数据:英文版的demoFreq和中文版的demoFreqC,使用wordcloud2直接绘制即可。library(wordcl

2017-08-26 21:45:40 4043

转载 (转)jiebaR中文分词快速入门

分词jiebaR提供了四种分词模式,可以通过函数worker()来初始化分词引擎,使用函数segment()进行分词。

2017-08-25 22:25:14 1516

原创 R 文本挖掘 Part2--几个聚类分类算法以及应用

一、一些聚类,分类算法 1.k-means http://blog.sina.com.cn/s/blog_4ac9f56e0101h8xp.html 2.系统 层次 http://blog.sina.com.cn/s/blog_615770bd01018dnj.html 3.文本分类 knn http://blog.csdn.net/cl1143015961/article/detai

2017-08-24 17:39:55 703

转载 R文本挖掘 Part1分词处理(转)

R文本挖掘分词

2017-08-24 12:02:08 698

转载 学习 R 语言词云wordcloud--笔记

wordcloud函数–用于绘制词云图用法: wordcloud(words,freq,scale=c(4,.5),min.freq=3,max.words=Inf,random.order=TRUE, random.color=FALSE, rot.per=.1, colors=”black”,ordered.colors=FALSE,use.r.layout=FALSE,fixed.asp=

2017-08-24 10:54:57 1150

原创 R中的gsub

num<-list(‘adfs’,’d’,’123’,456,7,’8’)gsub(“[0-9]”,”“,num)gsub(“[0-90123456789]”,”“,x=num)效果一样?

2017-08-17 10:10:14 930 1

原创 Python使用Selenium爬取淘宝异步加载的数据

淘宝的页面很复杂,如果使用分析ajax或者js的方式,很麻烦用Python+Selenium方式抓取

2017-03-26 09:14:27 4341

转载 笔记:用Python生成MD5文件的校验值

from hashlib import md5m=md5()#获取一个假币算法对象m.update('string') #制定要加密的字符串md5(content).hexdigest() #获取加密后的16位进制字符串

2017-03-25 11:17:05 655

原创 Python抓取ajax加载图片集

Python爬取ajax动态加载图集

2017-03-25 10:30:11 1668

转载 在Python 中获得当前路径

Python中获取当前路径

2017-03-25 09:28:23 482

转载 phantomjs笔记

一、基本简介(1)一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。(2)提供JavaScript API接口,即通过编写js程序可以直接与webkit内核交互,在此之上可以结合Java语言等,通过java调用js等相关操作,从而解决了以前c/c++才能比较好的基于webkit开发优质采集器的限制。 (3)提供windo

2017-02-28 21:59:25 304

转载 Python模块Collection——OrderedDict

OrderedDict 有序字典OrderedDict

2017-02-27 16:26:58 1332

转载 Scrapy中的Rules理解

Scrapy CrawlSpider Rules

2017-02-25 15:06:20 26766 7

原创 Scrapy爬取图片: raise ValueError('Missing scheme in request url: %s' % self._url)

Scrapy爬取图片 raise ValueError('Missing scheme in request url: %s' % self._url)

2017-02-13 13:42:27 6239 1

原创 笔记:scrapy爬取的数据存入MySQL,MongoDB

scrapy爬取的数据存入mysql,mongoDB

2017-02-11 11:06:20 4771 1

原创 Python scrapy插入mysql的一个错误TypeError

插入数据库本来是一个很简单的问题:        sql="insert into p1(url) values (%s)"        list=(item['url'])          try:            cur.execute(sql,list)        except Exception,e:            print('Ins

2017-02-11 10:08:35 848

原创 使用pycharm,scarpy爬取数据

http://www.bubuko.com/infodetail-1533174.html

2017-02-07 11:39:49 3997

转载 Scrapy+Mongodb爬取数据

Scrapy爬虫数据存到mongodb中      其实主要是前两步1、在settings.py中进行配置ITEM_PIPELINES = {   'dmoz.pipelines.DmozPipeline': 300,}MONGODB_HOST = '127.0.0.1'MONGODB_PORT = 27017MONGODB_DBNAME = 'spider

2017-02-07 11:33:35 1581

原创 Python安装lxml出错:error: Microsoft Visual C++ 9.0 is required.

在Python爬取网页数据的时候需要BeautifulSoup这个Python库,安装BeautifulSoup这个库的时候,用pip 或者 easy_install 来安装都可以:   pip install beautifulsoup4  easy_installbeautifulsoup4  安装成功后,若安装lxml这个解释器,我碰到了这个错误:

2017-01-18 14:54:47 1235

原创 Python2.7.10以上pip更新及其他包安装

Python2.7还是一个比较稳定的版本,目前80%以上的公司都在使用python2.7的版本。他不会在安装的时候报编码错误之类的问题。         但是从官网下载的Python上面自带的pip都是比较滞后的版本,使用的时候需要更新,但是我昨天更新的时候遇到了之类的问题:       ps(问题类似,但不是我的图)        我输入命名使其更新,但就是不成功

2017-01-06 09:52:50 10454 3

原创 VMware三种联网方式

1.NAT模式  (虚拟机相当于互联网中一个主机)虚拟机装好以后默认使用的一种,最简单、最方便的就是使用“NAT”方式共享上网默认使用VMnet8虚拟网卡   a.不管主机是通过拨号上网、无线网卡上网、本地连接上网,只要主机能上网,虚拟机使用“NAT”(即VMnet8)虚拟网卡既可以上网   b.windows中的VMnet8虚拟网卡中设置自动获取ip地址,如下图

2016-03-04 16:08:36 588

原创 使用hamcrest错误

使用:assertThat(n, allOf( greaterThan(x), lessThan(y) ) );等是出现没有这个方法的错误:java.lang.NoSuchMethodError: org.hamcrest.core.AllOf.allOf(Lorg/hamcrest/Matcher;Lorg/hamcrest/Matcher;)Lorg/hamcrest/Matcher;

2015-11-19 21:23:29 670

转载 ResultSetMetaData

利用ResultSet的getMetaData的方法可以获得ResultSetMeta对象,而ResultSetMetaData存储了 ResultSet的MetaData。所谓的MetaData在英文中的解释为“Data about Data”,直译成中文则为“有关数据的数据”或者“描述数据的数据”,实际上就是描述及解释含义的数据。以Result的MetaData为例,ResultSet是以表格

2015-11-15 21:39:55 694

原创 java 获取系统当前时间

java中获取系统时间的问题String:     只获取当前的年月日yyyy-MM-dd     加上时分秒:yyyy-MM-dd HH:mm:ss     String from = new SimpleDateFormat("yyyy-MM-dd ").format(new Date());    System.out.println(from);Date

2015-10-23 16:27:45 516

转载 java中的final关键字

一、final        根据程序上下文环境,Java关键字final有“这是无法改变的”或者“终态的”含义,它可以修饰非抽象类、非抽象类成员方法和变量。你可能出于两种理解而需要阻止改变:设计或效率。        final类不能被继承,没有子类,final类中的方法默认是final的。        final方法不能被子类的方法覆盖,但可以被继承。        fina

2015-10-20 20:22:09 307

原创 HibernateCallback()

HibernateTemplate提供了非常多的常用方法来完成数据库的基本操作,使得持久层访问摸板化,只要创建HibernateTemplate 实例后,注入一个SessionFactory的引用就可以了.无须手动创建sessionFactory,更加智能的管理Hibernate 的Session,没有大量的try/catch操作.    Hibernate的复杂用法HibernateCa

2015-10-20 19:47:53 266

转载 log4j.properties

log4j.properties配置详解 一、Log4j配置第一步:加入log4j-1.2.8.jar到lib下。第二步:在CLASSPATH下建立log4j.properties。内容如下:Java代码  log4j.rootCategory=INFO, stdout , R          log4j.appender.stdout=org.apa

2015-10-18 20:51:08 246

转载 Struts中ActionContext和ServletActionContext

一、ActionContext在Struts2开发中除了将请求参数自动设置到Action的字段中,往往也需要在Action里直接获取请求(Request)或会话(Session)的一些信息,甚至需要直接对JavaServlet Http的请求(HttpServletRequest)和响应(HttpServletResponse)操作。ActionContext(com.opensymp

2015-10-15 19:33:08 272

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除