自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 资源 (6)
  • 收藏
  • 关注

翻译 机器学习和数据科学从业者必读的10本免费英文书

本文编译自https://www.kdnuggets.com/2018/05/10-more-free-must-read-books-for-machine-learning-and-data-science.html。夏天本该是放松的季节,但Matthew Mayo给我们推荐了10本免费的机器学习和数据科学书籍,以打发无聊的长夏。我们先来看下这10本必读免费书的封面:1、Python数据科学手...

2018-06-18 20:46:20 3734

原创 用Python的statsmodels包做前向逐步回归

Python的statsmodels包含了一些R风格的统计模型和工具。在内部实现上,statsmodels使用patsy包将数据转化为矩阵并建立线性模型,具体信息参见pasty主页http://patsy.readthedocs.io/en/latest/overview.html。但是,Python的statsmodels工具中没有向前逐步回归算法。逐步回归的基本思想是将变量逐个引入模型,每引入...

2018-04-20 13:58:11 18301 5

原创 用Python和selenium下载pdf文件

今天要从国外的网站上下载一个学术会议的几百篇pdf文献,具体网址为https://www.onepetro.org/conferences/SPE/17ADIP/all?start=0&rows=700。这个网站需要登录后手动一篇一篇的下载,非常耗时。于是用Python+selenium写了个小程序,自动下载保存这些pdf文件。开始在Firefox浏览器中试验,试了好多次都没有成功。Fir...

2018-04-17 17:20:27 10606 3

原创 利用Tensorflow的Slim API实现卷积神经网络

这段时间在小象学院上戎雪健老师主讲《神经网络》这门课。戎老师讲得很好。但我老没时间跑老师给的代码。老师推荐尽量用TF-SLIM实现复杂结构。下面就是以著名的mnist数据集来实例一个神经网络的实现。import osimport numpy as npfrom scipy import ndimageimport matplotlib.pyplot as pltimport t

2017-10-24 17:03:45 2764

原创 Tensorflow-gpu的错误

今天在Nvidia显卡上安装tensorflow-gpu,安装教程http://blog.csdn.net/weixin_36368407/article/details/54177380。以前在cpu上跑tensorflow1.3没有问题,就是速度比较慢。在Anaconda3-4.2.0-Windows-x86_64.exe环境下安装了cuda_8.0.61_win10.exe,cudnn-

2017-10-19 16:18:32 1111

转载 机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。      本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距

2017-07-28 14:53:06 338

转载 油气行业大数据进展大汇总,不懂你就要失业了

随着大数据对于石油行业的深入,原来的油藏,钻井等技术都将因为该技术而产生革命性的变化,若干年后,也许你的岗位将不复存在。

2017-07-25 12:48:34 5278

翻译 用R语言的MICE包对缺失数据进行多重插补(一)-- 缺失数据分析

在进行数据分析时,缺失数据是一个令人头痛的问题。数据缺失的原因五花八门,修补这些缺失数据的方法也是因情况而异。插补法(Imputation)是对一种对缺失数据进行调整的方法。该方法用多个可能的值来填充一个缺失的数据项,从而反映了缺失数据的不确定性。本例以R语言的MICE包为例,说明如何使用多重插补方法对缺失值进行估计。原文地址参见https://datascienceplus.com/imputin

2017-07-21 14:20:28 38477 6

原创 在Tensorflow环境下利用梯度下降法进行线性回归

最近在Coursera学习《Machine Learning 》这门机器学习的入门课。在Matlab中完成作业感觉不是很爽。因此突发奇想,想把第二课的作业在Tensorflow上跑一遍,以加深印象。有关假设模型(Hypothesis)、代价函数(Cost function或Loss function)和梯度下降的概念,请参考前一篇的学习笔记(http://blog.csdn.net/carlwu/a

2017-07-11 23:22:45 606

原创 利用梯度下降法实现简单的线性回归

利用梯度下降算法实现简单的线性回归最近做了好多个数据挖掘的小项目,使用并比较了N多算法,了解了很多机器学习的工具,如R语言、Spark机器学习库、Python、Tensorflow和RapidMiner等等。但是我感觉到自己没能深入下去,充其量也只是把别人的工具拿来玩玩而已。对算法本身的优劣及适用范围不甚了了,更谈不上改进优化算法了。本着甘当小学生的精神,我最近在网上参加了机器学习牛人Andrew

2017-07-11 13:07:23 8578 4

原创 MySQL无法启动

今天遇到一个问题,装在CentOS上的MySQL数据库无法启动。[root@li853-95 ~]# mysqlERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (111)[root@li853-95 mysql]# mysql /stop

2017-01-12 12:51:59 3733

原创 在R语言中利用mice包进行缺失值的线性回归填补

在数据分析中,我们会经常遇到缺失值问题。一般的缺失值的处理方法有删除法和填补法。通过删除法,我们可以删除缺失数据的样本或者变量。而缺失值填补法又可分为单变量填补法和多变量填补法,其中单变量填补法又可分为随机填补法、中位数/中值填补法、回归填补法等。本文简单介绍一下如何在R语言中利用mice包对缺失值进行回归填补。

2017-01-04 16:26:36 27884 4

原创 RapidMiner缺失数据处理——去掉数据大量缺失的变量

最近做数据挖掘,发现RapidMiner是一款数据清洗、处理和转换的好工具,尤其在数据量不大的情况下。和R语言相比,RapidMiner在数据处理方面要简单直观得多。虽然RapidMiner的功能可能不如R强大。另外,我们也可以在RapidMiner中可以直接利用Java/Groovy来编写程序,对数据进行处理和转换。现在以 RapidMiner6.0为例,来说明一下如何写一段小程序,去掉那些数据缺失量大于80%的变量。因为数据缺失量超过80%,我们很难补全它们。

2016-12-21 22:51:31 7749

原创 ElasticSearch多语言搜索入门(二)— 检测文本所使用的主要语言

要使用ElasticSearch的多语言索引及搜索功能,首先我们得检测原始文档所使用过的语言。ElasticSearch官网推荐使用MikeMcCandless 在Github上创建的chromium-compact-language-detector (URL地址:https://github.com/mikemccand/chromium-compact-language-detector)。但是我不熟悉Python语言,也没有搞明白在Java程序中如何调用该工具。搜索一番之后,发现Github上有个由

2016-12-16 16:20:10 5269

翻译 Elasticsearch多语言搜索入门(一)

Elasticsearch自带一套语言分析器(Analyzer),为世界上大多数语言提供良好的支持。

2016-12-16 10:43:04 6429

原创 在Windows下使用Curl工具完美操作ElasticSearch

Windows环境下如何使用Curl工具,输入多行命令操作ElasticSearch

2016-12-09 10:59:34 11560

原创 Java使用hotmail的SMTP服务器转发邮件出错

最近使用hotmail的SMTP在服务器上转发邮件,后台获得如下错误:javax.mail.AuthenticationFailedException: 535 5.0.0 Authentication Failedat com.sun.mail.smtp.SMTPTransport$Authenticator.authenticate(SMTPTransport.java

2016-12-03 22:55:40 4959

原创 DFS分布式文件搜索引擎

[size=medium]最近由于找不到一款适合的海量文件的公司内部搜索引擎,只好自己动手写了一个,并注册了个域名将其放在美国的一个VPS上。详情请见[url]http://www.enpknowledge.com/index_cn.html[/url]。如果您有兴趣,请下载使用,欢迎您多提宝贵意见。同时也非常欢迎您加盟合作,打造一个属于我们自己的事业。[/size][size=mediu...

2016-11-11 23:45:38 226

原创 自己写得一个分布式海量文件搜索引擎

最近找不到一款适合的海量文件的内部搜索引擎,只好自己花时间动手写了一个简单的版本,并注册了个域名将其放在美国的一个VPS上。详情请见http://www.enpknowledge.com/index_cn.html。如果有兴趣,请试用下,提些意见,看看能不能有商业价值。另外,欢迎各位加盟合作,共同创业。这个搜索引擎的主要特点是:· 基于分布式的高性能文件搜索引 · 支持的文件总大小可达

2016-11-10 17:32:26 2485

原创 行业垂直搜索引擎网页抓取项目

公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢!这是详细需求:(1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。(2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。...

2014-05-06 09:48:34 220

原创 我的PMP考试

我于2009年7月份参加神舟巨龙的PMP培训,巨龙培训的服务态度和敬业精神都比较好,特别是吴永达老师的授课值得一听。9月26日在北语参加了PMP考试,11月11日才知道自己通过了,但2010年3月1日才拿到由神舟巨龙代取过来的PMP证书,看来PMI和外专局的效率令人不敢恭维!PMP证书包在一个大的Package里,貌似很大,其实有用的只不过是一张纸而已。接下来要做的就是攒PDU(Profe

2010-03-02 13:01:00 960

转载 使用原汁原味的Java 语言

本文摘自: http://www.ibm.com/developerworks/cn/java/j-noaccent.html  学习一种新的编程语言比学习新的口头语言要容易得多。然而,在这两种学习过程中,都要付出额外的努力去学习不带口音地说新语言。如果您熟悉 C 或 C++,那么学习 Java 语言并不困难,这就像是会说瑞典语的人去学丹麦语一样。语言虽有不同,但又彼此互通。但若不够谨

2010-02-26 12:53:00 876 1

翻译 数据和服务 – 通向企业服务总线(ESB)之路

在前面的章节中,我们已经学习了XML的基础知识以及基于XML的Web服务。现在,我们就可以从企业级的视角,看看这些是如何组装起来。对企业用户来说,信息及信息的基本构成元素—数据是他们所感兴趣的。数据可以驻留在任何数据存储中心,并以各种形式存在。如果不考虑数据存储和格式,您需要将数据存到表中,并应用企业业务逻辑对它们进行处理,然后它们才能变为信息提供给用户。那么,在SOA世界,我们怎样才能从传统的J

2009-01-30 11:13:00 2156

翻译 使用XFire实现Web服务

XFire是新一代Java的Soap框架,XFire API易于使用,并且支持各种标准,因此,XFire使得SOA的开发更加简单明了。XFire在性能方面也非常出色,因为它使用了对内存要求比较低的StAX(Streaming API for XML)模型。现在,XFire更名为CXF,最新版本为2.0。 使用XFire实现Web服务前面您已经了解如何使用Axis和Spring,创建标准

2009-01-24 20:58:00 1579 2

原创 使用Spring实现Web服务

Spring对远程调用提供了良好支持,它支持的主要远程调用协议有:RMI、基于HTTP的远程调用(使用org.springframework.remoting.httpinvoker.HttpInvokerServiceExporter实现)、Hessian、Burlap、SOAP及Spring-WS(Web Services)等。因为本章主要讲述Web服务的实现方法,那么我们就来看看Spring

2009-01-12 20:55:00 3274

翻译 使用Apache Axis实现Web服务

Apache Axis是提交给W3C的一种SOAP(Simple Object Access Protocol)实现,Axis在实现Java Web服务方面稳定可靠。许多公司在它们的产品中使用了Axis来支持Web服务,而且Axis还有一个非常活跃的用户区。Axis有两种版本,即Axis1.x和Axis2。Axis2最近刚刚推出,与其前身相比,Axis2对Axis1.x进行重新设计,并支持SOAP

2009-01-05 12:34:00 2113 1

原创 在Java EE Server中实现Web服务

现在,我们开始在应用服务器上部署一个与前例类似的Web服务。为了能够运行本节的例子,我们需要从http://java.sun.com/javaee/downloads/index.jsp 处下载一个Windows平台下的Java EE 5 Update 4应用服务器((java_ee_sdk-5_04-windows-nojdk.exe)。安装并启动服务器如果您的机器上安装有最新版的JDK

2008-12-26 01:28:00 1571

原创 在Java6中实现Web服务

第三章 实现Web服务 在第二章中,我们演示了如何使用基本的POX-over-HTTP方法来实现Web服务,同时,我们也介绍了SOAP。SOAP现在已经成为业界不可或缺的技术和标准,因为当今大多数跨越合作伙伴的B2B的消息传输都是基于SOAP协议的。但SOAP(简单对象访问协议)是否象它的名字喻示的那样“简单”,人们仍有争议。但有一点是毋庸置疑的,SOAP是一种开放的标准,业界提供了支持S

2008-12-22 21:12:00 1531

原创 Web服务的几种实现方法

我们为什么应该使用基于Document风格的SOAP服务?RPC风格的承前启后性在上节中,我们介绍了RPC和Document风格Web服务的差别。首先,有人可能要问,对RPC和Document wrapped风格的服务来说,我们毕竟只关心要交换消息及它们的WSDL,而不去管它是RPC还是Document风格,所以从这方面说,这两种方法差别不大。实际上,它们之间的差别不在于实际操作中,而更在

2008-12-14 22:18:00 4142

原创 JavaFX 1.0入门

 Sun终于在上周四(04-12-2008)发布了我们期盼已久的JavaFX 1.0版本。Sun想借助JavaFX这个强大的开发平台,把Java在服务器端的辉煌扩大到包括浏览器和桌面在内的客户端领域。这样,Sun就可以在竞争激烈的RIA(Rich Internet Applictions)领域中和Adobe的Flex及Microsoft的Silverlight一较高下。笔者以前针对JavaFx

2008-12-10 03:28:00 1266

翻译 Web服务和SOA(五)

基于SOAP协议的Web服务风格之比较 前面我们已经看到,SOAP可以在后台替我们完成那些比较困难的工作。但我们并没有看到服务器端和客户端交互的XML文档,实际上,我们可以利用一些TCP/IP监测工具,比如Apache的TCPMon工具来查看SOAP中传输的XML文档,其结果如代码清单16所示:代码清单16 – SOAP中的XML请求文档 xmlns:soapenv="http

2008-12-07 21:52:00 1730

翻译 Web服务和SOA(四)

 使用SOAP协议来实现SOA服务Soap是简单对象访问协议(Simple Object Access Protocal)的缩写,它是由W3C定义的Web服务的实现标准。基本说来,它定义了要交换的消息的结构,SOAP消息由信封、消息头和消息体构成。下面您会看到,SOAP协议针对问题的复杂程度不同,其定义的层次也不尽相同。SOAP提供了很多强大的功能,其中包括:(1)     能自动生成

2008-11-30 20:18:00 1018

原创 全球经济衰退,Java程序员如何面对?

今天在pardontheinformation(http://www.pardontheinformation.com/2008/11/recession-proof-java- programmers.html)上看到一篇文章,我觉得写得不错,编译出来与大家共享。 本位作者2006年以前钻研技术,有4个Sun证书,曾经在java.net上发表过一些文章,沉醉于框架、API及编程技术(XP, Ag

2008-11-26 23:12:00 952

翻译 Web服务和SOA(三)

使用REST协议来实现SOA服务REST是Representation State Transfer(表示层有状态的传输协议)的简称,它是一种Web架构类型,由Roy Fielding于2000年在他的博士论文中提出来的。REST的基本思想是如何充分利用HTTP协议的功能,它特别关注以下内容:(1)     REST关注资源,即,每种服务都应该设计成对资源进行某种操作;(2)    

2008-11-24 02:21:00 1009

翻译 SOA服务的基本实现方法—使用HTTP协议传输XML请求(POX-over-HTTP)

翻译自"Service Oriented Architecture with Java"(使用Java开发面向服务的架构)一书之第二章[接上篇Web服务和SOA(一)]现在,我们来看看如何使用Java实现findById这个SOA服务。我们将使用JAXB库来实现XML的自动绑定,JAXB库已经包含在最新的JDK6中。因此,如果您使用的是JDK6,您不需要下载额外的jar包,否则,您需要下载JA

2008-11-18 23:44:00 3083

翻译 Web服务和SOA(一)

翻译自>(使用Java开发面向服务的架构)一书之第二章本章我们将详细讲述SOA的实现,并开始我们的Web服务实践之旅。在本章中,我们将会看到,为什么在企业交互的环境中,XML是消息交换的正确选择。接下来我们开始定义一个示例的Web服务,采用自顶向下的方法来开发我们第一个Web服务。然后我们再采用颇为通用的两种传输协议改进我们的程序。通过对Web服务两种风格(RPC和Document)的比较

2008-11-15 23:06:00 1437

原创 在英国租房

昨天刚回英国,住房还没有着落,只好先订了一个叫Ray Corner的B&B(Bed and Breakfast)的旅馆暂住。这家旅馆紧邻泰晤士河,离我办公室也很近,我爱人相中了这家旅馆,觉得这地方很适合我住。Ray Corner由一对老夫妇管理经营,他们对人很客气,也很热情,从他们脸上看不出英国人惯有的冷漠表情。Maidenhead的消费向来很贵,一般的旅馆都很贵,即使是稍次旅游一等的B&B Ho

2008-11-02 00:28:00 1885

原创 重返英国

今天又重新返回小别三个月的英国,离开了喧嚣浮躁的北京,回到了安详静谧的英伦,心中有一种莫名的空荡荡的感觉。在英国,你可以安心地欣赏苏格兰优美异常的高山大川,可以在那悠扬的苏格兰风笛声中流连,也可以躲到大英图书馆的角落里独自翻阅那线状的中国孤本。Skype岛上的古堡在这渐寒的冬天应该不会因为披上银装而稍显臃肿吧?牛津古老学院中的壁炉可曾燃起了温暖的火炭?剑桥碧波中的浮藻依旧在水底招摇罢?在英国,人和

2008-11-01 22:17:00 1087

原创 利用WSO2发布数据服务

WSO2数据服务是WSO2公司2008年10月份新发布的一款产品。WSO2数据服务的主要用途是快速发布数据,而且几乎不用编程;它不但能发布关系数据库中的数据,而且还能发布非关系数据库比如Excel、Txt等扁平文件中的数据;它不但能把数据发布为具有WS风格的Web Services,而且还可以发布为具有REST风格的Web资源。WSO2公司是一家开源的SOA公司,WSO2数据服务也是一个开源产

2008-10-15 13:02:00 2440 1

翻译 Ajax体验1:Google浏览器之星Chrome冉冉升起

作者:Jack Vaughan, 02 Oct 2008译自:http://searchsoa.techtarget.com/news/article/0,289142,sid26_gci1333128,00.html多年来,Web浏览器无处不在,但其编程接口的发展却甚为缓慢。曾几何时,微软的IE一度独领风骚,成为Web浏览器的标准。但随着 IE、Safar

2008-10-08 13:05:00 850

《Python机器学习》一书源代码下载

附件是《Python机器学习》 (美)塞巴斯蒂安·拉施卡(Sebastian Raschka) 著;高明,徐莹,陶虎成 译这本书的源代码,Ipython notebook格式的。大家也可从https://www.packtpub.com/books/content/support/30219网站直接下载。

2017-12-31

Protege-5.2.0-win

Protégé软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件,或者说是本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具,现在的最新版本为5.2.0版本 (截止2017年9月29日 )。

2017-11-02

pdfbox1.0.jar

使用PDFBox操作PDF 1.6版本时会出现错误: (1)pdfbox0.7.3 java.lang.NullPointerException at org.pdfbox.pdmodel.PDPageNode.getCount(PDPageNode.java:116) at org.pdfbox.pdmodel.PDDocument.getNumberOfPages(PDDocument.java:772) (2)pdfbox0.8 org.apache.pdfbox.exceptions.WrappedIOException at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:237) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:841) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:808) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:733) pdfbox1.0能修复以上bugs

2010-01-26

ZK(AJAX开发工具)开发手册

ZK是用来开发RIA Web应用界面的利器,它是一个事件驱动的、以网页元素为基础的Web框架。ZK包含AJAX事件驱动引擎、一套丰富的界面组件及ZK用户界面开发语言(ZUML,一种XML语言)。

2008-12-03

Oracle Database 10g OCP Certification All-in-One Exam Guide

本书是为那些想考Oracle 10g OCP认证的朋友准备的,我前几天在图书馆借到一本,顺便把书后附带的电子书上传给需要的朋友。

2008-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除