自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Mr. Lee的专栏

志在研究数据挖掘,自然语言处理,算法设计

  • 博客(61)
  • 收藏
  • 关注

原创 Harbor配置Nginx反向代理,可以外网访问

1、修改Harbor默认80端口。 需要修改Harbor.yml和docker-compose.yml两个文件内的配置参数。2、添加本地Nginx.conf文件,修改自己需要的配置参数。3、配置Nginx的密钥文件。3、docker启动命令。docker run -idt --name harbor-nginx -p 80:80 -v /etc/nginx/nginx.conf:/etc/nginx/nginx.conf -v /etc/nginx/ssl:...

2021-08-03 15:48:22 3475

转载 Hive 去除 CSV 字段中的双引号

数据是一个 CSV 文件,示例如下:"InvoiceID","PayerAccountId","LinkedAccountId","RecordType","ProductName","RateId","SubscriptionId","PricingPlanId","UsageType","Operation","AvailabilityZone","ReservedInstance","I...

2019-12-20 15:39:17 3682

转载 (转载)使用 Hyperopt 进行参数调优(译)

文章地址:https://www.jianshu.com/p/35eed1567463

2019-04-19 13:33:41 542

原创 python3实现多页excel转csv

# -*- coding: utf-8 -*-import pandas as pdpath = 'd:/file/线上流量包产品用户订购明细表.xls'tdir = "D:/file/liuliangbao/"xl = pd.ExcelFile(path)header = ["地市","订购状态","订购渠道","用户号码","订购号码套餐","订购时间&quo

2019-01-07 10:14:32 1322

原创 TensorFlow多元回归预测房子滞留天数

# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport statsmodels.formula.api as smfimport tensorflow as tfimport matplotlib.pyplot as plthouse_data = pd.read_csv('F:\lcl\data1.cs...

2018-06-25 14:50:01 651

原创 TensorFlow多元回归预测房子信息

# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport statsmodels.formula.api as smfimport tensorflow as tfimport matplotlib.pyplot as plthouse_data = pd.read_csv('F:\lcl\data.csv...

2018-06-25 14:48:29 1939 2

原创 Instance "orcl", status UNKNOWN, has 1 handler(s) for this service...

相关说明: Oracle11g64位软件的安装位置为/u01/app/oracle/product/11.2.0/dbhome_1 ,数据库名为默认的orcl,Linux虚拟机的HOSTNAME为master。一、修改listener.ora文件内容命令:[oracle@gpdb ~]$ vi /u01/app/oracle/product/11.2.0/dbhome_1/ne

2018-03-05 09:21:39 17672 1

原创 HBase环境搭建

HBase单机搭建1)    导航到filecd/home/empty/filetar -zvxf hbase-1.2.6-bin.tar.gz–C /home/empty/softcd hbase-1.2.62)    修改配置文件,保存退出vim conf/hbase-site.xml hbase.rootdir /home/empty/data/h

2018-01-18 09:20:18 221

转载 python操作MySQL数据库

坚持每天学一点,每天积累一点点,作为自己每天的业余收获,这个文章是我在吃饭的期间写的,利用自己零散的时间学了一下python操作MYSQL,所以整理一下。我采用的是MySQLdb操作的MYSQL数据库。先来一个简单的例子吧:import MySQLdb try: conn=MySQLdb.connect(host='localhost',user='root',passwd

2018-01-05 14:28:28 265

转载 Mahout 中 kmeans的参数

DistanceMeasure measure :数据点间的距离计算方法,参数可缺,默认是 SquaredEuclidean 算方法提供参数值:   ChebyshevDistanceMeasure 切比雪夫距离CosineDistanceMeasure 余弦距离EuclideanDistanceMeasure 欧氏距离MahalanobisDistance

2018-01-05 14:19:07 336

转载 安装sqliteODBC报错

1.安装sqliteODBC报错configure: error: ODBC header files and/or libraries not found解决方法:yuminstallunixODBC-devel2.configure: WARNING: SQLite4 header fileandsourcenot foundconfigure:

2017-12-19 09:29:54 744

原创 RHadoop搭建

1)    RHadoop安装下载RHadoop相关的2个程序包:https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloadsrmr-3.3.1rhdfs-1.0.8安装依赖库:安装上面的两个库之前,我们需要先安装这两个库的依赖库。首先是rJava,由于我们已经配置好JDK1.8的环境,运行R CMD jav

2017-12-15 13:11:06 910

转载 PipeMapRed.waitOutputThreads(): subprocess failed with code N

经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N“OS error code 1: Operation not permitted” “OS error code 2: No such file or directory” “OS error code 3: No such process”

2017-12-14 15:26:54 1010

转载 Linux下yum安装R语言

1、安装epel yum源 **1)安装** rpm -ivh http://mirror.utexas.edu/epel/6/x86_64/epel-release-6-8.noarch.rpm **2)查看** rpm -qa|grep epel **3)导入KEY** rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-62、yum

2017-11-06 13:47:09 4432 2

原创 python连接hiveserver2

1.开启metastore和hiveserver2服务$hive --service metastore &$hive --service hiveserver2 &2.beeline调试,远程连接到HiveServer2$cd /home/hdfs/project/hive-2.1.1/bin$./beelinebeeline> !connect jdbc:hive2:/

2017-10-25 13:11:14 2606

原创 python分布式错误解决

利用python进行MapReduce时,可能会遇到报如下错误:java.io.IOException: Cannot run program “e_mapper.py”: error=2, No such file or directory解决办法是用如下命令运行mapper.py和reducer.py:hadoop jar /home/hdfs/project/hadoop-2.6.1/cont

2017-10-24 14:38:19 768 1

转载 Linux下python升级至2.7步骤

先下载源tar包  可利用Linux自带下载工具wget下载,如下所示:1# wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz   下载完成后到下载目录下,解压1tar -zxvf Python-2.7.

2017-08-31 09:18:27 302 2

原创 基于RHadoop的linear-least-squares算法

library(rmr2)## @knitr LLS-dataX = matrix(rnorm(2000), ncol = 10)X.index = to.dfs(cbind(1:nrow(X), X))y = as.matrix(rnorm(200))## @knitr LLS-sumSum = function(., YY) keyval(1, list(Redu

2017-05-18 10:49:30 445

原创 基于RHadoop的Logistic regression算法

library(rmr2)## @knitr logistic.regression-signaturelogistic.regression = function(input, iterations, dims, alpha){## @knitr logistic.regression-map lr.map = function(., M) {

2017-05-18 10:43:53 371

转载 R语言各个包里面的数据集

Package Item Title csv docdatasetsAirPassengersMonthly Airline Passenger Numbers 1949-1960CSVDOCdatasetsBJsalesSales Data with Leading IndicatorCSVDOCdatasets

2017-05-18 09:43:36 25342

原创 基于RHadoop的k-means聚类算法

library(rmr2)## @knitr kmeans-signaturekmeans.mr = function( P, num.clusters, num.iter, combine, in.memory.combine) {## @knitr kmeans-dist.fun dist.fun = func

2017-05-17 16:22:48 460

原创 RHadoop协同过滤算法

#####################################################################################################第一步,建立物品的共现矩阵:对用户分组,找到每个用户所选的物品,单独出现计数,及两两一组计数。##################################################

2017-05-17 16:03:10 464

转载 javascript里Dom问题之document.getElementById('xx').innerHTML

1、中英直译: document:Javascript 中就是整个页面(Javascript内置对象) get:获取 Element: 元素 By:通过、以...方式 Id:标识getElementById是Javascript内置方法合在一起就是:通过页面中的标识来获取元素百度document.getElementById("baidu") 获得 a 这个元素doc

2015-08-03 20:17:09 4090

原创 Java批量向mysql写数据

private static String user = "root"; private static String pass = "123456"; private static String URL = "jdbc:mysql://192.168.1.116:3306/test"; public static void main(String args[]) throws SQLEx

2015-04-30 08:24:58 932

转载 java中的IO整理

【案例1】创建一个新文件1234567891011import java.io.*;class hello{    public static void main(String[] args) {        File f=new File("D:\\hello.txt");        try

2015-04-28 08:42:21 466

原创 读取文件夹下的所有文件

1、python读取文件夹下的所有文本inputpath="C:/Users/Administrator/Desktop/feature/feature"outpath="C:/Users/Administrator/Desktop/RBF"for filename in os.listdir('C:/Users/Administrator/Desktop/feature/featur

2015-04-08 09:07:31 963

转载 Java直接调用Python

使用Runtime.getRuntime()执行脚本文件,这种方式和.net下面调用cmd执行命令的方式类似。如果执行的python脚本有引用第三方包的,建议使用此种方式。Process proc = Runtime.getRuntime().exec("python D:\\demo.py"); proc.waitFor(); Java调用代码:import java

2015-04-07 16:38:27 6219 3

转载 scikit-learn使用joblib持久化模型过程中的问题详解

在机器学习过程中,一般用来训练模型的过程比较长,所以我们一般会将训练的模型进行保存(持久化),然后进行评估,预测等等,这样便可以节省大量的时间。在模型持久化过程中,我们使用scikit-learn提供的joblib.dump()方法,但是在使用过程中会出现很多问题。如我们使用如下语句:[python] view plaincopy

2015-04-02 08:33:52 5851

原创 ICTClAS2015(NLPIR) 的python接口实现

张华平老师更新了ictclass的最新版(已更名为nlpir),这里更新一下新版nlpir的python接口实现。对于ictclass的介绍,详细见 http://ictclas.nlpir.org/ ,这里就不多介绍,直接进入主题。     1. 下载并配置SWIG    使用python调用c++库,需要利用SWIG,官方地址:www. swig .org,下载解压后,为了能够

2015-02-04 15:14:39 1281

原创 用数组模拟链表

1.什么是数组模拟链表:        数组模拟链表是一个什么呢?就是在某索引处存储下一个索引。下面举例说明:                不知道大家明白了没有。如果我上面的数组定义为a[4],那么我访问a[0]时,所获取的就是下一个位置所对应的索引。也就是我要向访问a[0]的下一个节点,那么我只需要访问a[a[0]],这样,就获取了下一个节点处的值。

2015-01-24 18:45:55 3666

转载 SQL中JOIN和UNION区别、用法及示例介绍

join 是两张表做交连后里面条件相同的部分记录产生一个记录集,union是产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集1.JOIN和UNION区别 join 是两张表做交连后里面条件相同的部分记录产生一个记录集, union是产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集 。 JOIN用于按照ON条件联接两个表,主要有四种: INNER

2015-01-23 15:50:59 595

原创 awk获取Shell变量

编写Shell脚本的时候,经常会遇到在脚本中使用awk去调用Shell环境中的变量的时候,下面简单的说一下调用的方法。一 "'$var'"这种写法大家无需改变用 '  括起awk程序的习惯,是老外常用的写法.如:var="test"awk 'BEGIN{print "'$var'"}'  #三个单引号括起来如果var中含空格,为了shell不把空格作为分格符,便

2015-01-20 15:42:42 953

转载 SQL模糊查询

在进行数据库查询时,有完整查询和模糊查询之分。一般模糊查询语句如下:SELECT 字段 FROM 表 WHERE 某字段 Like 条件其中关于条件,SQL提供了四种匹配模式:1,% :表示任意0个或多个字符。可匹配任意类型和长度的字符,有些情况下若是中文,请使用两个百分号(%%)表示。比如 SELECT * FROM [

2015-01-19 15:00:38 780

转载 linux之awk命令详解

简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr

2015-01-16 15:16:31 523

转载 Shell脚本之crontab定时任务

crontab定时任务crondtab是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,crondtab进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。        每个用户都有自己的调度crontab,可以使用crontab -u user -e或切换到user使用vim /etc/cro

2015-01-16 12:07:19 11077

转载 shell中各种括号的作用()、(())、[]、[[]]、{}

转载地址:http://blog.csdn.net/taiyang1987912/article/details/39551385一、小括号,圆括号()1、单小括号 ()   ①命令组。括号中的命令将会新开一个子shell顺序执行,所以括号中的变量不能够被脚本余下的部分使用。括号中多个命令之间用分号隔开,最后一个命令可以没有分号,各命令和括号之间不必有空格。  

2015-01-16 11:52:31 706

转载 shell if判断语句 报错:syntax error near unexpected token `elif'

转载:http://blog.sina.com.cn/s/blog_695ef52801018f09.html在xshell下,用notepad++写了个简单的shell脚本,内容如下:#!/bin/bashif [ "X$force" = "X1" ]; then echo 1elif [ "X$force" = "X2" ]; then echo 2elif

2015-01-14 17:41:19 16595 2

转载 朴素贝叶斯分类算法

转载地址:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1、准备知识 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下

2015-01-08 17:13:57 3177 1

原创 python sklearn机器学习库 安装

1、准备工作安装sklearn之前,我们需要先安装numpy,scipy函数库。Numpy下载地址:http://sourceforge.net/projects/numpy/files/NumPyScipy下载地址:http://sourceforge.net/projects/scipy/files/Scipy下载对应本机的python版本。2、安装sklearn机器学习库

2015-01-07 11:36:16 93269 9

原创 快速排序——Java实现

快速排序1、快速排序的描述     与归并排序一样,快速排序也使用分治思想。下面是对一个典型的子数组A[p..r]进行快速排序的三步分治过程:分解:数组A[p..r]被划分为两个(可能为空)子数组A[p..q-1]和A[q+1..r],使得A[p..q-1]中的每一个元素都小于等于A[q],而A[q]也小于等于A[q+1..r]中的每个元素/其中,计算下标q也是划分过程的一部分。解

2015-01-03 14:45:58 772

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除