小木偶-嗯嗯-CSDN博客

原创 Harbor配置Nginx反向代理，可以外网访问

1、修改Harbor默认80端口。需要修改Harbor.yml和docker-compose.yml两个文件内的配置参数。2、添加本地Nginx.conf文件，修改自己需要的配置参数。3、配置Nginx的密钥文件。3、docker启动命令。docker run -idt --name harbor-nginx -p 80:80 -v /etc/nginx/nginx.conf:/etc/nginx/nginx.conf -v /etc/nginx/ssl:...

2021-08-03 15:48:22 3475

转载 Hive 去除 CSV 字段中的双引号

数据是一个 CSV 文件，示例如下："InvoiceID","PayerAccountId","LinkedAccountId","RecordType","ProductName","RateId","SubscriptionId","PricingPlanId","UsageType","Operation","AvailabilityZone","ReservedInstance","I...

2019-12-20 15:39:17 3682

转载 (转载)使用 Hyperopt 进行参数调优（译）

文章地址：https://www.jianshu.com/p/35eed1567463

2019-04-19 13:33:41 542

原创 python3实现多页excel转csv

# -*- coding: utf-8 -*-import pandas as pdpath = 'd:/file/线上流量包产品用户订购明细表.xls'tdir = "D:/file/liuliangbao/"xl = pd.ExcelFile(path)header = ["地市","订购状态","订购渠道","用户号码","订购号码套餐","订购时间&quo

2019-01-07 10:14:32 1322

原创 TensorFlow多元回归预测房子滞留天数

# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport statsmodels.formula.api as smfimport tensorflow as tfimport matplotlib.pyplot as plthouse_data = pd.read_csv('F:\lcl\data1.cs...

2018-06-25 14:50:01 651

原创 TensorFlow多元回归预测房子信息

# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport statsmodels.formula.api as smfimport tensorflow as tfimport matplotlib.pyplot as plthouse_data = pd.read_csv('F:\lcl\data.csv...

2018-06-25 14:48:29 1939 2

原创 Instance "orcl", status UNKNOWN, has 1 handler(s) for this service...

相关说明: Oracle11g64位软件的安装位置为/u01/app/oracle/product/11.2.0/dbhome_1 ,数据库名为默认的orcl,Linux虚拟机的HOSTNAME为master。一、修改listener.ora文件内容命令:[oracle@gpdb ~]$ vi /u01/app/oracle/product/11.2.0/dbhome_1/ne

2018-03-05 09:21:39 17672 1

原创 HBase环境搭建

HBase单机搭建1) 导航到filecd/home/empty/filetar -zvxf hbase-1.2.6-bin.tar.gz–C /home/empty/softcd hbase-1.2.62) 修改配置文件，保存退出vim conf/hbase-site.xml hbase.rootdir /home/empty/data/h

2018-01-18 09:20:18 221

转载 python操作MySQL数据库

坚持每天学一点，每天积累一点点，作为自己每天的业余收获，这个文章是我在吃饭的期间写的，利用自己零散的时间学了一下python操作MYSQL，所以整理一下。我采用的是MySQLdb操作的MYSQL数据库。先来一个简单的例子吧：import MySQLdb try: conn=MySQLdb.connect(host='localhost',user='root',passwd

2018-01-05 14:28:28 265

转载 Mahout 中 kmeans的参数

DistanceMeasure measure ：数据点间的距离计算方法，参数可缺，默认是 SquaredEuclidean 算方法提供参数值: ChebyshevDistanceMeasure 切比雪夫距离CosineDistanceMeasure 余弦距离EuclideanDistanceMeasure 欧氏距离MahalanobisDistance

2018-01-05 14:19:07 336

转载安装sqliteODBC报错

1.安装sqliteODBC报错configure: error: ODBC header files and/or libraries not found解决方法：yuminstallunixODBC-devel2.configure: WARNING: SQLite4 header fileandsourcenot foundconfigure:

2017-12-19 09:29:54 744

原创 RHadoop搭建

1) RHadoop安装下载RHadoop相关的2个程序包：https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloadsrmr-3.3.1rhdfs-1.0.8安装依赖库：安装上面的两个库之前，我们需要先安装这两个库的依赖库。首先是rJava，由于我们已经配置好JDK1.8的环境，运行R CMD jav

2017-12-15 13:11:06 910

转载 PipeMapRed.waitOutputThreads(): subprocess failed with code N

经常遇到的exception是：PipeMapRed.waitOutputThreads(): subprocess failed with code N“OS error code 1: Operation not permitted” “OS error code 2: No such file or directory” “OS error code 3: No such process”

2017-12-14 15:26:54 1010

转载 Linux下yum安装R语言

1、安装epel yum源 **1)安装** rpm -ivh http://mirror.utexas.edu/epel/6/x86_64/epel-release-6-8.noarch.rpm **2)查看** rpm -qa|grep epel **3)导入KEY** rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-62、yum

2017-11-06 13:47:09 4432 2

原创 python连接hiveserver2

1.开启metastore和hiveserver2服务$hive --service metastore &$hive --service hiveserver2 &2.beeline调试，远程连接到HiveServer2$cd /home/hdfs/project/hive-2.1.1/bin$./beelinebeeline> !connect jdbc:hive2:/

2017-10-25 13:11:14 2606

原创 python分布式错误解决

利用python进行MapReduce时，可能会遇到报如下错误：java.io.IOException: Cannot run program “e_mapper.py”: error=2, No such file or directory解决办法是用如下命令运行mapper.py和reducer.py:hadoop jar /home/hdfs/project/hadoop-2.6.1/cont

2017-10-24 14:38:19 768 1

转载 Linux下python升级至2.7步骤

先下载源tar包　　可利用Linux自带下载工具wget下载，如下所示：1# wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz　　　下载完成后到下载目录下，解压1tar -zxvf Python-2.7.

2017-08-31 09:18:27 302 2

原创基于RHadoop的linear-least-squares算法

library(rmr2)## @knitr LLS-dataX = matrix(rnorm(2000), ncol = 10)X.index = to.dfs(cbind(1:nrow(X), X))y = as.matrix(rnorm(200))## @knitr LLS-sumSum = function(., YY) keyval(1, list(Redu

2017-05-18 10:49:30 445

原创基于RHadoop的Logistic regression算法

library(rmr2)## @knitr logistic.regression-signaturelogistic.regression = function(input, iterations, dims, alpha){## @knitr logistic.regression-map lr.map = function(., M) {

2017-05-18 10:43:53 371

转载 R语言各个包里面的数据集

Package Item Title csv docdatasetsAirPassengersMonthly Airline Passenger Numbers 1949-1960CSVDOCdatasetsBJsalesSales Data with Leading IndicatorCSVDOCdatasets

2017-05-18 09:43:36 25342

原创基于RHadoop的k-means聚类算法

library(rmr2)## @knitr kmeans-signaturekmeans.mr = function( P, num.clusters, num.iter, combine, in.memory.combine) {## @knitr kmeans-dist.fun dist.fun = func

2017-05-17 16:22:48 460

原创 RHadoop协同过滤算法

#####################################################################################################第一步，建立物品的共现矩阵：对用户分组，找到每个用户所选的物品，单独出现计数，及两两一组计数。##################################################

2017-05-17 16:03:10 464

转载 javascript里Dom问题之document.getElementById('xx').innerHTML

1、中英直译： document：Javascript 中就是整个页面（Javascript内置对象） get：获取 Element: 元素 By：通过、以...方式 Id：标识getElementById是Javascript内置方法合在一起就是：通过页面中的标识来获取元素百度document.getElementById("baidu")　获得 a 这个元素doc

2015-08-03 20:17:09 4090

原创 Java批量向mysql写数据

private static String user = "root"; private static String pass = "123456"; private static String URL = "jdbc:mysql://192.168.1.116:3306/test"; public static void main(String args[]) throws SQLEx

2015-04-30 08:24:58 932

转载 java中的IO整理

【案例1】创建一个新文件1234567891011import java.io.*;class hello{ public static void main(String[] args) { File f=new File("D:\\hello.txt"); try

2015-04-28 08:42:21 466

原创读取文件夹下的所有文件

1、python读取文件夹下的所有文本inputpath="C:/Users/Administrator/Desktop/feature/feature"outpath="C:/Users/Administrator/Desktop/RBF"for filename in os.listdir('C:/Users/Administrator/Desktop/feature/featur

2015-04-08 09:07:31 963

转载 Java直接调用Python

使用Runtime.getRuntime()执行脚本文件，这种方式和.net下面调用cmd执行命令的方式类似。如果执行的python脚本有引用第三方包的，建议使用此种方式。Process proc = Runtime.getRuntime().exec("python D:\\demo.py"); proc.waitFor(); Java调用代码：import java

2015-04-07 16:38:27 6219 3

转载 scikit-learn使用joblib持久化模型过程中的问题详解

在机器学习过程中，一般用来训练模型的过程比较长，所以我们一般会将训练的模型进行保存（持久化），然后进行评估，预测等等，这样便可以节省大量的时间。在模型持久化过程中，我们使用scikit-learn提供的joblib.dump()方法，但是在使用过程中会出现很多问题。如我们使用如下语句：[python] view plaincopy

2015-04-02 08:33:52 5851

原创 ICTClAS2015(NLPIR) 的python接口实现

张华平老师更新了ictclass的最新版（已更名为nlpir），这里更新一下新版nlpir的python接口实现。对于ictclass的介绍，详细见 http://ictclas.nlpir.org/ ，这里就不多介绍，直接进入主题。 1. 下载并配置SWIG 使用python调用c++库，需要利用SWIG，官方地址：www. swig .org，下载解压后，为了能够

2015-02-04 15:14:39 1281

原创用数组模拟链表

1.什么是数组模拟链表：数组模拟链表是一个什么呢？就是在某索引处存储下一个索引。下面举例说明：不知道大家明白了没有。如果我上面的数组定义为a[4],那么我访问a[0]时，所获取的就是下一个位置所对应的索引。也就是我要向访问a[0]的下一个节点，那么我只需要访问a[a[0]]，这样，就获取了下一个节点处的值。

2015-01-24 18:45:55 3666

转载 SQL中JOIN和UNION区别、用法及示例介绍

join 是两张表做交连后里面条件相同的部分记录产生一个记录集，union是产生的两个记录集(字段要一样的)并在一起，成为一个新的记录集1.JOIN和UNION区别 join 是两张表做交连后里面条件相同的部分记录产生一个记录集， union是产生的两个记录集(字段要一样的)并在一起，成为一个新的记录集。 JOIN用于按照ON条件联接两个表，主要有四种： INNER

2015-01-23 15:50:59 595

原创 awk获取Shell变量

编写Shell脚本的时候，经常会遇到在脚本中使用awk去调用Shell环境中的变量的时候，下面简单的说一下调用的方法。一 "'$var'"这种写法大家无需改变用 ' 括起awk程序的习惯,是老外常用的写法.如:var="test"awk 'BEGIN{print "'$var'"}' #三个单引号括起来如果var中含空格,为了shell不把空格作为分格符,便

2015-01-20 15:42:42 953

转载 SQL模糊查询

在进行数据库查询时，有完整查询和模糊查询之分。一般模糊查询语句如下：SELECT 字段 FROM 表 WHERE 某字段 Like 条件其中关于条件，SQL提供了四种匹配模式：1，% ：表示任意0个或多个字符。可匹配任意类型和长度的字符，有些情况下若是中文，请使用两个百分号（%%）表示。比如 SELECT * FROM [

2015-01-19 15:00:38 780

转载 linux之awk命令详解

简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr

2015-01-16 15:16:31 523

转载 Shell脚本之crontab定时任务

crontab定时任务crondtab是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程，与windows下的计划任务类似，crondtab进程每分钟会定期检查是否有要执行的任务，如果有要执行的任务，则自动执行该任务。每个用户都有自己的调度crontab，可以使用crontab -u user -e或切换到user使用vim /etc/cro

2015-01-16 12:07:19 11077

转载 shell中各种括号的作用()、(())、[]、[[]]、{}

转载地址：http://blog.csdn.net/taiyang1987912/article/details/39551385一、小括号，圆括号（）1、单小括号 () ①命令组。括号中的命令将会新开一个子shell顺序执行，所以括号中的变量不能够被脚本余下的部分使用。括号中多个命令之间用分号隔开，最后一个命令可以没有分号，各命令和括号之间不必有空格。

2015-01-16 11:52:31 706

转载 shell if判断语句报错：syntax error near unexpected token `elif'

转载：http://blog.sina.com.cn/s/blog_695ef52801018f09.html在xshell下，用notepad++写了个简单的shell脚本，内容如下：#!/bin/bashif [ "X$force" = "X1" ]; then echo 1elif [ "X$force" = "X2" ]; then echo 2elif

2015-01-14 17:41:19 16595 2

转载朴素贝叶斯分类算法

转载地址：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1、准备知识贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。这个定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下

2015-01-08 17:13:57 3177 1

原创 python sklearn机器学习库安装

1、准备工作安装sklearn之前，我们需要先安装numpy，scipy函数库。Numpy下载地址：http://sourceforge.net/projects/numpy/files/NumPyScipy下载地址：http://sourceforge.net/projects/scipy/files/Scipy下载对应本机的python版本。2、安装sklearn机器学习库

2015-01-07 11:36:16 93269 9

原创快速排序——Java实现

快速排序1、快速排序的描述与归并排序一样，快速排序也使用分治思想。下面是对一个典型的子数组A[p..r]进行快速排序的三步分治过程：分解：数组A[p..r]被划分为两个（可能为空）子数组A[p..q-1]和A[q+1..r]，使得A[p..q-1]中的每一个元素都小于等于A[q]，而A[q]也小于等于A[q+1..r]中的每个元素/其中，计算下标q也是划分过程的一部分。解

2015-01-03 14:45:58 772

空空如也

空空如也