自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 Linux通过beeline连接远程Hive

Linux需要连接远程Hive,可以使用beeline。一、确保服务器已经安装配置了java环境;二、下载hadoop和hive相关的包wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gzwget https://archive.apache.org/dist/hive/h...

2020-03-01 16:09:41 4600

原创 Windows通过dbeaver连接远程hive

Windows连接hive的客户端比较多,但dbeaver算是其中使用起来比较方便的一个。一、下载dbeaver并安装,这一步比较简单,直接next就ok了;二、打开软件,选择【文件】->【新建】,新建数据库连接,再选择hive。三、配置hive连接信息,然后设置驱动四、驱动设置里面已经有驱动的下载地址,可以直接下载,但由于下载资源多数是国外的,建议复杂连接,用迅雷等...

2020-03-01 15:58:51 1478

原创 基于dejavu的音频识别

音频识别可以识别出一段未知的音频属于哪个音乐的,从第几秒开始。目前音频识别主要使用音频指纹技术,音频指纹技术通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来,用于识别海量的声音样本或跟踪定位样本在数据库中的位置。其中dejavu是一个非常好的音频指纹的开源项目:项目地址:https://github.com/worldveil/dejavudejavu将音频通过FFT(快...

2020-02-18 18:25:42 2119 2

原创 php查询mysql大量数据页面访问失败

在使用php5.6查询数据库时,有一个查询得结果数据在10万条左右,页面访问失败,这时候需要调大php.ini中得pdo_mysql.cache_size。

2019-12-26 17:04:35 498

原创 jquery移除dom事件并添加新事件

在项目中遇到这样的问题,之前的页面是软件自动生成的,引用了比较多的自带js文件,不能删除,此时新添加的事件在这些js文件的事件之后执行,导致不能得出正常的结果,所以需要删除元素本身自带的事件,再添加新的事件,具体代码如下://获取元素当前绑定的所有事件console.log($._data(document.getElementById('u5416'), 'events'));//删除...

2019-12-15 20:36:34 576

原创 Centos基于xampp安装CACTI

CACTI是PHP编写的B/S结构运维软件,具有简单易用的特点,但是安装相对比较复杂,这里记录下安装过程进行分享:一、下载安装xampp,教程比较多,这里不重复;二、由于xampp默认的mysql密码为空,需要先修改密码: /opt/lampp/bin/mysql -uroot -p use mysql; update user set password=password("1...

2019-09-29 23:27:51 199

原创 Too-big precision 7 specified for 'CHECK_DATE'. Maximum is 6.

博主使用navicat的数据传输将数据从oracle导入mysql的过程中,报错:Too-big precision 7 specified for 'CHECK_DATE'. Maximum is 6.问题原因在于oracle的DATE类型是7位,而mysql的时间类型最多6位,所以无法导入。解决方法:将oracle库中的DATE改为TIMESTAMP,同时长度改成6 (一定要把...

2019-08-30 17:41:17 12381 1

原创 sklearn 错误: This StandardScaler instance is not fitted yet

在使用sklearn 进行数据标准化和标准化数据还原原始数据的过程中,出现如下报错:sklearn.exceptions.NotFittedError: This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.出错的代码是:...

2019-08-17 20:43:04 14673

原创 RuntimeError: Given groups=1, weight of size 64 4 7 7, expected input[1, 5, 206, 206]错误

在使用python进行图像机器学习的时候,由于输入图片的问题会报错:RuntimeError: Given groups=1, weight of size 64 4 7 7, expected input[1, 5, 206, 206] to have 4 channels, but got 5 channels instead类似的错误,问题主要是出在,输入图片不是标准的RGB图片...

2019-07-21 20:39:27 28073 13

原创 phpexcel修改已有excel并另存为

在项目中,遇到这样的场景,读取用户选择的数据,写入现有的excel模板中,供用户下载,需要对已有的excel进行写入后另存为。代码如下(使用onethink框架,请事先下载phpexcel并拷贝到Vendor目录下):1、读取excel模块: $excel_path = "outexcel/model_use.xlsx"; $type = "xlsx";...

2019-07-03 14:52:03 2418 1

原创 HugeGraph-Studio编译安装

由于官网提供的最新的HugeGraph-Studio存在BUG导致Gremlin语句无法正确提交,所以需要编译最新的代码安装HugeGraph-Studio。但是由于官网提供的编译安装步骤比较简略,编译过程中容易出现问题,故梳理完整的编译步骤:一、下载代码:git clone https://github.com/hugegraph/hugegraph-studio.git二、安装相...

2019-05-29 14:05:10 795

原创 HugeGraph应用(2):PHP 通过 Restful API访问HugeGraph

在上一篇博客HugeGraph应用(1):安装与配置中,已经完成了HugeGraph的安装与配置,本篇博客介绍Web应用如何对HugeGraph进行访问,HugeGraph目前只提供了java的客户端,但是其他语言的应用可以使用Restful API进行访问,这里以PHP为例,使用curl进行http访问:详细的API介绍请参见:https://hugegraph.github.io/hug...

2019-05-03 21:26:04 1262

原创 HugeGraph应用(1):安装与配置

HugeGraph是百度开源的图数据库,详细介绍的可参见:https://hugegraph.github.io/hugegraph-doc/本博客作为HugeGraph应用的第一篇,先介绍如何进行HugeGraph的安装与配置,安装环境采用Centos7.5。一、安装Java环境1、下载 jdk-8u191-linux-x64.rpm2、安装jdk:rpm -ivh j...

2019-05-03 21:11:32 4257 1

原创 PHP Curl Content-Encoding: gzip乱码问题解决

笔者在使用php curl对接hugegraph的过程中,发现向gremlin发送结果返回乱码,截图如下:对比这个请求和普通的请求: 发现返回乱码的乱码请求中有Content-Encoding: gzip,即返回的内容采用了gzip压缩,所以需要在curl请求中加入curl_setopt($curl, CURLOPT_ENCODING, 'gzip');即返回正常...

2019-05-03 18:26:12 3474

原创 基于OpenCV与 ImageAI 的动漫人物识别

在从二次元毕业之前,我们经常都会看到"这个人物是谁?哪个番的?"之类的问题,在学习图像识别的过程中,实现了一个动漫人物的识别的例子,直接使用现有的两个成熟的工具OpenCV与ImageAI通过人物头像来进行动漫人物的识别,作为一个入门的例子。而在实际情况下,动漫人物时有撞脸的情况发生,这个时候还需要通过服饰,甚至结合知识图谱关联图像中出现的其他角色来进行更加精确的识别。下面直接上demo:一...

2019-03-31 19:23:51 28082 19

原创 两行代码搞定python OCR图像文字识别

目前OCR主要依赖几个低层库,本博客采用Tesseract,Tesseract是由Google维护的开源OCR。本博客在windows环境进行,linux环境同理。1、安装Tesseract:windows下Tesseract的安装比较简单,下载exe然后一直next下去就行了。但是由于要做中文的识别,所以一定在安装的时候要勾选相应的中文库,这个安装时是默认不下载的。2、安装p...

2019-03-22 14:39:32 4439

原创 Centos7.2 安装Hadoop、Hbase、Elasticsearch与JanusGraph并配置Http访问

JanusGraph是分布式图数据库,前身是Titan。JanusGraph是Titan的一个fork。Titan项目创建于2012年,于2016年停止维护,2017年,JanusGraph项目fork了Titan,直至今天。所以建议大家优选JanusGraph,当然Titan依然是可用的。JanusGraph支持多种后端和索引,这里博主选择Hbase与Elasticsearch。大家在安装之...

2019-01-27 23:33:40 1446

原创 HDP 2.6.3.0 ambari安装 :Cannot match package for regexp name XX_${stack_version}错误

博主在Centos7.5 上进行HDP 2.6.3.0的安装,在安装过程中:报错: :Cannot match package for regexp name xx_${stack_version}如图:博主这里以hbase为例,其他的可能是hadoop、pig等等。参考了以下两篇文章的方法:第一:https://blog.csdn.net/weixin_4215168...

2019-01-05 19:06:55 3123 4

原创 Spark MLPC神经网络应用实例(scala)

在Spark中,目前包括的神经网络方面的算法仅有MLPC,即MultilayerPerceptronClassifier(多层感知分类器)。它在MLlib的Classification and regression(分类与回归)中。MLPC是基于前馈人工神经网络(ANN)的分类器,属于全连接神经网络,其中隐藏层的激活函数是sigmoid函数,输出层是softmax函数。关于MLPC的原理,网络上有...

2018-12-23 17:38:14 2000 1

原创 Spark特征工程

按照惯例,先附上业界那句名言“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。特征工程是指用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效果。简而言之,就是为算法提供更友好的输入,以最大化地发挥算法的作用。同时,特征工程虽然是一种技术,但其前提是对数据以及产生这些数据的具体业务场景有比较深入的理解。一般的,python的sklearn、spark的mll...

2018-11-17 18:45:06 2372

原创 基于图数据库的无限级菜单存储

无限级菜单或者说无限级分类,在实际项目中比较实用,目前比较主流的设计是通过关系型数据库进行存储,通常一个表中包含id,content,fid三个字段,content是菜单的名称,id是菜单的id,而fid是该菜单的上一级菜单,一般fid为0或者1的表示顶级菜单.后台程序通过递归进行查询。但这种方法,在菜单层级比较深之后,查询以及权限控制就不是那么方便了。比如要查询一个菜单的所有子菜单以及其的层级关...

2018-11-01 23:18:34 1159

原创 spark Word2Vec+LSH相似文本推荐(scala)

在上一篇博客,我们使用spark CountVectorizer与IDF进行了关键词提取,博客地址:spark CountVectorizer+IDF提取中文关键词(scala)本篇博客在上一篇博客的基础上,介绍如何根据关键词获取文档的相似度,进行相似文本的推荐。在这里我们需要使用到两个算法:Word2Vec与LSH。其中Word2Vec即将词转换为词向量,这样词之间的关系就可以向量距...

2018-09-15 19:50:22 6663 22

原创 spark CountVectorizer+IDF提取中文关键词(scala)

在提取关键词中,TF-IDF是比较常用的算法,spark mlib中也提供了TF以及IDF的方法,但是由于spark提供的TF算法是不可逆的,即无法获取TF的结果对应的原句子的文字,所以需要采用 CountVectorizer。提取关键词的过程如下:1、中文分词以及去掉停用词:中文分词使用的是ansj:maven如下: <!--ansj--> <dep...

2018-08-22 22:42:45 4172 11

原创 php neo4j图数据库查询与遍历

在上一篇博客中,介绍了php连接neo4j图数据库以及基本使用,博客地址:https://blog.csdn.net/u013090676/article/details/81435944本文继续介绍php 对neo4j图数据库进行查询,遍历,下面直接上代码:1、查询节点以及关系:$result = $client->run('MATCH (m:person{name:"s...

2018-08-07 22:59:03 1479 1

原创 php连接neo4j图数据库以及基本使用

阅读本博客前,请熟悉neo4j图数据库以及Cypher。php连接neo4j图数据库的驱动下载地址(无下载积分可留言邮箱):https://download.csdn.net/download/u013090676/10585050本博客基于thinkphp框架,所以需要先在ThinkPHP\Library\Vendor\目录下创建neo4j文件夹,下载驱动代码在neo4j文件夹下解压...

2018-08-05 22:04:31 5026 23

原创 spark udf传入复杂结构参数

笔者在使用LSH 获取相似文本时,遇到返回的Dataframe的结果比较复杂,如下:现在想使用UDF函数处理datasetA和datasetB的内容,但是由于数据结构复杂,无法直接写参数,所以需要使用Row,代码如下: val getIdFun = udf((input:Row)=> { input(0).toString.toInt; ...

2018-07-03 23:42:54 4224 1

原创 spark dataframe 一列分隔多列,一列分隔多行(scala)

关于spark dataframe ,这里介绍三种实用中实现可能比较麻烦的操作,首先上原始数据集 mRecord:一,合并content列,将name相同的content合并到一行,用逗号隔开: mRecord.createOrReplaceTempView("test"); val Df1 = sparkSQL.sql("select name,concat_ws(...

2018-06-17 23:26:18 26723 8

原创 thinkphp上传读取带中文名的excel

windows phpstudy环境下进行开发一、使用thinkphp 3.2.3的Upload上传文件,带中文名的文件保存到后台后是乱码,解决方法:ThinkPHP\Library\Think\Upload\Driver\local.class.php   82行:if (!move_uploaded_file($file['tmp_name'], $filename))改为if (!move_...

2018-06-11 22:27:58 667

原创 spark Failed to execute user defined function(anonfun$3: (array<string>, vector) => string)

笔者通过udf创建spark sql 函数,代码如下: val getKeyWordsFun = udf((con:Array[String],fea:Vector)=&gt;{             //函数内容 });使用如下:idfDf.withColumn("keywords",getKeyWordsFun(col("contents"),col("idf...

2018-06-07 22:57:33 7952

原创 RAP接口管理工具

RAP是阿里开源的接口管理工具,主要包括开发团队/项目的管理,编写API接口,MOCK服务,接口测试,生成接口文档等功能。并且RAP是可以在本地环境中进行部署使用的(linux,windows皆可),这里也建议本地部署,第一不受网络限制,第二数据放在自己的数据库中便于后续的功能扩展或分析。关于RAP的部署,网络上有较多的教程,这里就不再重复,主要需要java1.8,mysql5.6(mysql5....

2018-06-06 22:39:32 10002

原创 Mysql Invalid ON UPDATE clause for 'update_time' column

从高版本的mysql导数据到低版本,执行语句:CREATE TABLE `test` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '序号', `update_time` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '修改日期', PRIMARY KEY (`id`)...

2018-06-05 11:53:18 14738 4

原创 scala spark dataframe添加序号(id)列

    在spark的开发中,经常会出现需要为dataframe添加id列的地方,特别对于一些需要存到关系型数据库中的结果,话不多说,下面直接上代码。1、初始化: val sparks = SparkSession.builder .master("local[4]") .appName("test1") ...

2018-05-20 00:37:09 15249 1

原创 一个基于python+selenium的page-object自动化测试框架

先上框架git链接:watcher自动化测试框架https://gitee.com/yukarijiang/watcher#0-qzone-1-79223-d020d2d2a4e8d1a374a433f596ad1440这个框架目前才刚刚起步,还有很多不完善和不适当的地方,但可以用于学习selenium以及小型的项目的自动化测试,同时也期望与对自动化测试感兴趣的朋友深入交流。先上框架结构:...

2018-05-09 23:41:56 3216

原创 今天你够“敏捷”吗?

         从第一个项目开始,就一直在被敏捷,然而敏捷开发到底是什么,应该怎么做?其实也没有一个真正的认识。直到后来开始系统地学习项目管理,再结合实际开发经验,才算有了一知半解。本文是笔者对学习和实践敏捷开发的一个总结,由于个人能力和认识有限,不对之处,还望批评指正。         首先要强调的是,对于开发模式的选择,并没有最好的,而只有最适合团队和项目当前情况的,甚至多种开发模式并用,也...

2018-03-31 22:06:40 283

原创 Elasticsearch php基本搜索

在前文中,介绍了Elasticsearch-php的一些基本API,链接:PHP Elasticsearch的连接与基本使用。本文将就搜索进行探讨:一、匹配查询: $params = [ 'index' =&gt; 'test', 'type' =&gt; 'my_type', 'body' =&gt; [ ...

2018-03-11 02:49:36 4711

原创 PHP Elasticsearch的连接与基本使用

对于Elasticsearch与Elasticsearch-php的安装,网上有比较多的教程,这里不再累述。只是要注意Elasticsearch、Elasticsearch-php与php的版本。这里笔者使用的是Elasticsearch 5.6.8 windows版、php 5.6 、php onethink框架(以下简称ot)、Elasticsearch-php composer如下:{ ...

2018-03-08 18:28:03 13114

原创 数据分析的一种思路

          数据分析是一个庞大的工程,有的时候过于抽象且依赖经验。本文是博主对学习和实践数据分析的一个总结,希望提供一种通用的数据分析思路,并在分析思路的每个步骤中介绍相关的分析算法及其应用场景,对于算法只做浅层次的介绍,待读者在实际使用中自行深入了解。本文主要针对刚刚接触数据分析或者面对一堆数据不知道如何下手的读者,经验丰富的数据分析师们可以跳过。同时,本文介绍的分析思路由于笔者的经验和...

2018-02-11 00:49:38 1252

原创 PHP ajax post传递参数限制

今天博主要把地图的轮廓坐标传到后台去保存,一共2000+个坐标点,但是保存的时候发现后台只能收到300个点:找了半天原因,发现是max_input_vars在php.ini 这个属性是被注释的,而且默认的值在一般情况下就够用的。max_input_vars用来限制提交的表单数量的,这个值越大可以提交的越多。

2018-01-18 22:42:51 819

原创 基于RSSI三维空间四点定位算法

基于RSSI三维空间四点定位算法

2017-12-02 19:25:52 25153 26

原创 php/java bridge使用

php/java bridge,正如其名,就是使用php调用java代码的,一般情况下的php项目是用不到的,但是有的时候,某些驱动或者接口只支持java的时候,而恰好我们的项目又是php的时候,就需要用不到了。话不多说,下面直接介绍使用步骤,这里以windows环境为例:一、首先保证有php和java的运行环境,这个不多说,然后下载 JavaBridge.jar。双击直接打开:它

2017-11-04 16:37:19 2065 2

neo4j-php包用于php连接neo4j

neo4j-php包用于php连接neo4j

2022-02-15

neo4j-php.zip

php链接neo4j图数据库的驱动,通过修改neo4j-php-client 而来。使用详情参考个人博客

2018-08-05

用户评分记录

这一个用户评分记录的.sql文件。每条记录包换user(int),item(int),grade(int)。一共30万条记录,可以用来作为推荐系统的测试数据。

2017-10-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除