自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

咸鱼的小站

一个渣渣的邯郸学步

  • 博客(50)
  • 资源 (5)
  • 收藏
  • 关注

原创 numpy高维数组获取top-K

文章目录前言正文后记前言理论知识请自行翻阅numpy的argpartition和partition方法的实现原理,该文章仅仅包含使用和效率验证。此外,numpy版本需要>=1.8.0。正文不废话了,直接放代码,一看就懂,看不懂再说,自己跑一下就知道。import numpy as npdef get_sorted_top_k(array, top_k=1, axis=-1, reverse=False): """ 多维数组排序 Args: arra

2021-01-12 14:41:10 2599 1

原创 CS224n-Lecture12-Information from parts of words (Subword Models)

(shift,图片复制转存失败问题搞不定,复制黏贴写在本地的文章是真的被恶心到了)综述Lecture 12: Information from parts of words: Subword Models来自单词内部分的信息,子词模型1. A tiny bit of linguistics (10 mins) 语言学的简单介绍2. Purely character-level models (10 mins) 纯字级别的模型3. Subword-models: Byte Pair E

2020-12-19 17:43:22 362 1

原创 CS224n-Lecture8-Machine Translation, Seq2Seq and Attention

综述1Introduce a new task: Machine Translation介绍机器翻译任务。2.Introduce a new neural architecture: sequence-to-sequence介绍神经网络结构:序列到序列。该结构的一个主要用例就是机器翻译。3.Introduce a new neural technique: attention介绍神经网络技术:注意力机制。该技术主要用于改进序列到序列网络的效果。第一部分 机器翻译..

2020-08-21 10:29:45 403

原创 CS224n-Lecture5-Linguistic Structure Dependency Parsing

综述Linguistic Structure: Dependency parsing 语言结构:依存句法分析1. Syntactic Structure: Consistency and Dependency (25 mins)语法结构:一致性和依赖性2. Dependency Grammar and Treebanks (15 mins)依存语法和树库3. Transition-based dependency parsing (15 mins)基于转移的依存句法分析4..

2020-07-17 11:38:56 404

原创 CS224n-Lecture2-Word Vectors 2 and Word Senses

写在前面就是自己的课程笔记而已。我看的其实是2020版的ppt和2019的视频,因为实在是啃不动全英文的视频。另外复制图片太麻烦了,于是用的富文本编辑器。文档作业相关内容推荐:https://github.com/xixiaoyao/CS224n-winter-together视频推荐:https://b23.tv/vPwFWk综述Lecture 2: Word Vectors and Word Senses1. Finish looking at word vectors.

2020-07-09 09:45:10 311

原创 Python对接Java Rest接口简例

文章目录前言前言其实大部分接口服务都应该是与语言无关,只是部分重量级后端的实现还需要一些老牌语言。本文就仅仅介绍下Python向Java接口发送请求的一个简短过程,主要是Python代码,Java接口服务涉及到embed-tomcat,懒得展示。...

2020-03-19 16:20:42 2064

原创 关于Ontonotes5.0数据集下载过程(个人向)

文章目录前言获取数据数据处理后记前言说实话,这个数据集下载真的是很折腾了很久,这篇文章仅仅是介绍获取OntoNotes Release 5.0数据集的全过程,以及对于指代消解中英文数据的预处理。获取数据1.首先要在官网上注册账号。除了邮箱和组织需要注意下,其他无所谓了。注册完毕之后登陆,会提示:You currently have a guest account with LDC....

2020-03-18 14:02:44 5874 12

原创 使用HBase存储每个Cell变更历史的设计思路

文章目录前言前置知识设计思路多余的话前言写在前面,首先本文仅仅是个人思路的设计体现,并非什么业内标准,只是希望能给阅读的人一点经验之谈,如有不足,直接指正即可。前置知识以下内容均可以在官方文档中直接找到对应标题。Number of Versions。版本数,最大版本数用于确定需要保留多少个版本数据,对应的版本号可以使用时间戳(long)去标识,从而达到记录历史记录的目的,不宜过大(超过...

2019-12-16 11:12:49 269

原创 SparkSQL获取dataframe(Java)

文章目录写在前面正文写在后面写在前面使用SparkSQL读取数据库数据并返回dataframe,感觉都要被各种示例写烂了,本文大体上是没有新意的,只不过加了些细节,对需要的人的而言还是比较重要的。此外,示例方法均是使用Java编写,为什么不用Scala呢,实在是语法糖对于我这样的水平最多只到泛型为止的人而言,过于抽象了,过了一个月就不太记得之前写的是啥了,还是习惯明确对象。正文介绍下几块...

2019-11-01 11:50:12 913

原创 HBase批量插入数据

文章目录写在前面关键点实现代码尾记写在前面其实下文内容更适合在Spark中作为任务去执行,为了讲解,我先单独拎出来了,使用场景的话其实也很明显,就是大规模将数据写入HBase中。关键点大数据组件服务不可用(如断点、磁盘爆炸等)暂时不是本文内容所考虑的内容。首先,使用HBase1.0以上版本才支持的BufferedMutator,对HBase执行异步写入操作,使用mutate(Li...

2019-08-06 14:18:40 6968 3

转载 布隆过滤器(guava使用)

文章目录写在前面使用场景使用方法额外内容写在前面本文仅仅是因为最近使用到布隆过滤器而且觉得挺好用的,故而由此记录,其原理实现和数学知识烦请参考他人的这篇文章:布隆过滤器 (Bloom Filter) 详解。毕竟是07年就出来的经典,各路大神的解析肯定比我这个臭鱼烂虾详细的多,故不多加赘述了。此外,由于本文精华其实集中在上述链接的详解之中,所以设置为转载。使用场景布隆过滤器用于在海量数据中...

2019-04-29 15:13:14 5175

原创 Windows版IDEA2018 统一编码UTF-8

文章目录前言各处配置VM配置文件编码配置tomcat配置其他后记前言此文,适用于IDEA2018版本,主要目的是为了将windows下相关中文输出统一为UTF-8并且不乱码。各处配置VM配置建议优先通过Help(帮助菜单)-Edit Custom VM Options(编辑自定义虚拟机选项)修改配置。具体配置文件目录为user.IntelliJIdeaxxx\config\idea.ex...

2019-03-08 17:30:06 892 1

原创 sklearn DBSCAN内存相关问题

文章目录写在前面内存占用过高原因优化方案方案一方案二方案三写在前面其实在大规模数据集下(数据在百万级以上且特征在百维以上)进行聚类,最好是使用分布式进行计算,本人也没有太多经验,仅此稍稍提下。对于中等规模数据集(数据在十万级左右且特征在百维以上),优先推荐的还是使用sklearn的MiniBatchKMeans,但是有时候类别个数参数调整远比最大距离参数调整来的困难时,自然而然会想到使用基于...

2018-12-25 17:53:37 5601 11

原创 人工智能相关资料

前言这次的内容很短,仅仅是记录下一些资料向的内容而已。(反正看到好的就慢慢新增内容呗~)内容中文文本数据集来源:http://tcci.ccf.org.cn/conference/2018/taskdata.php#td(如果是做NLP相关内容,想要数据集都可以先看看这里。)tensorflow部分模型实现:https://github.com/tensorflow/models...

2018-11-21 17:43:04 446

原创 Python实现AC自动机

文章目录前言原理简析代码实现后文前言下文的代码有些部分参考了这篇文章,但我仍然坚持作为原创而非转载,自有我的考虑。在看下文之前,需要理解的基础知识有KMP算法原理和字典树数据结构理解。了解了上述内容就可以开始之后的旅程了。原理简析AC自动机相比于字典树结构仅仅是多了fail结点,指向其已匹配成功的前缀。其模式匹配与KMP算法一致。引用百度百科的图片,即sh后匹配e失败,此时h其实是已经...

2018-10-24 09:25:19 5586 5

原创 Python字典伪切片实现

文章目录前言实现测试前言此间内容,仅是闲着无聊的情况下顺便记录一点有用的代码而已。所以很短很短。实现很简单的,一看就懂。(其实就一句话而已)def dict_slice(ori_dict, start, end): """ 字典类切片 :param ori_dict: 字典 :param start: 起始 :param end: 终点 :...

2018-09-28 15:23:59 9489 3

原创 短文本转向量的一种实现方式

文章目录前言实现思路代码补充资料完整代码前言下文实现仅仅是比较粗糙的一种方式,可以改进的点还有很多,主要是懒。实现思路分词。分词还是jieba好。、。使用大语料进行基础词典word2vec模型的训练。使用特定领域(针对业务)语料进行专业词汇word2vec模型的训练。文本分词后使用avg-word2vec方式获取短文本向量,维度取决于word2vec维度大小,即所有词向量求平均。...

2018-09-28 09:13:01 4732 1

原创 Python实现字典树

python实现字典树前言实现附言python实现字典树前言  下文实现的字典树的目的其实并非用于存储字符,而是存储每个词语(虽然原理一致),并且支持获取某个词语序列的前后缀及其频率。当然,还缺少一些方法没写。(哎,主要是懒~~)实现  直接上代码好了,有注释应该不是那么难以理解。结点的结构可以进行任意变更用以满足特殊需求。      有一点不算是缺陷...

2018-08-28 17:11:31 8955 2

转载 语义网简介(非应用)

语义网简介语义网(Semantic Web)的核心是:通过给万维网上的文档(如: HTML)增加能够被计算机所理解的语义(Meta data),从而使整个互联网成为一个通用的信息交换媒介。换言之,就是构建一个能够实现人与电脑无障碍沟通的智能网络。打破现阶段万维网面向文档、信息孤岛等问题。举栗:输入“下午两点我要吃饭”。目前搜索引擎反馈的结果是百度、寻医问药一类,而语义网则会为你寻找...

2018-08-03 13:53:54 2018

原创 Python使用DBUtils连接部分主流数据库

需要了解的知识首先呢,你需要了解下DBUtils,我的描述肯定没官网解释来的清晰,自行阅读后,你就会发现我为什么会选用PooledDB而不是其他作为连接池了。其次,DBUtils支持所有遵循DP-API 2规范的数据库连接模块,也就是说除了我示例中所提供的几个数据库连接方式外,各位可以探索其他遵循此标准的连接模块,从而在此基础上拓展,成为连接更多种类数据库的通用工具类。最后,以下内容均...

2018-06-12 17:18:13 6005 3

原创 neo4j中实现关键路径算法

    写在前面:其实这是个未曾优化过的方法,故而仅供参考。    实现原理:寻找起点与终点间的全部路径,并且将权重(耗时)求和,排序获取其最大值,从而返回关键路径。    cql语句:其中需要修改的变量为node_label点表,edge_label边表,start_name、end_name起始、结束结点name属性的值(你可以用任意属性替换,只需要能够找到对应结点)。    PS:*表示任意...

2018-06-06 09:17:25 4691

原创 chrome浏览器请求发送两次的一种可能性

        小事一件,但愿有助于诸君。        今天测试get请求的时候发现一个很奇怪的问题,那就是在chrome浏览器下请求会发送两次。但是在其他浏览器下却表现的很正常。这说明不是程序本身的问题,而是浏览器的问题。        于是,我一怒之下把所有的扩展程序全禁用了,之后就完全ok了。于是我再把扩展程序一个个启用,最后总算找到了是JSON Formatter Chrome这个扩展程...

2018-06-01 17:30:21 12094 8

原创 windows系统作为driver远程提交任务给spark standalone集群demo

其实这个是上篇文章的升级版。先上demo代码吧,其中要改的地方还挺多的,此外,如果不将模型持久化的话,烦请自行修改相关代码(demo比较简单,我就不阐释他是干什么的了):from pyspark.ml.feature import Word2Vecfrom pyspark.sql import SparkSessionfrom pyspark import SparkConffrom pys...

2018-05-11 16:17:41 1463

原创 CentOS中Python in worker has different version x.x than that in driver x.x异常

其实这个异常百度一下,大部分都是添加环境变量,修改conf/spark-env.sh文件,主要就是加入或修改 PYSPARK_PYTHON 和PYSPARK_DRIVER_PYTHON这两个环境变量,这都是老生常谈的问题了,在此我就不赘述了。但我最近在使用spark远程master结点进行编程的时候,发现无论怎么做这个异常都一直存在,颇为苦恼。首先,要明确的一点就是你的操作系统中一定存在两个版本的...

2018-04-26 14:18:23 831 1

原创 java解析wsdl文档获取方法与参数

写在前面:首先完整的内容应该是实现java解析wsdl文档获取方法与参数,然后使用soapui发送soap请求获取返回值并解析,而且基本可以解析主流webservice框架生成的wsdl。但是呢,出于有部分有些商业用途的,所以只提供比较基础的那部分内容,哪怕我算是原作者~~完整的思路包含三步(代码仅含一二步):1. 使用wsdl4j解析wsdl,wsdl文档结构推荐参考http://blog.cs...

2018-03-01 15:22:45 14431 9

原创 xtfp传输出现unknown error的一种可能

写在之前:这只是我遇到的一种情况而已,而且本人也是个新手,仅作参考。情况描述:在传输之前,我尝试在虚拟机上使用vim编辑较大的文本文件,然后中途退出未保存,之后我便发现使用xftp传输一直都是错误,并且描述为unknown error。首先根据问题描述排除了权限问题,然后我就尝试关闭防火墙,其中操作不多赘述,但是发现仍然无法上传,于是在找了很多可能性之后无意中在使用yum安装某个程序的时候

2018-01-10 15:15:33 2146

原创 个人使用的Java rest接口返回结构

直接上结构:package model;import java.io.Serializable;import java.util.Map;/** * @author wangleai * @date 2017/12/4 * */public class ResponseResult implements Serializable{ private static f

2017-12-07 09:53:34 2837

原创 判断是否有jar包冲突

你懂的呀,有时候我们需要判断某个lib目录下是否有jar包冲突,这毕竟是个让人头疼的问题。    一般分为两种情况。    一是已知包里有某个类,一般用在自己发布的jar包上面,因为可以进行约束。此时通过当前线程的类加载器获取资源,如果有重复说明有冲突。 //写入需要检测的class,格式如com.zang.ai.WangShao private static fin

2017-11-20 15:37:27 4357

原创 kindeditor实现回车发送,ctrl+回车换行

写在前面:我是前端的一个大瓜皮,以下内容全靠公司的刚哥才得以知悉,在他看不见的地方先谢过一次~~      直接上代码就行,一看便知,其实也是我想保留下一些想记忆的东西而已:KindEditor.ready(function(K) { editor = K.create('#message', { newlineTag : "br" , //

2017-10-19 15:35:07 2504

原创 Netty-socketio中判断SocketIOClient是否仍然连接

写在前面:一般情况下是不会去考虑这些的,但是如果把SocketIOClient放入缓存中,就有可能在onDisconnect中未把SocketIOClient去除掉,尤其是多点登录的情况下。所以本文写一些自己理解的方法用来判断SocketIOClient是否仍然连接。方法一:添加设置超时的回调函数调用SocketIOClient中的void sendEvent(String nam

2017-10-18 15:32:16 8558 1

转载 Common application properties

其实是转载自spring-boot官方文档附录部分,谷歌翻译下内容:可以在application.properties/application.yml文件或命令行开关中指定各种属性。 本节提供了常见的Spring Boot属性和对使用它们的基础类的引用的列表。       附录内容地址       文档地址       以下是具体内容:# =================

2017-09-26 14:45:03 430

原创 从dubbo-admin看dubbo

写在前面:     我不知道是不是会有人和我有同样的想法,当浏览dubbo用户手册时,会觉得当一切基于配置,会给自己代码省去很多事情,然后会不禁赞叹,dubbo的设计真是精妙,简约而不简单!          其实今天想写的内容在API配置一节中可以窥见一部分,就是通过阅读dubbo-admin源码分析provider、consumer、route、override是如何同注册中心交互

2017-09-22 17:01:44 1780

原创 idea创建自己的archetype

本文只是简要描述步骤以及几个可能会遇到的问题。创建自己的Maven项目并为其扩充内容,原型自然是以可重用内容为主(比如一个springboot的restful示例)。在idea或者项目目录下输入命令行mvn archetype:create-from-project,会在项目目录下创建archetype,target/generated-sources/archetype就是想要的内容

2017-07-11 10:48:58 7112

原创 Java 8 Streams部分API简介

写在前面,下面的链式调用曾经让我惊艳过。有时,我会想,一行代码如此之长是否真的合适,出了错也许会比较难找,(比如某个set返回不是MsgInfo对象而是null的话,定位都会是这一行),然而,这不妨碍心中莫名其妙的自豪感,身为码农,最重要的不是对自己流利代码和自身高尚品质的绝对自信么?笑:-DMsgInfo msgInfo = new MsgInfo(); msgInfo.se

2017-07-06 09:51:23 430

原创 两道有趣的算法题(只有思路)

1、一条长l的笔直的街道上有n个路灯,若这条街的起点为0,终点为l,第i个路灯坐标为ai,每盏灯可以覆盖到的最远距离为d,为了照明需求,所有灯的灯光必须覆盖整条街,但是为了省电,要是这个d最小,请找到这个最小的d。(网易)思路:看上去很复杂的题目,其实真的超级简单。取max{a1,l-an,t}。a1为最左边的灯到起点的距离,l-an为最右边的灯到终点的距离,t为相邻两灯的距离排序后的

2017-06-13 09:33:35 1467

转载 java阻塞队列与非阻塞队列

    在并发编程中,有时候需要使用线程安全的队列。如果要实现一个线程安全的队列有两种方式:一种是使用阻塞算法,另一种是使用非阻塞算法。    //使用阻塞算法的队列可以用一个锁(入队和出队用同一把锁)或两个锁(入队和出队用不同的锁)等方式来实现。非阻塞的实现方式则可以使用循环CAS的方式来实现。 阻塞队列:阻塞队列(BlockingQueue)是一个支持两个附加操作的队列。这两个...

2017-06-12 14:33:10 9743 2

转载 Minimax算法及其剪枝优化Alpha-beta

转载自http://blog.codinglabs.org/articles/2048-ai-analysis.html!!!!!我只截取了算法的部分,没把应用的内容截取下来。真的写的很棒,对于算法的学习一目了然。以下是主要内容:Minimax   下面先介绍不带剪枝的Minimax。首先本文将通过一个简单的例子说明Minimax算法的思路和决策方式。问题

2017-05-17 14:01:52 7021 1

原创 nginx结合tomcat实现负载均衡

哇,首先容许我感叹一声,nginx是真的恐怖,反向代理、负载均衡、web缓存等等内容的实现只需要修改下配置,谁能想到这一切会如此简单,不得不让人感叹,果然偷懒才是人类进步的源泉~~(笑)       先说下什么是web服务器的负载均衡,简单来说就是就是将多个请求分摊到多个服务器上,从而提高网络的可用性。大致架构应该是下面这样的灵魂图片(这次展示的内容实际上是同一个client的多次请求):

2017-04-12 13:57:06 381

转载 Springboot整合Dubbo/ZooKeeper demo

同样的这篇文章很大程度上参考了下面这篇文章:Springboot 整合 Dubbo/ZooKeeper 详解 SOA 案例所以我也是当做转载了。1、首先是安装与部署zookeeper下载、解压、修改zoo.cfg、启动。本demo采用单点模式。详细内容可以参考下面的文章:zookeeper 集群安装(单点与分布式成功安装)摘录2、监控集群

2017-03-28 16:07:43 6083 3

转载 Spring boot整合mybatis实现Restful服务demo

首先要声明,这个demo很大程度上参考了这篇文章:Springboot 实现 Restful 服务,基于 HTTP / JSON 传输所以把它归为转载之列。首先创建数据表并插入一条数据(数据库名随意):DROP TABLE IF EXISTS `city`;CREATE TABLE `city` ( `id` int(10) unsigned NOT NUL

2017-03-20 13:39:36 6862 2

短文本转向量的一种实现方式

短文本转向量的一种实现方式。我目前把我的资源全部调成了0分,我希望不要因为其他什么原因改变我的资源下载积分,不然以后只能搞百度云等链接了。

2018-09-28

java解析wsdl文档获取方法与参数

java解析wsdl文档获取方法与参数的工具类,与博客中描述内容相符。我目前把我的资源全部调成了0分,我希望不要因为其他什么原因改变我的资源下载积分,不然以后只能搞百度云等链接了。

2018-03-01

Springboot整合Dubbo/ZooKeeper_demo

Springboot整合Dubbo/ZooKeeper_demo。我目前把我的资源全部调成了0分,我希望不要因为其他什么原因改变我的资源下载积分,不然以后只能搞百度云等链接了。

2017-03-28

SpringBootDemo

Spring boot整合mybatis实现Restful服务demo。我目前把我的资源全部调成了0分,我希望不要因为其他什么原因改变我的资源下载积分,不然以后只能搞百度云等链接了。

2017-03-20

ssm框架个人实践内容

自己第一次尝试的SSM框架,下载完成后记得自行更改配置。其实更建议自己配置,因为这个仅只为留个纪念。我目前把我的资源全部调成了0分,我希望不要因为其他什么原因改变我的资源下载积分,不然以后只能搞百度云等链接了。

2016-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除