陌上行走-CSDN博客

原创 python判断一个字段是否是mongo ObjectId类型

MongoDB中有一个自动生成的字段：”_id”，类型为ObjectId。在某些业务中，需要提前判断这个某个字段是否是合法的ObjectId。此处可以直接使用bson包中的校验方法。详细使用方法可以直接查看该方法的源码。from bson import objectid# 合法的a = '5349b4ddd2781d08c09890f4'# 有问题的b = "6274da523946a702a7f3b523d"# 返回值为Trueprint(objectid.ObjectId

2022-05-06 20:44:19 1306

原创 dell服务器开机卡在PCIe device errors页面

在安装和调试实验室dell服务器的过程中遇到了一些问题，特此记录一下。问题：如上图所示，dell服务器在开机或重启的时候，会出现如上图所示的页面，大致问题如下：UEERI0077: One or more PCIe device errors occurred in the previous boot. Check theSystem Event Log (SEL) to ient...

2019-10-19 16:57:18 7662 3

原创关系抽取工具--IEPY

本来是准备寻找一个关系抽取方面的语料标注工具的，在找资料的过程中发现一个帖子中提到IEPY和DeepDive，DeepDive在之前使用过了，所以就尝试部署了一下IEPY看看是什么效果，记录了一下。IEPY的具体信息可以参考github网址：https://github.com/machinalis/iepy。安装过程参考我的另一个博客链接：关系抽取工具–IEPY...

2019-10-19 16:52:05 3419 1

原创关系抽取论文笔记集（持续更新中）

分享一下自己精读的一些关系抽取相关的论文笔记，由于中间有些是ppt，为了便于预览展示，所以全部发布在了自己的博客网站上了。1、Reinforcement Learning for Relation Classification from Noisy DataAAAI 2018中的一篇关系抽取方面的论文。此论文提出了一种基于强化学习的关系抽取模型，该模型主要是对具有大量噪声的词袋级别的数...

2019-10-15 17:10:52 1346

原创通知--开新坑了

最近自己在阿里云搭了个个人博客，准备陆续将自己的东西放在上面，便于自由化管理和存储。CSDN上的博客将会继续保留，并且后面会慢慢全部搬到自己到博客网站。喜欢的可以关注下，欢迎多给意见，共同交流，共同学习，共同进步。新的博客网址为：点此查看博客网站正处于起步阶段，后期将不断完善优化。...

2019-04-07 19:02:31 445

原创关系抽取：SemEval2010 Task8数据集

任务描述SemEval2010 Task8详细信息请参考官方文档。任务：对于给定了的句子和两个做了标注的名词，从给定的关系清单中选出最合适的关系。关系清单（9+1）如下所示：关系定义例子 Cause-Effect （因果关系） Cause-Effect(X,Y) is true for a sentenceSth...

2019-03-22 20:23:04 14448 11

原创 java调用python代码

在做项目的时候，有的时候由于合作人员之间所会的编程语言的不同，会导致项目合作中的一些问题，很多时候需要不同语言之间的调用，这次就分享一下java调用python代码的东西。一、python代码运行巧妇难为无米之炊。首先，要确保python环境配置完好，并且相应的python代码可以运行。这个就不在这里进行讲述了，如果有需要可以查看我之前的一些文章。二、java调用...

2018-09-02 16:47:55 11093 3

原创 windows中elasticsearch5.5.2及head插件安装

在安装es5.5.2的head插件过程中，遇到了一些问题，这里做一下分享。安装过程如下：1、安装elasticsearch5.5.2（1）首先进入elasticsearch官网进行下载，网址为：elasticsearch下载，如下所示：（2）上图中是es最新版本的下载，其他版本的下载如图中标记所示，点击past releses进行选择，如下所示，然后在列表框进行相应的选择...

2018-07-16 17:29:13 1438

原创自然语言--kenlm环境搭建

这篇博客主要是分享下小象学院自然语言课程（主讲：史兴）第二讲中示例中kenlm环境搭建的过程，同时也当给自己留个存档。对于这个环境的搭建，我是在ubuntu16.04的虚拟机中进行的，下面直接进入正题：1、首先看一下此课程中搭建需要用的东西，如下图所示。在运行环境处，对于anaconda和NLTK是很简单的，这里就不多做解释了，如果有需要的可以留言交流。2、直接进入KenL...

2018-05-05 16:25:56 5171 3

原创编辑距离算法杂烩

今天分享一下编辑距离的相关东西。定义首先说一下什么是编辑距离？在信息论、语言学、计算机科学中，编辑距离是一个测量两个序列之间差异的度量。通俗地说，编辑距离就是从字符串X转换到Y需要的插入、删除、替换的最小个数。对于只有插入、删除、替换操作的编辑距离，是被Levenshtein首先提出和定义的，所以这个编辑距离又叫作Levenshtein距离。在后来，又有一些基本操作被提...

2018-03-26 14:12:22 1094 1

原创 python正则中最短匹配

这是因为在正则中，‘*’、‘+’、‘？’这些是贪婪匹配，如用 a*，操作结果是尽可能多地匹配模式。所以当你试着匹配一对对称的定界符，如 HTML 标志中的尖括号。匹配单个 HTML 标志的模式不能正常工作，因为 .* 的本质是“贪婪”的。在这种情况下，解决方案是使用不贪婪的限定符 *?、+?、?? 或 {m,n}?，尽可能匹配小的文本。

2017-12-23 15:51:32 6288

原创 chrome打开网站视频显示no cimpatable source was found for this media

在写了一个视频播放的网页挂在网站后，在edge、ie等浏览器上都是正常的，但是在chrome升级了之后，突然就不能使用了，而是出现了no cimpatable source was found for this media，如下图所示：

2017-12-19 16:01:54 42066

原创 python中比较运算符与其他语言的差异

我们都知道，在c、c++等这些语言中，如果出现3<x<7的情况，那么程序是先执行3<x，然后得到true或false，然后再与7进行比较，最后得出结果。那么在python中，这个还是不是这么回事呢？对于x<y<==这个表达式，python中等价于“x<y and y<=z”，也就是说，在python里这个比较的方式是贴近于我们的数学思维的。当然，这个不仅仅局限于“<”号，当然是对于我们使用的这些比较的运算符都是成立的。

2017-12-03 16:55:14 1701 1

原创 java web中url问号传值，中文乱码问题

Invalid character found in the request target. The valid characters are defined in RFC 7230 and RFC 3986，java web中url问号传值，中文乱码问题

2017-12-01 11:07:47 9333 2

原创 mybatis分页查询之sql server--mysql

freemarker.beans Key "location" was not found on instance of org.springframework.jdbc.UncategorizedSQLException.freemarker.beans Key "location" was not found on instance of com.microsoft.sqlserver.jdbc.SQLServerException.sql server使用mybatis中分页查询时出现故障

2017-10-25 16:37:28 10180

原创 python3中input输入浅谈

今天谈一下关于python中input的一些基本用法（写给新手入门之用，故只谈比较实用的部分）。首先，我们可以看一下官方文档给我们的解释（在python的shell中输入命令即可）：上面的英文说的是什么呢？大家有兴趣的可以自己在网上翻译一下，大致说的就是input这个函数，第一个参数是提示语，它默认是空的。在我们使用input的时候，会从标准输

2017-10-08 20:40:09 143420 13

原创 pycharm中使用anaconda部署python环境

今天来说一下python中一个管理包很好用的工具anaconda，可以轻松实现python中各种包的管理。相信大家都会有这种体验，在pycharm也是有包自动搜索和下载的功能，这个我在前面的一篇博客中有相关的介绍（详情请查看点击打开链接），但是这种功能对于一些包是可以使用的，但是总是会遇到有些包下载失败或查询不到的时候，这个时候就会让人很苦恼了。这里我们就来说一下anaconda的好处。

2017-09-24 15:43:09 341281 21

原创数据结构（c++）--map划分词典的相似单词

这次分享一下看到的一个map对于相似单词的划分的示例。首先，我们需要一个存放了很多单词的字典，在上一篇博客中，我已经做好了相关的处理，可以参考点击打开链接。下面我们切入正题。在我们所用过的英文单词中，许多单词都和其它的单词是相似的，而这些往往记忆起来是特别头疼的，大家都懂的。例如，对于单词wine，替换第一个字母，可以有dine、fi

2017-08-12 20:59:32 3082

原创使用python对文件中的单词进行提取

由于需要使用一个纯单词组成的文件，在网上下载到了一个存放单词的文件，但是里面有中文的解释，那就需要做一下提取了。文本的形式如下：所见即所得，这个文本是有规律的，每个单词为一行，紧接着下一行便是单词的解释，有了这种规律我们就很好处理了。首先我们来将文件的数据读取出来：#coding:utf-8file_object = open

2017-08-11 15:41:25 35218

原创 vs2010调试程序

这里分享一个关于vs2010的简单的调试程序的一个视频，由于是自己随便结合例子录制的一个短视频，不足之处多多体谅。视频的链接为：链接：http://pan.baidu.com/s/1bJrBVg 密码：jci1。

2017-05-02 22:13:26 1244

原创数据结构（c++）（3）--简单的计算器

接着上一篇博客中关于栈在中缀表达式和后缀表达式中的应用，这次分享下自己的一个简单的计算器实现的代码。那就暴力简单些，直接上代码：类定义的代码如下：#ifndef CALCULATOR_H#define CALCULATOR_H#include#includeusing namespace std;class Calculator{public: Cal

2017-04-23 16:52:27 2836

原创数据结构（c++）(2)--栈的应用

接着上一篇博客中的栈，这次介绍下栈的一些应用。在看到的栈的这个特性后进先出的性质时，第一感觉就是这样做有什么用呢？把一个表的操作限制成这个样子，不是在削减吗？然而，在实际的应用中，这些存在于栈中的少数的操作却是非常的强大和重要。下面给出三个栈的应用

2017-04-22 23:40:02 2719 1

原创数据结构与算法（c++）--拓扑排序

这次来说一下拓扑排序的东西，仍是基于自己看的资料进行整理的（《数据结构与算法分析c++描述》这本书真的好，强烈推荐）。拓扑排序是对有向无环图的顶点的一种排序，它使得如果存在一条从Vi到Vj的路径，那么在排序的时候Vj将会出现在Vi的后面。

2017-04-16 19:21:54 4429 1

原创数据结构与算法（c++）--prim算法

刚好这次又遇到了prim算法，就做了下整理（可以参考《数据结构与算法分析c++描述》这本书，个人而言，很经典），并把以前写的代码也整理了一下，做下分享，同时也加深下自己的理解。 prim算法是解决最小生成树问题的一个很好的算法。此算法是是将点集合中的点一步步加到树中，在每一步中，都要把一个节点当作根本并往上加边，这样也就把相关联的顶点增加到树上了。这样说有点枯燥和...

2017-04-11 23:07:28 4673

原创 vs中输入输出流重定向到文件

vs中将输入输出流重定向到文件

2017-04-06 21:01:44 12539 6

原创 c++中sort等算法中比较操作的规则

sort函数在重写比较函数cmp的时候，提示错误invalid comparator

2017-04-05 23:30:16 7252 4

原创数据结构（c++）（1）-- 栈

最近在复习数据结构（我用的是数据结构与算法分析c++描述第三版的书，很不错的书，有兴趣的可以去看看）的相关知识，顺便就做了些整理，以供参考。栈（stack）是限制插入和删除操作只能在一个位置进行的表，该位置是表的末端，称为栈的顶。对栈的操作是push（入栈）和pop（出栈），前者相当于插入，后者则是删除最后插入的元素。最后插入的元素可以通过使用top方法在执行pop之前进行访问。对空栈的po

2017-04-02 23:40:52 609

原创文档的相似度（4）--总结

经过起那三篇博客的介绍，关于文档相似度的分析已经基本结束了，下面做下总结。此处给出一个完整的相似项发现方法：首先找出可能的候选对相似文档集合，然后基于该集合发现真正的相似文档。必须强调的是，这种方法可能会产生伪反例，即某些相似文档对由于没有进入候选对所以最终没有被识别出来。同样，该方法也可能产生伪正例，即在评估了某些候选对后，发现其相似度不足。（1）选择某个

2017-03-19 21:16:22 1491 2

原创文档的相似度（3）--局部敏感哈希算法

此篇博客将会接着上一篇博客继续文档相似度的分析。在上篇博客中我们已经可以利用最小哈希签名对文档间的相似度进行分析了，但是我们应该要发现，及时可以使用最小哈希签名将大文档压缩成小的签名同时保持任意对文档之间的预期相似度，但是高效寻找具有最大相似度的问的那个对仍是不可能的。主要原因在于，即使文档本身的数目并不很大，但需要比较的文档对的数目可能很大。例如：假定有100万篇文档

2017-03-19 21:02:33 4664 2

原创文档的相似度（2）--最小哈希签名

打开

2017-03-18 23:34:13 7781 4

原创文档的相似度（1）--Jaccard相似度与文档的shingling

在当今的计算机高速发展的时代，对于文章的查重等涉及到数据比对的需求越来越高了。为了识别字面上相似的文档，日常生活中我们所做的就是比对两个文档中相似的语句的比重，如果大部分内容都是相同的话，那么我们就会判定这两篇文档很大程度上是有抄袭嫌疑的。其实这个过程完全是可以类比到计算中来的，自己看了资料刚好写了一个简单的文档相似度分析的程序，刚好分享下。在编程中，我们可以利用集合的

2017-03-15 21:18:28 3431 1

原创 python分析作业提交情况

这次做一个比较贴近我实际的东西：要求：将服务器中交作业的学生（根据文件的名字进行提取）和统计成绩的表格中的学生的信息进行比对，输出所有没有交作业的同学的信息（学号和姓名），并输出所交的作业中命名格式有问题的文件名的信息（如1627406012_E03....）。提示：提示：1、根据服务器文件可以拿到所有交了作业的同学的信息。2、根据表格可以拿到所

2017-01-17 15:28:02 3068

原创 java操作mysql时执行带有日期语句的误区

最近在写服务器端的一些接口，在用java对mysql进行含有日期信息的查询的时候，遇到了一些问题，分享一下。首先把数据库中的一个用于用户签到的表的代码部分贴出来：create table signUpInfo(phoneNum nvarchar(11) not null, #手机号码signTime timestamp not null, #时间戳forei

2016-12-07 23:50:03 1630

原创 python3实现网络爬虫（7）-- 使用ip代理抓取网页

在抓取一个网站的信息时，如果我们进行频繁的访问，就很有可能被网站检测到而被屏蔽，解决这个问题的方法就是使用ip代理。在我们接入因特网进行上网时，我们的电脑都会被分配一个全球唯一地ip地址供我们使用，而当我们频繁访问一个网站时，网站也正是因为发现同一个ip地址访问多次而进行屏蔽的，所以这时候如果我们使用多个ip地址进行随机地轮流访问，这样被网站检测的概率就很小了，这时候如果我们再使用多个不同的he

2016-12-05 17:05:27 6726

原创 python3中eval函数用法简介

python中eval函数的用法十分的灵活，这里主要介绍一下它的原理和一些使用的场合。下面是从python的官方文档中的解释： The arguments are a string and optional globals and locals. If provided, globals must be a dictionary. If provided, locals can

2016-12-03 10:50:13 150356 30

原创 python3实现网络爬虫（5）--模拟浏览器抓取网页

本来准备继续分析BeautifulSoup的，但是好多网页都是反爬虫的，想分析没法分析了，那么就跳一节吧，我们先看看如何模拟浏览器进行访问网页，然后在折回去继续说BeautifulSoup。

2016-11-29 23:33:37 16764

原创 python中模拟浏览器抓取网页（-）

对于平时我们抓取网页的内容时，比较倾向于直接利用urllib进行抓取（这里我就基于python的2.7版本进行解说，对于python3之后的版本，是将python中的urllib和urllib2和并成了urllib），但有些网站设置了防采集的功能，会拒绝爬虫进行数据的采集，这时候便可以模拟浏览器进行网页访问，然后抓取需要的数据。下面是一个简单的访问：import urlliburl="ht

2016-11-25 19:22:53 26363 2

原创 python3实现网络爬虫（6）--正则表达式和BeautifulSoup配合使用

这一次介绍下正则表达式和BeautifulSoup结合使用。对于正则表达式，在python中是一种很好的工具，可与帮助我们匹配

2016-11-21 17:04:57 7987

原创 python3实现网络爬虫（4）--BeautifulSoup使用（3）

这一次我们继续来讲一下BeautifulSoup的相关知识，说一下BeautifulSoup导航树的相关内容。在上一次的博客中我们了解到findAll函数通过标签的名称和属性来查找标签，但有的时候在进网页中的内容爬取时，我们会发现有些我们想要获取的元素并不是都可以通过名称来获得的，因为我们要考虑到有些网站在编写的时候，只有一些需要特殊效果的标签会进行属性值的设置，而有些普通的标签是不会进行属性

2016-11-18 16:23:45 20244 1

原创 python3实现网络爬虫（3）--BeautifulSoup使用（2）

在这一次的内容中，我们继续讨论BeautifulSoup的一些操作，我们这次只讨论几个在实践中用处特别大的几个函数。

2016-11-11 22:16:53 7187 9

数据结构与算法分析C++描述第三版中文

空空如也