无限大地NLP_空木-CSDN博客

原创 python若干小函数的使用

preface: 在使用python的路上，总会遇到各种问题，各种trick，正如《编写高质量代码——改善Python编程的91个建议》，以下也是自己在路上不断积累并且觉得有用的trick。1.字典的get()函数：

2015-09-03 20:43:49 2171

原创自然语言处理的一些工具文档介绍

NLP, NER, POS, CHUNK, 分词, tool,句法依存

2015-04-23 11:10:45 4486 1

numpy, pandas, sklearn, xml, networkx, ctype, nltk, matplotlib, gensim, sympy, pyspark, anaconda, crfsuite, polyglot, svmlight, libsvm, os, sys, carb, recsys, NuPIC, pybrain, nilearn, pattern, fuel, bob, skdata, milk, iepy, quepy, hebel, mlxtend, nolearn

2015-04-15 10:11:46 5286 3

原创 python——thefuzzy、difflib详解

preface：最近业务上涉及一些文本匹配计算的东西，包括以往也涉及到，用到模糊匹配，但之前并没有深究原理。这次详细看了下模糊计算的得分怎么计算的。编辑距离计算略。thefuzzy：python的模糊匹配包，java也有实现。里面基本上基于difflib来实现的。地址：https://github.com/seatgeek/thefuzz 安装：pip install thefuzzdifflib：计算两个字符串差异的包。有主要的SequenceMatcher类。SequenceMatc

2022-04-17 16:50:03 2792

原创 hive——常用

hive 一些常用基础函数

2022-01-22 23:44:06 2003

原创匹配算法——相亲男女匹配

时间：20210928背景：有个相亲活动，需要暗地里给男女进行匹配，毕竟明面上直接说不喜欢哪个异性总是尴尬的。匹配的话，方法众多，并不能让每个人都满意，根据各自的意向，总能计算整体意向都不错的。太长了不看，直接操作：线下让N对男女：写个小纸条，各自给N个异性排序，更喜欢的排在前面得到：女生的选择：womanChoices 女1：男2，男5，男1，.... 女2：... ... 女N：... 男生的选择：manChoices 同理操作：

2021-09-28 22:22:35 3375

原创 vim工具——常用插件

提高效率：善用工具、刻意练习。preface：偶然想用vim的插件，搜了下打算安装jedi，后面不可收拾，发现插件贼香，便删了sublime，一切代码都从vim，真正觉悟vim的强大。 vim插件太多，常用即可。知晓相关配置即可前置环境：mac、python vim：用系统自带的不够用vim --version（只提示支持python2，不支持python3）需要brew install vim安装（特别耗时） vim --version（显示提示支持python3即可）

2021-01-30 15:33:12 1348

原创 python——工作常用包合集

preface：工作中使用python进行处理常会遇到各种问题及技巧，为此汇总。python功能太多，记住常用即可。环境：python3.7及以上、macpython——pip、conda、ipython常用1：创建虚拟环境（从一个爸爸创造多个儿子，各个儿子之间环境不影响，同一个服务器上自己的python环境不被其他人干扰，自己的多个人可采用不同版本tensorflow包等等） which conda：查看当下是哪个condaconda env list：看看有哪些虚拟环境cond

2020-12-26 17:00:39 560

原创 python加速

Preface：许久没有更新博客了，把老夫以往整理的技术相关，再整理下。。目录一、cpython计算加速二、multiprocessing子进程加速v1三、multiprocessing子进程加速v2四、numba数值计算加速五、爬虫多线程加速一、cpython计算加速https://zhuanlan.zhihu.com/p/24168485二、multiproc...

2020-04-21 17:02:05 596

原创 python工具——pdfToTxt

preface：最近小妹需要将pdf文件转为word/txt，将里面的文字copy出来。一般可以复制的pdf可以使用adobe pdf之类的软件直接转，但是遇到不可复制的那种（比如截图到word转成的pdf），则没法用普通的软件转为word了。其次，网上的一些软件也声称可以转为word，但我实际上没遇到好使的，可能我尝试的少。列举下我尝试过的：1、比如https://smallpdf.com/...

2019-04-26 21:13:33 1093

原创 spark进行机器学习初探Demo

关键词：spark对象初始化 transformer定义 VectorAssembler特征合并 pipeline训练模型保存及测试结果保存from pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().getOrCreate()# 注意编码问题，python2.7...

2019-04-02 15:07:41 529

原创 NLP预处理——编码、繁转简、停用词、表情、标签

preface：随着经历的积累，觉得预处理问题愈发重要，需要整理整理。环境：mac，anaconda2目录一、文本编码转换二、繁转简三、停用词四、表情异常符号五、html/json/xml标签处理六、切割一、文本编码转换python2 VS python3 python2读取文件：默认asciii，类型为str 转为utf-8 demo： ...

2019-03-10 19:03:06 4825 1

转载 NLP工具——stanford coreNLP NER模块学习

环境Mac java1.8 Maven一、调用pom依赖 <dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</artifactId> <version>3.9.1</version&gt

2019-03-09 20:41:06 2299

原创 NLP工具——stanford Parser使用手册

Preface：工作两年多了，陆续接触过蛮多工具，时常没有时间整理整理，最近接触得多了，整理整理自己接触到的NLP这块工具环境：macOS anaconda2目录一、下载安装资源二、使用运行配置及栗子分词及POS命名实体识别句法分析依存句法一、下载安装 pip installstanfordcorenlp 资源下载模...

2019-03-09 20:27:43 17394 7

原创 Python 数据处理——小函数

preface：最近在整内比赛MDD。遇到一些数据处理方面的事情，用python pandas是最为方便的，远比我想象的强大。几行代码就完成了数据的处理，多个文件的融合，再用sklearn里面的模型跑一跑，就能得到结果。为此，经常记录下来，对数据处理的应用。一、Pandas合集df = pd.read_csv('%s/%s' % (input_path, file_name))

2017-10-24 10:29:13 1053

原创 JAVA FTPClient——远程文件操作

FTPClient使用初探

2017-10-17 11:35:59 4707 1

原创 Java JVM——基础概念介绍

Java jvm 深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)——周志明

2017-09-01 15:53:59 624

原创工具——intellij相关

Preface：已经不知不觉入职一个多月了。在公司里线上用java，线下可用python。目前熟悉上线流程、写脚本等工作，稍微写写java，尽管不是那么喜欢java，但写着写着发现还是可以的，只是环境配置啥的麻烦。而且公司统一用intellij，也要熟悉下新的工具，用着用着就发现这工具吊炸天了，相当方便，不过还是要多多记录积累下自己用过的快捷方式什么啥的，若干年后离开公司的话，公司里内部博客带不走

2017-03-01 11:45:09 827 1

原创 python算法——字符串表达式的计算

preface：最近有个面试，被要求给出一个字符串表达式，计算出结果。本以为是见到过的，想着用一个栈，然后被面试官打断说你这样是有问题的，然后想了说用树，又被打断说是有问题的，再仔细想想。结果还是没整出来。哎。回来翻了下leetcode发现有两道类似。leetcode 224 Basic Calculator https://leetcode.com/problems/basic-calc

2016-07-10 18:43:42 17258 3

原创 python lxml包——解析xml文件遇到的问题处理

preface: 最近的任务需要解析xml文件，毋庸置疑用lxml，普通的解析流程网上博客甚多w3cschool里的就足够了，不用再赘言。可是处理的文件里面，明明有那个结点但xpath就是找不到，不知道为何，查找资料用print大法找到了目标，先记录下来。print nodeprint node.attribprint node.xpath("child::*")print no

2016-05-03 23:01:54 4021

原创 python爬虫——基于selenium用火狐模拟登陆爬搜索关键词的微博

preface：最近的任务，还是爬微博。之前的用不上，post提交，还是不太熟悉，模拟登陆不了，故换种方式，用selenium模拟登陆，从此任何登录以及js调用都是浮云，我模拟登录分分钟解决。之前的时而有用，时而没用，不稳定，写得不够鲁棒。但这次，真能够抓取微博，表示还是有点进步的。主要任务是通过搜索关键词，爬取跟关键词有关的微博。主要流程：用selenium模拟鼠标键盘登录；

2016-04-23 11:40:25 6432 6

翻译 SVMrank——Support Vector Machine for Ranking(SVMrank——使用svm的排序)

preface：最近所忙的任务需要用到排序，同仁提到SVMrank这个工具，好像好强大的样纸，不过都快十年了，还有其他ranklib待了解。原文链接：SVMrank，百度搜索svm rank即可。SVMrank基于支持向量机的排序作者：:Thorsten Joachims 康奈尔大学计算机系版本号：1.00日起：2009年3月21总览

2016-04-01 16:58:01 13219

原创 python数据结构——层次遍历的两种方法

preface:主要是最近用层次遍历比较多，先中后序的遍历都有递归与非递归的方式，也比较容易明白，但层次不是很熟悉，自己不是很擅长，故记录下来。递归与非递归class TreeNode(object): def __init__(self, x): self.val = x self.left = None self.right

2016-03-28 14:56:28 3200

转载 python函数——编码问题——str与Unicode的区别

一篇关于STR和UNICODE的好文章整理下python编码相关的内容注意: 以下讨论为Python2.x版本, Py3k的待尝试开始用python处理中文时，读取文件或消息，http参数等等，一运行，发现乱码(字符串处理，读写文件，print)，然后，大多数人的做法是，调用encode/decode进行调试，并没有明确思考为何出现乱码，所以调试时最常出现的错误：

2016-03-25 13:16:24 6504

原创 python 爬虫——针对query爬取百度百科页面

Preface:最近有些事情，需要爬取百度百科的东西，以前的给忘光了，不用就会忘记，还好有部分记录，可是以前大部分都因为没有记录又重新查找了很多东西，所以说经常记录很有必要。coding:import codecs#用于打开文件夹保证编码格式import urllib2#用于爬取import re#用于匹配找到urlimport os#用于创建文件夹from bs4

2016-03-15 22:45:49 3154

翻译 TREE KERNELS IN SVM-LIGHT---在svm-light中树核的使用（翻译）

preface：树核是一个计算相似度比较强大的工具。在nlp领域里面对句子的语义分析，解析出句法分析树，通过比较树的结构，对比不同句子的相似度等等，可以应用到很多方面。其中树核早就在svm-light这个强大的工具里面实现了，只需要将需要的句子的语义解析树作为输入，就能对任务进行分类，可以应用于多类nlp任务中。Tree kernels in svm-light原文的介绍也比较详细（百度svm tk即可），卤煮这里也是根据自己的理解稍微记录点东西。

2016-03-10 17:24:25 4331

转载 Python sklearn包——mnist数据集下不同分类器的性能实验

Preface：使用scikit-learn各种分类算法对数据进行处理。2.2、Scikit-learn的测试 scikit-learn已经包含在Anaconda中。也可以在官方下载源码包进行安装。本文代码里封装了如下机器学习算法，我们修改数据加载函数，即可一键测试：classifiers = {'NB':naive_bayes_classifier,

2016-03-03 20:35:02 7556

原创 python sklearn包——混淆矩阵、分类报告等自动生成

preface：做着最近的任务，对数据处理，做些简单的提特征，用机器学习算法跑下程序得出结果，看看哪些特征的组合较好，这一系列流程必然要用到很多函数，故将自己常用函数记录上。应该说这些函数基本上都会用到，像是数据预处理，处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果，得出报告。1.输入从数据集开始，提取特征转化为有标签的数据集，转为向量。拆分成训练集和测试集，这里不多讲，在

2016-02-29 23:09:59 38816 3

原创 python sklearn包——grid search笔记

Preface：算法不够好，需要调试参数时必不可少。比如SVM的惩罚因子C，核函数kernel，gamma参数等，对于不同的数据使用不同的参数，结果效果可能差1-5个点，sklearn为我们提供专门调试参数的函数grid_search。在sklearn中以API的形式给出介绍。在离线包中函数较多，但常用为GridSearchCV()这个函数。1.GridSearchCV:看例子最为

2016-02-27 11:33:43 33908 1

原创 python sklearn包——3.1cross validation笔记

preface：做实验少不了交叉验证，平时常用from sklearn.cross_validation import train_test_split，用train_test_split()函数将数据集分为训练集和测试集，但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们提供了函数，我们只需要调用即可。sklearn包中cross validation的介绍：在这里。

2016-02-27 11:06:11 14766

转载 Python Argparse包——命令行解析工具

最近在研究pathon的命令行解析工具，argparse，它是Python标准库中推荐使用的编写命令行程序的工具。用python来实现命令行，核心计算模块可以用c自己写扩展库，效果挺好。学习了argparse，在官方文档中找到一篇toturial，简单翻译了下。http://docs.python.org/2/howto/argparse.html#id1Argpa

2016-01-11 21:03:27 1725

转载漫谈：机器学习中距离和相似性度量方法

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个准则：1) d(x,x) = 0 // 到自

2016-01-11 20:52:42 1074

原创 Python爬虫——爬取网页中的图片小试牛刀

Preface：以往爬取文本，这次需要爬取图片pdf，先上手一个例子，爬取pdf，先取得url，然后通过urllib.urlretrieve函数将url的网页内容远程下载到本地，第一个参数为url，第二个参数为文件名(代码中有误)，第三个参数为回调函数，可以显示下载进度。另外，当需要爬取动态网站的图片时，用urllib.urlretrieve满足不了我们的要去需要"get"，使用request.g

2016-01-06 21:57:34 3610

原创 python 爬虫及multiprocessing包——多线程爬取并解析百度贴吧某贴小trick

preface:看极客学院关于xpath的视频时，偶然看到可以用multiprocessing进行多线程爬取网页，只有小段代码，故先贴出来。mark下。coding:#!/usr/bin/env python# coding=utf-8from multiprocessing.dummy import Pool as ThreadPoolimport requestsimpor

2015-11-10 22:00:19 2504

转载算法编程——罗塞塔代码RosettaCode-你的代码烹饪书（code cookbook）

奥莱里公司有一个很不错的书籍系列，是以xxx cookbook为名，比如Ruby cookbook、rails cookbook、python cookbook、c# cookbook等等。这些书当然不是让你用Ruby或者Python煮菜，而是对特定比较典型不是很复杂的任务能够快速上手的代码示例。但是不是每个语言都有类似的出版物，比如F#或者Lua这类语言，不太可能有它们的cookbook

2015-11-02 11:42:22 2503

原创 linux 工具——终端分屏与vim分屏

preface：不知不觉在终端下学习干活一年多，终端开多了成了习惯，之前嫌麻烦没用分屏，而当真正用起来比想象中的简单，终端下的分屏命令tmux及vim自带分屏命令vsp都相当不错，加快干活效率。1、终端分屏tmux功能：提供了强劲的、易于使用的命令行界面。可横向和纵向分割窗口。窗格可以自由移动和调整大小，或直接利用四个预设布局之一。支持 UTF-8 编码及

2015-10-29 20:36:49 44938

转载 python数据结构——排序算法——八大排序算法的Python实现

1、插入排序描述插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中，从而得到一个新的、个数加一的有序数据，算法适用于少量数据的排序，时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分：第一部分包含了这个数组的所有元素，但将最后一个元素除外（让数组多一个空间才有插入的位置），而第二部分就只包含这一个元素（即待插入元素）。在第一部分排序完成后，再将这

2015-10-27 21:25:53 1037

原创 python 爬虫——抓取去哪儿网站景点部分信息

preface: 最近一个同学需要收集去哪儿网的一些景点信息，爬虫上场。像是这么有规律的之间用urllib及BeautifulSoup这两个包就可破。实际上是我想少了。一、抓取分析http://piao.qunar.com/ticket/detail_1.html及http://piao.qunar.com/ticket/detail_1774014993.html分别为齐庐山和西海景

2015-10-22 09:17:04 7629

原创 word2vec找文本相似词小试牛刀

preface: 找出语料中跟某个词类似的词。word2vec作为google的一个开源工具，比较强大，效果也比较好，便试试。一、工具下载：http://word2vec.googlecode.com/svn/trunk/（翻墙）也可以从CSDN下载：http://download.csdn.net/detail/hortond/8095703官方教程：https://co

2015-10-20 11:48:36 10654 3

转载 python sklearn包——cross-validation

官方cross-validation模型评估方式详细说明模型评估（预测的质量）：存在三种方式来评估预测结果的质量1、Estimator score method：每个估计模型都有自己的评价方式，可以直接使用2、Scoring parameter：模型评价工具使用cross-validation(cross_validation.cross_val_score和grid_s

2015-10-19 15:02:54 7435