自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

柯小黑的博客

虽然我黑,但是个小白

  • 博客(28)
  • 收藏
  • 关注

翻译 yield from

官方解释: Python3.3版本的PEP 380中添加了yield from语法,允许一个generator生成器将其部分操作委派给另一个生成器。其产生的主要动力在于使生成器能够很容易分为多个拥有send和throw方法的子生成器,像一个大函数可以分为多个子函数一样简单。Python的生成器是协程coroutine的一种形式,但它的局限性在于只能向它的直接调用者yield值。这意味着那些包

2016-06-12 12:29:13 11935 2

转载 Pandas常见困惑问题汇总

asix参数含义原文请见:Python Pandas与Numpy中axis参数的二义性 从例子入手:>>>df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], \columns=["col1", "col2", "col3", "col4"])>>>df col1 col2 col3 col4 0

2018-01-29 21:58:02 2499

翻译 10分钟了解Pandas基本用法

本文适合初学者快速了解Pandas库。 原文链接:10 Minutes to pandas 首先,导入我们需要Python包:In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: import matplotlib.pyplot as pltPandas数据对象Series:与Python中的list数

2018-01-29 20:26:27 2242 1

翻译 使用Pandas实现SQL基本操作

使用Pandas实现SQL的基本功能由于很多潜在的Pandas用户对SQL更为熟悉,因此本文提供许多使用Pandas实现SQL基本操作的例子以供参考。 如果是Pandas的初学者,可以首先通过“十分钟了解Pandas”了解Pandas库。准备工作:导入Pandas库、numpy库,并使用Pandas测试数据库tips导入为DataFrame格式(Pandas两种数据结构之一)。

2018-01-28 22:01:02 28288 6

原创 NumPy学习(二)

其他基本用法:广播(Broadcasting) 广播规则解释NumPy如何处理不同维度数组之间的算数运算问题。在一定条件下,维度较小的数组广播为更大的数组,使他们具有相同的维度形状。广播提供了一种向量化数组操作方法,使得循环发生在C而不是Python。广播不会产生没必要的数据复制,通常会使算法运行更加有效。缺点是,广播会使内存的使用效率降低,并影响计算速度。 NumPy运算执行在数组的每个元

2016-06-17 10:14:04 2622

原创 NumPy学习(一)

基础NumPy的主要对象是齐次多维数组。表由相同类型的元素组成(通常为数字),由一个正整数元组索引。在NumPy中维数被称为轴,轴数称为秩。例如,一个三维空间中点的坐标[1,2,1]是一个秩为1的数组,因为其轴数为1,轴的长度为3。在下图中,数组的秩为2(2维),第二维的长度为3。 [[ 1., 0., 0.], [ 0., 1., 2.]]NumPy的数组类是ndarray,也称array。需

2016-06-13 17:30:08 12586

原创 Affinity Propagation: AP聚类算法

算法概述原文:

2016-06-11 16:26:14 44900 6

原创 python yield 由浅入深

生成器表达式生成器表达式的标准方式是以圆括号的形式,括号内可以是一个列表推导式。generator_expression ::= "(" expression comp_for ")"生成器表达式生语法和列表推导式相同,列表推导式是以大括号的形式存在。列表推导式是直接创建一个列表,但是由于受到内存的限制,列表的容量有上限,而生成器则不需要一下子创建完整的列表,而是一边循环一边计算。生成器表达式生成

2016-06-08 16:39:33 721

原创 LTP 语言技术平台 在linux下的安装配置

官方教程:http://ltp.readthedocs.org/zh_CN/latest/install.html个人总结:

2016-04-27 14:06:58 5274

原创 LDA2vec: LDA + word2vec

LDA2vec:Christopher Moody在2016年一月提出的一种新的主题模型算法。学习资源如下github:https://github.com/cemoody/lda2vecPPT分享:http://pan.baidu.com/s/1gewC1mbLDA2vec与LDA的简单比较:http://www.datasciencecentral.com/profiles/b

2016-04-26 14:23:02 14938 5

转载 Python 编码规范

Python 编码规范

2016-04-20 10:23:50 514

翻译 Big Code简介

今天看到个特别有意思的东西,Big Code,感觉离拥有个编码机器人根据自己以前的代码自动编码的日子不远了!项目地址:Big Code为了更好的了解,边看边翻译。英语水平初级,还请包涵。英语棒的童鞋可以直接看官网。1.简介:就像大量的网络数据使大数据应用成为可能一样,目前,大量的程序知识资源库(例如Github上的开放源代码资源)使得新的利用这些“Big Code”资料库的应用成为

2016-04-16 09:59:08 2663

原创 排序算法 及其稳定性解释

排序算法的稳定性是指在待排序的序列中,存在多个相同的元素,若经过排序后这些元素的相对词序保持不变,即Xm=Xn,排序前m在n前,排序后m依然在n前,则称此时的排序算法是稳定的。下面针对常见的排序算法做个简单的介绍。稳定排序算法:冒泡排序、插入排序、归并排序、基数排序不稳定排序算法:选择排序、快速排序、希尔排序、堆排序

2016-04-03 16:53:10 4754

原创 华为 2016实习生 上机考试 题目

第一题:字符串去掉重复的字符第二题:简单的均值滤波算法第三题:大数求余

2016-04-02 15:25:49 6610

原创 华为招聘练习--小明的筷子

描述:    小明是个马大哈,某天他到超市买了若干双筷子(小于20)    筷子的长度不尽相同,他把全部筷子都放在购物袋里面拿回家,路上不小心漏了一根    请你用程序帮他找出漏掉的筷子是多长的。输入:第一行:非负的整数, 剩下的筷子的根数; 例如:7第二行:剩下的筷子的各个长度值。例如:1 2 3 2 1 3 2(每

2016-03-25 16:11:39 916

原创 计算矩阵行列式时奇排列与偶排列的判定

在计算矩阵行列式时需要判断求和公式中矩阵元素第二个脚标的排列的奇偶性来决定这一求和项的正负。定义:降序次数为偶数的排列为偶排列;降序次数为奇数的排列为奇排列。例如排列(2,3,1):从左往右看,2与其后元素相比有降序,即2大于1;3与其后元素相比有降序,即3大于1;1无降序;则排列降序次数为2次,因此为偶排列。例如排列(1,3,2):从左往右看,1与其元素无降序,3与其后元素有降序,2

2016-03-24 10:24:49 22492

转载 windows Bat 批处理脚本 教程

文章来源:BAT 批处理脚本 教程第一章 批处理基础第一节 常用批处理内部命令简介批处理定义:顾名思义,批处理文件是将一系列命令按一定的顺序集合为一个可执行的文本文件,其扩展名为BAT或者CMD。这些命令统称批处理命令。小知识:可以在键盘上按下Ctrl+C组合键来强行终止一个批处理的执行过程。了解了大概意思后,我们正式开始学习.先看一个简单的例子!@echo off

2016-03-22 18:54:43 865

原创 windows bat脚本for循环中对变量循环赋值

需求描述:循环读取一个文件夹中每个文件的绝对地址,打印文件绝对路径,并使bianli。解决方法:开启变量延迟,并且变量要用一对叹号“!!”括起来。@echo offsetlocal enabledelayedexpansionset /a v=0for %%i in (d:\MyProject\pythonProjects\data\*.txt) do (echo %%iecho

2016-03-22 17:06:10 46058

原创 python3 urllib 链接中有中文的解决方法

环境python3,开发平台pycharm,使用urllib时,当url中存在中文时会出现以下错误:UnicodeEncodeError: 'ascii' codec can't encode characters in position 69-78: ordinal not in range(128)解决方法单独处理url中的中文如:import urllibs=‘中文’

2016-03-22 11:15:46 7283 4

原创 win7(64位)下使用ltp(一):API调用

ltp是哈工大的自然语言处理包

2016-03-21 19:59:19 3288 2

原创 win7(64位)下安装ubuntu14.04.4 LTS双系统操作说明

笔记本配置处理器:Intel Core(TM)i5;内存:8G;已安装win7家庭普通版操作系统准备安装Ubuntu 14.04.4 LTS (64位),本文是按照 Win7下U盘安装Ubuntu14.04双系统步骤详解,操作后根据本人遇到的问题的汇总和补充。利用U盘制作双系统。前期准备:(1)下载Ubuntu 14.04.4 LTS的64位iso文件,地址 http://www.

2016-03-21 13:06:52 5179 2

转载 Python爬虫之URLError异常处理

最近在爬虫是总会碰到HTTP Error问题,找到一篇正解,特此mark下。熟悉各种异常类型后,可以捕获异常并进行相应处理,保证程序正常运行。原文地址:Python爬虫入门(5):URLError异常处理1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-exce

2016-03-14 14:59:29 1703

原创 NLPIR2016分词的python3实现

最近喜欢用python,正好NLPIR有python的实现,就mark一下。之前在实现时碰到些问题,多亏原作者中国科学院心理研究所郝碧波的帮助,可以关注其微博@Peter_Howe。项目准备:(1)把下载的NLPIR项目下的Data包复制到python实现项目下。(2)根据自己操作系统的位数选择相应的库文件。此时直接运行 nlpir.py 程序会报错:ctypes.Argument

2016-03-12 19:54:43 4681 4

原创 NLPIR2016相关功能的java实现

NLPIR是张华平博士及其团队研发的,是由ICTCLAS中科院汉语词法分析(分词)系统发展而来的。http://ictclas.nlpir.org/。现在更名为NLPIR,集合了更多的汉语词法分析功能,最新的2016版包括主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。并且在此基础上,开发了NLPIR大数据搜索与挖掘平台,平台展示界

2016-03-06 13:39:42 5398 1

原创 LDA(Latent Dirichlet Allocation)相关论文阅读小结

关于主题挖掘,LDA(Latent Dirichlet Allocation)已经得到了充分的应用。本文是我对自己读过的相关文章的总结。 1. 《LDA数学八卦》http://pan.baidu.com/s/18KUBG 把标准LDA的由来讲解得通俗易懂,细致入微。真的是了解LDA的最佳入门读物。 Gamma函数: 通过分部积分可以推导其具有递归性质 ,因此Gamma函数可以当成是阶乘在实数

2016-03-02 09:38:05 4579

原创 概率论与数理统计(陈希孺)学习笔记

由于平常学习自然语言处理的很多算法都来源于概率论和数理统计,因此找来陈老先生的著作温习巩固一下。具体内容请参考原著,本文仅作个人学习记录。1.基本概念主观概率:可以理解为一个人针对某一事件的一种心态或倾向性。这种倾向性一是根据其经验和知识所得,还有可能是根据其自身利害关系所得。主观概率虽然不具有坚实的客观理由基础,但是它却广泛存在于我们的生活当中,并可能反映认识主体的一种倾向性,因而具有其

2016-02-29 16:48:21 23215 3

转载 AMiner背后的技术细节与挑战

最近准备研究如何自动挖掘研究者的兴趣,读到这篇文章,与大家分享,共同学习。摘要:AMiner利用数据挖掘和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别等众多功能。学术文献记载着科学的发展和进步,在科技日新月异高速发展并成为“第一生产力”的今天,学术信息,包括:论文,作者

2016-02-28 17:14:33 8484

原创 数学之美学习笔记

16年一月份阅读了吴军的《数学之美》,真有种相见恨晚的感觉!对于刚刚学习自然语言处理的人来说,这是最佳入门读物,没有之一。下面是我在学习中做的一些知识点的阅读笔记,有些内容、公式摘自Tomas M.Cover的《信息论基础》,详情请参考原著,本文仅作个人阅读笔记学习使用。1.熵、联合熵、条件熵、互信息、相对熵信息的作用是排除不确定性,信息量就得关于不确定性的多少。对于任意一个随机变量X

2016-02-22 15:11:21 2329

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除