自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 文本分类

IntroductionText classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.The mainstream classifi...

2019-08-22 17:34:42 529

转载 NLP中Sequence-to-Sequence model代码详解

在NLP领域,sequence to sequence模型有很多应用,比如机器翻译、自动应答机器人等。在看懂了相关的论文后,我开始研读TensorFlow提供的源代码,刚开始看时感觉非常晦涩,现在基本都弄懂了,我在这里主要介绍Sequence-to-Sequence Models用到的理论,然后对源代码进行详解。sequence-to-sequence模型在NLP中最为常见的模型是lang...

2018-03-19 17:19:37 4409

转载 Celery的使用

Celery是一个专注于实时处理和任务调度的分布式任务队列。所谓任务就是消息,消息中的有效载荷中包含要执行任务需要的全部数据。使用Celery的常见场景如下:Web应用。当用户触发的一个操作需要较长时间才能执行完成时,可以把它作为任务交给Celery去异步执行,执行完再返回给用户。这段时间用户不需要等待,提高了网站的整体吞吐量和响应时间。定时任务。生产环境经常会跑一些定时任务。假如你有...

2018-03-16 10:52:16 419

原创 聊一聊自然语言理解

语义理解(NLU)仍然是学界的一个难题!给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。通常情况下,人在理解语义时头脑中会搜寻与之相关的知识。知识图谱的创始人人为,构成这个世界的是实体,而不是字符串,这从根本上改变了过去搜索的体系。语义理解其实是基于知识,概念和这些概念间的关系。人们在解答问题时,往往会讲述与这个问题相关的知识,这是语义理解的过程。这种机制完全不同

2018-03-09 14:57:47 909

转载 如何使用docker 对容器资源限制

在使用 docker 运行容器时,一台主机上可能会运行几百个容器,这些容器虽然互相隔离,但是底层却使用着相同的 CPU、内存和磁盘资源。如果不对容器使用的资源进行限制,那么容器之间会互相影响,小的来说会导致容器资源使用不公平;大的来说,可能会导致主机和集群资源耗尽,服务完全不可用。docker 作为容器的管理者,自然提供了控制容器资源的功能。正如使用内核的 namespace 来做容器之间的隔...

2018-02-25 11:24:52 1769

转载 Docker——容器 镜像

第一部分:Docker镜像的基本知识 1.1 什么是Docker镜像 从整体的角度来讲,一个完整的Docker镜像可以支撑一个Docker容器的运行,在 Docker容器运行过程中主要提供文件系统视角。例如一个ubuntu:14.04的镜像,提供了一个基本的ubuntu:14.04的发行版,当然此 镜像是不包含操作系统Linux内核的。说到此,可能就需要注意一下,linux内核和ubunt

2018-02-01 15:40:50 411

转载 OO设计的原则及设计过程

一.OO(面向对象)的设计基础面向对象(OO):就是基于对象概念,以对象为中心,以类和继承为构造机制,充分利用接口和多态提供灵活性, 来认识、理解、刻划客观世界和设计、构建相应的软件系统。面向对象的特征:虽然各种面向对象编程语言相互有别,但都能看到它们对面向对象基本特征的支持, 即 “抽象、封

2017-12-08 17:43:52 517 1

转载 Ubuntu /Spark单机环境搭建

安装与配置因为机器学习平台的需要特意学习了有关spark的相关内容。这一小节主要是记录下在Ubuntu 14.04下搭建Spark单机环境的过程。这个过程主要有四个部分:安装Java安装Scala安装Spark安装sbt安装Java下载Java SE,然后解压wget http://download.oracle.com/otn-pub/java/jdk/8u112-b15/jdk-8u1

2017-12-07 15:44:27 649 1

原创 自然语言处理-搭建文本分类器

一个完整的文本分类器主要由两个阶段,:一是将文本向量化,将一个字符串转化成向量形式;二是将向量喂到分类器,包括SVM, CNN,LSTM等等。这边做的项目其实阶段用的是 tf-idf 来进行文本向量化,使用卡方校验(chi-square)来降低向量维度,使用liblinear(采用线性核的svm) 来进行分类。而这里所述的文本分类器,使用lsi (latent semantic analysis,

2017-10-27 17:04:33 1179

转载 自然语言处理-中文分词方法总结

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。前人做的工作,已注明出处,我觉得相对很完整。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。竹间

2017-10-27 16:21:24 5323

原创 Mysql使用心得(2)

mysql中针对不同的数据选择相应的存储引擎mysql中也会针对不同的数据处理选择相应的存储的引擎mysql中也会针对不同的数据处理选择相应的存储的引擎mysql中一些授权(grant)等的一般是mysql中user表中进行mysql中授权问题,可以很细化,对用户可以赋予相应的你想要他拥有的权限mysql中常见的引擎有innoDB,CSV, myISAM…mysql中对数据的分布式的存储访问,同样的

2017-10-26 15:06:27 351

翻译 MySql的使用心得

最近用了一段时间的Mysql,再次谈谈个人的心得。1-在不同的数据库之间进行数据的同步,实现如Oracle Copy命令的功能。mysqldump -h db1host -uu1 -pp1 -P3306 db1name tabname –where “…” | mysql -h db2host -uu2 -pp2 -P3307 db2name mysqldump 和mysql 搭配使用 非常方便

2017-10-26 15:04:50 452

原创 自然语言处理-简介

写这个系列的原因是为了介绍下NLP在工业界的应用,顺便总结下工作。先做个简单介绍。Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between

2017-10-19 15:39:31 1016

原创 常用的Python os模块

模块的使用是Python 编程中比较重要的一环。os顾名思义是Operation System的意思。os模块包含普遍的操作系统功能,与具体的平台无关。以下列举常用的命令os.name——判断现在正在实用的平台,Windows 返回 ‘nt’; Linux 返回’posix’os.getcwd()——得到当前工作的目录。os.listdir()——指定所有目录下所有的文件和目录名。例: os

2017-10-17 19:29:59 384

转载 MySQL基本操作

环境:windows,MySQL Server 5.5,Navicat forMySQLMysql常用sql语句SQL分类:DDL—数据定义语言(CREATE,ALTER,DROP,DECLARE)DML—数据操纵语言(SELECT,DELETE,UPDATE,INSERT)DCL—数据控制语言(GRANT,REVOKE,COMMIT,ROLLBACK)首先介绍基础语句:2.1创建数据库CREA

2017-10-12 15:47:58 492

转载 Python模块学习:logging 日志记录

Python的logging模块提供了记录程序运行情况的日志功能,类似于Apache的log4j 许多应用程序中都会有日志模块,用于记录系统在运行过程中的一些关键信息,以便于对系统的运行状况进行跟踪。在.NET平台中,有非常著名的第三方开源日志组件log4net,c++中,有人们熟悉的log4cpp,而在python中,我们不需要第三方的日志组件,因为它已经为我们提供了简单易用、且功能强大的日志模

2017-10-12 15:36:35 279

原创 新华三软件开发面经

直接走的社招。面试流程,笔试-1面-2面。内容C的基础知识,实参形参,指针,大部分都是16进制的题,最后一个print 内存dump函数。新华三主要还是看你的编程思维还有看学校,本身进去难度不大。面试的内容,讲解了交换机的工作原理,各种TCP/IP 协定的相关内容。一些自己准备的内容直接粘过来了,有需要的道友可以多了解下。TCP的拥塞控制1.  拥塞:即

2017-08-31 22:51:50 8425

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除