- 博客(32)
- 资源 (5)
- 收藏
- 关注
原创 服务器上配置jupyter
centos配置jupyter第一步安装anaconda:首先在anaconda的官网 下载anaconda安装:输入:bash Anaconda2-5.0.1-Linux-x86_64.sh输入:ENTER输入:3个 yes如果完成anaconda的安装,出现了jupyter和conda不是内部命令,是路径没有更新的原因,输入source ~/.bashrc尝试启动jupyter,
2017-12-20 16:58:22 8570
原创 numpy的用法part1
基本的numpy用法shape函数:numpy.core.fromnumeric中的函数,它的功能是查看矩阵或者数组的维数。>>> e = eye(3) # 3*3的单位矩阵>>> e array([[ 1., 0., 0.], [ 0., 1., 0.], [ 0., 0., 1.]]) >>> e.shape (3, 3) #
2017-12-13 22:12:29 355
原创 HIVE的使用
hive笔记数据库的创建和删除CREATE DATABASE|SCHEMA IF NOT EXISTS <database name>;DROP DATABASE IF EXISTS <database name>;#-----------------------------------------创建时添加db文件保存在HDFS的路径CREATE (DATABASE|SCHEMA) [I
2017-12-08 15:25:56 300
原创 hive:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
异常情况: Exception in thread “main” java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.Sessi
2017-12-08 15:23:10 875
原创 nohup详解
功能:使程序在后台运行,当连接服务器终端时,程序还在运行后台运行的命令nohup python 文件名.py &# 会出现一个进程后,记住这是该程序的进程号,# 后期如果想要停止,可以使用该命令:kill -9 进程号nohup 使用说明nohup运行的输出,都在nohup.out的文件中,会经常更新,如果想要显示,可以使用下面的命令1. head 10 nohup.out #查看文件
2017-08-09 09:32:47 1073
原创 beanstalkd 的安装和使用
Beanstalkd工作队列Beanstalkd 是什么 Beanstalkd是目前一个绝对可靠,易于安装的消息传递服务,主要用例是管理不同部分和工人之间的工作流应用程序的部署通过工作队列和消息堆栈,类似于其他受欢迎的解决方案,比如RabbitMQ。然而,创建Beanstalkd使它有别于其他工作。Beanstalkd旨在成为一个工作队列,而不是一把雨伞工具来满足许多需求。为了实现这一目的,它作
2017-07-09 20:32:57 5626 2
原创 hashlib模块
hashlib 模块hashlib 模块的简介hashlib 是 Python内置摘要算法的标准库,提供的算法有 md5, sha1, sha224, sha256, sha384, sha512. 另外,模块中所定义的 new(name, string="") 方法可通过指定系统所支持的 hash 算法来构造相应的 hash 对象;也支持创建OpenSSL里提供的算法对象。摘要算法又称哈希算法
2017-07-04 17:43:59 676
原创 seed随机数---startswith和endswith函数的使用
startwith 和 endwithstartswith() 函数判断文本是否以某个或几个字符字符开始,endswith() 函数判断文本是否以某个或几个字符字符结束。text = "wid ee de de de ed efnrfr"print text.startswith('wid')print text.startswith('w')print text.startswith('
2017-07-03 22:11:40 352
原创 python的装饰器和find函数的使用
python 装饰器的使用功能:1. 统计一个函数执行时间;2.判断某个函数是否出现异常;3.参数检查;4.代理,和上下文提供者统计函数的执行时间def timer(func): def _timer(*args,**kwargs): #参数是函数调用传递过来的参数 begin=time.time() func(*args,**kwargs)
2017-07-03 22:05:30 357
原创 gethostbyname和hasattr, getattr, setattr函数的使用
gethostbyname 函数功能:获取url 的域名的 IP,而不是整个URL的 IPfrom socket import gethostbynameurl = "https://www.crifan.com/python_re_sub_detailed_introduction/"# 获取的是域名的 IP,不是整个URL的 IPprint gethostbyname('www.cri
2017-07-03 22:03:10 311
原创 centos7重新调整分区大小
centos 7 调整 root 和 home 的容量大小查看磁盘的空间大小: df -h 备份/home : cp -r /home/ homebak/卸载 /home : umount /home 如果出现 home 存在进程,使用 fuser -m -v -i -k /home 终止 home 下的进程,最后使用 umount /home 卸载 /home删除/home所在的
2017-06-22 16:19:22 55610 9
原创 liunx 网络管理
liunx 网络管理ifconfigifconfig 命令主要用于配置网络接口,如果不加任何参数,则 ifconfig 命令用于查看当前所有活动网络接口的状态信息,图中的 eth0 表示活动的以太网接口,对应的描述信息中给出了网络的整体状况信息包括网络类型、MAC地址、IP地址、子网掩码等等,lo表示本地环回网络地址。从图中可以看到,所有的网络类型都是inet即基于TCP/IP协议的网络。 i
2017-06-15 09:17:43 331
原创 vi 和 vim 的基本用法
vi 和 vim 的基本用法vi 和 vim 是 liunx 内置的编辑器。vi编辑速度是最快的;vim编辑器可以看作vi的高级版本,它实现了用颜色来进行特殊信息的显示。vim 和 vi 编辑器的三种模式一般模式: vim 文件名 (直接进入一般模式):在一般模式下,可以进行上下左右的光标移动、删除字符、行,还可以进行复制和粘贴操作编辑模式,在一般模式中按 i,l,o,O,a,A,r,R 等
2017-06-14 17:11:01 550
原创 liunx 文件系统
liunx 文件系统访问控制列表 (ACL) 在实际使用使用过程中,可能linux系统自身权限控制不能满足要求,还需要进一步细化,此时可以用ACL(Access Control List)进行,它主要提供 owner,group,others 的 read,write,execute 权限之外的细部权限配置。它可以针对单一使用者,单一文件或目录来进行 r,w,x的权限规范,对于需要特殊权限的使
2017-06-14 11:25:25 322
转载 liunx 的用户和组
liunx 的用户和组linux是一种多任务、多用户的操作系统。用户是能够获取系统资源的权限的集合,组是权限的容器 与Linux用户信息相关的文件有两个,分别是/etc/passwd, /etc/shadow ,使用命令more /etc/passwd 查看。文件内容的格式为 account : 用户名或帐号 password :用户密码占位符 UID:用户的ID号
2017-06-13 11:38:50 369
原创 liunx命令学习
liunx 系统学习简单的命令pwd :当前工作的目录ps -x :查看所有的进程和状态kill -9 进程号:杀死指定的进程号的进程sudo passwd :命令修改root密码su(switch user)命令切换用户cd / :表示切换到根目录下,不是rootcd ~ : (~表示当前用户默认的工作目录):切换回当前用户的工作目录ls : 简易列出目录中的所有文件和目录ls
2017-06-12 22:30:16 219
原创 Python的copy模块
Python 的copy模块copy模块包括创建复合对象 (包括列表、元组、字典和用户定义对象的实例) 的深浅复制的函数。浅复制,就是拷贝了对象,而深复制就是引用对象还是指向内存空间的同一块地方copy(x)创建新的复合对象并通过引用复制x的成员来创建x的浅复制。更加深层次说, 它复制了对象,但对于对象中的元素,依然使用引用。一般不使用copy.copy(x) 是因为:使用诸如list(x
2017-06-05 11:10:48 792
原创 Python 中 os 模块的使用
os模块的使用使用os模块可以块数,简洁的得到自己想要的路径,文件,以及实现一些跨平台的操作,下面主要介绍os模块的一些常用的函数#获取当前目录os.getcwd()#获取当前目录的上一级目录os.path.dirname(os.getcwd())#当前目录下的文件路径(join中可以有多个级别的路径)os.path.join(os.getcwd(),'filename')#判断路径是否存在在
2017-05-26 15:18:33 605 1
原创 keras配置TensorFlow_or_theano
keras backend 简单介绍本文简单介绍 Keras 的两个 Backend,也就是Keras基于什么东西来做运算。Keras 可以基于两个Backend,一个是 Theano,一个是 Tensorflow。如果我们选择Theano作为Keras的Backend, 那么Keras就用 Theano 在底层搭建你需要的神经网络;同样,如果选择 Tensorflow 的话呢,Keras 就使用
2017-05-26 15:17:46 11287 2
原创 keras安装问题处理
Python.h No such file or directory可能是centos没有python-devel检查是否有python-develyum search python | grep python-devel如果没有,安装python-develyum install python-develgrap的作用 Linux系统中grep命令是一种强大的文本搜索工具,它能使用正
2017-05-23 15:28:41 356
原创 java修饰词的详细的说明
Java的访问权限的详细说明java 的访问权限有四个:public、protected、default、private(成员前面不加任何权限修饰符) 11个java修饰词的介绍1.public 使用对象:类、接口、成员 介绍:无论它所处在的包定义在哪,该类(接口、成员)都是可访问的2.private 使用对象:成员 介绍:成员只可以在定义它的类中被访问3.static 使用对象:
2017-05-19 22:20:55 949
原创 None和空串的区别
python中None 和 ”的区别None是一个特殊的对象,即空对象>>>type(None)<class 'NoneType'>” 是一个字符串类型的值>>>type('')<class ''str'>判断的值都是Falseif None: print "1212"if '': print "33333"#"控制台无输出结果"None是一个特殊的对象常量。
2017-05-18 18:41:00 986
原创 ROC曲线的理解
ROC曲线的理解和python绘制ROC曲线ROC曲线的理解考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True nega
2017-05-18 14:30:44 4980
转载 人工智能和NLP的关键技术和应用领域
人工智能的概述AI 指代「人工智能」,是让机器能够像人类一样完成智能任务的技术。AI 使用智能完成自动化任务。人工智能包含两个关键点: 1. 自动化 2.智能人工智能的目标推理自动学习&调度机器学习自然语言处理计算机视觉机器人通用智能
2017-05-08 19:07:11 7967 1
原创 深度学习涉及的数学知识
向量在线性代数中,标量(Scalar)是一个实数,而向量(Vector)是指n 个实数组成的有序数组,称为n 维向量。如果没有特别说明,一个n 维向量一般表示列向量,即大小为n *1 的矩阵。 向量符号一般用黑体小写字母a,b,c或小写希腊字母 等来表示
2017-05-07 20:54:11 5061 1
原创 python正则匹配的知识总结
一、基本的正则表达式的处理流程 Python 正则表达式是处理字符串的常用工具,虽然没有字符串自带的处理效率高,但是其强大的普适应功能,是其被广泛应用的基础。具体的流程如下图所示: 正则表达式的大致匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则
2017-04-23 22:21:17 756
原创 A Text Clustering Algorithm Using an Online Clustering Scheme for Initialization(基于在线聚类策略的文本聚类算法)
一、研究内容 文本聚类广泛的应用于文本的检索,信息的抽取和人名消歧等方面。本文提出了一种基于在线聚类策略的文本聚类算法,即FGSDMM+. 该算法假设语料库中至多有 个潜在的类别,并在算法开始时,认为语料库中真的有 个潜在的类别。初始化过程中,第一个文本选择一个潜在的类别,同时FGSDMM+ 创造一个新的类别去存储这个文本;后来的文本,根据狄利克雷和多项分布的混合模型推
2017-04-13 22:26:35 2797
原创 Python的编码问题
一、常识知识 字节与字符:计算机存储的一切数据,文本字符、图片、视频、音频、软件都是由一串01的字节序列构成的,一个字节等于8个比特位。而字符就是一个符号,比如一个汉字、一个英文字母、一个数字、一个标点都可以称为一个字符。 字节方便存储和网络传输,而字符用于显示,方便阅读。例如字符 "p" 存储到硬盘是一串二进制数据 01110000,占用一个字节的长度。
2017-04-10 22:20:22 384
原创 正态分布的读后感
随机变量的误差------------服从正态分布注:随意的一个概率分布中生成的随机序列变量,在序列求和(等价于均值),都服从正态分布。更一般的情况:当X1,X2……XN 不独立,也不具有形同的概率分布形式,很多时候的序列求和的最终归宿也是正太分布。如下图所示: [中心极限定理充要条件] 假设独
2017-04-10 21:59:35 1732
原创 TF-IDF算法
一、TF(Term Frequency)词频 用词频去衡量关键字,会出现一个问题,就是文本中的 “的” 或是 “是”出现的频率会很高,还有就是一些常见的名词的频率也会很高,到是这些并不是我们需要的关键字的,不能代表文本。因此,就需要为词分配一个权重,最常见的给予的权重较小,较少见的给予的权重大。二、逆文档频率(Inverse Document Frequency)IDF
2017-04-10 21:30:22 397
原创 基于神经网络语言模型的中文新闻文本聚类算法
一、新闻文本集 其中 通过TF-IDF排序 中的词(由大到小),选择其中的 t 个词作为关键字,,是对应关键字的TF-IDF值。二、神经网络语言模型输入:该词的上下文中相邻的几个词向量(词袋模型)输出:p(wi | context) ,该词的词向量。通过神经网络语言模型,可以得到新闻词集合 W 中每个词 的词向量;也就是得到了关键字集合 中的每个关键
2017-04-06 21:26:04 5766 2
原创 Java版的最长公共子序列
最长公共子序列(LCS)定义:一个数列 S,如果分别是两个或多个已知数列的子序列,且是所有符合此条件序列中最长的,则 S 称为已知序列的最长公共子序列。比如数列A = “abcdef”, B = “adefcb”. 那么两个数列的公共子序列是"adef". 最长公共子序列和最长公共子字符串是有区别的,公共子序列里的元素可以不相邻,但是公共子字符串必须是连接在一起的。比如A和B的公共
2016-10-01 10:36:51 282
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人