自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

jjj的博客

学习中。。。。

  • 博客(57)
  • 收藏
  • 关注

原创 利用Python将数据库提取的数据转为DataFrame格式

在利用python进行数据分析时,有时候我们会直接连接数据库,将需要分析的数据导入到python中。如果直接导入到python中,数据格式为tuple,不便于后续的分析。下面为大家介绍两种方法,能够将利用sql提取的数据转换为dataframe。解析法...

2020-06-09 16:10:54 3007

原创 pandas去除DataFrame重复项

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:def set_data(data, namelist, mode='all'): ''' 各种去重操作 :param data:待处理数据dataframe :param mode:去重模式 all,select,drop,specially :param namelist:可选的字段/要删除的数据,list :return: 去重后的数据dataframe

2020-06-09 15:06:37 1907

原创 TripletLoss、HardTripletLoss笔记

一、triplet loss

2020-03-30 16:52:47 1873

原创 python中json的基本使用

一.json的概念json是一种通用的数据类型一般情况下接口返回的数据类型都是json长得像字典,形式也是k-v{ }其实json是字符串字符串不能用key、value来取值,所以要先转换为字典才可以json的格式如下:{ "error_code": 0,#要使用双引号,如果是单引号则运行时会报错,可以上网做在线json格式校验 "data": [...

2020-03-26 13:37:40 623

原创 Python实现排列和组合(itertools模块)

itertools迭代器的特点是:惰性求值(Lazy evaluation),即只有当迭代至某个值时,它才会被计算,这个特点使得迭代器特别适合于遍历大文件或无限集合等,因为我们不用一次性将它们存储在内存中。Python 内置的 itertools 模块包含了一系列用来产生不同类型迭代器的函数或类,这些函数的返回都是一个迭代器,我们可以通过 for 循环来遍历取值,也可以使用 next() 来取...

2020-03-26 12:29:39 988

原创 python matplotlib基础图表函数详解

常用的matplotlib画图方法总结一、基础图表函数1.1 线图import matplotlib.pyplot as pltyear=[1950,1970,1990,2010]pop=[2.518,3.68,5.23,6.97]#1.线图,用plot函数来调用即可plt.plot(year,pop)#横轴纵轴plt.show()plt.plot函数参数详解:plt.plot...

2020-03-13 11:28:21 1614

原创 Python中.npz文件的读取

有时候从网上下载的数据集扩展名(后缀名)是npz,我们需要对数据进行加载(读取):例如:读取交通流数据import numpy as nppems04_data = np.load('data/PEMS04/pems04.npz')因为以npz结尾的数据集是压缩文件,里面还有其他的文件使用:pems04_data.files 命令进行查看print(pems04_data.files)...

2020-03-12 14:53:20 7127 7

原创 在windows下python3使用multiprocessing.Pool时出现的问题

from multiprocessing import Pool def f(x): return x*xpool = Pool(processes=4)r=pool.map(f, range(100)) pool.close() pool.join() 在spyder里运行直接没反应;在shell窗口里,直接报错,如下:Process SpawnPool...

2020-03-10 15:35:55 1327 1

原创 Conda使用指南

Conda是一个管理版本和Python环境的工具,它使用起来非常容易。一、Conda的环境管理1.1创建环境# 创建一个名为py35的环境,指定Python版本是3.5(不用管是3.5.x,conda会为我们自动寻找3.5.x中的最新版本)conda create --name py35 python=3.51.2激活环境# 安装好后,使用activate激活某个环境activate...

2020-02-26 14:20:41 359

原创 使用Pandas读取文件名包含中文的文件

调用pandas的read_csv()方法时,默认使用C engine作为parser engine,而当文件名中含有中文的时候,用C engine在部分情况下就会出错。所以在调用read_csv()方法时指定engine为Python就可以解决问题了。file = pd.read_csv(filename, engine='python')...

2019-12-13 13:42:04 603

原创 python中__name__的使用

如果模块是被导入,__name__的值为模块名字##文件名为func.pyprint(__name__)def main(): print("__name__", __name__)if __name__ == '__main__': main()##文件名为test.pyimport funcprint("done")#result"func")如果...

2019-12-05 18:50:05 361

原创 聚类总结一(K-Means)

一、常见的聚类分析算法K-Means: K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。K-中心点:K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。系统聚类:也称为层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其所包含的对象就越少,但这些对象...

2019-11-01 19:10:21 1681

原创 Word2vec训练保存及应用

一、分词# -*- coding: utf-8 -*-import jiebaimport io# 加载自己的自己的词库jieba.load_userdict("Words.txt")def main(): with io.open('news201708.txt','r',encoding='utf-8') as content: for line in c...

2019-11-01 17:11:57 1216

原创 PyCharm快捷键——搜索/替换等快捷键

搜索/替换快捷键序号快捷键作用1CTRL+F查找2F3查找下一个3SHIFT+F3查找上一个4CTRL+R替换5CTRL+SHIFT+F指定路径下查找6CTRL+SHIFT+R指定路径下替换注释快捷键序号快捷键作用1CTRL+?注释操作代码序号快捷键作用1...

2019-10-29 13:35:47 962

原创 Python字符串反转的3种方法

1.切片法(最简洁的一种)#切片法#[begin:end:step]s='abc'print(s[::-1])##cbaprint(s[::1])##abcprint(s[::-2])##caprint(s[::2])##ac2.递归#递归反转def reverse2(s): if s=="": return s else: r...

2019-10-23 15:55:45 832

原创 Python(算法)-时间复杂度和空间复杂度

时间复杂度算法的时间复杂度是一个函数,它定量描述了该算法的运行时间,时间复杂度常用“O”表述,使用这种方式时,时间复杂度可被称为是渐近的,它考察当输入值大小趋近无穷时的情况时间复杂度是用来估计算法运行时间的一个式子(单位),一般来说,时间复杂度高的算法比复杂度低的算法慢print('Hello world') #O(1)#O(1)print('Hello world')prin...

2019-10-21 19:15:32 1109 2

原创 python基本数据类型的时间复杂度

用对数据结构是一个程序员应用的基本技能,这篇整理一下python中基本的抽象数据类型的一下特征,主要是增删改查方面的性能。listpython的列表内部实现是数组(具体实现要看解析器, CPython的实现),因此就有组数的特点。超过容量会增加更多的容量,set, get 是O(1),但del, insert, in的性能是O(n)。具体的看下表,'n’是容器中当前的元素数, 'k’需要...

2019-10-21 18:42:11 540

原创 python数据结构-链表

python学习笔记之链表数据结构-链表什么是链表,我对这个概念非常陌生。链表是实现了数据之间保持逻辑顺序,但存储空间不必按顺序的方法。可以用一个图来表示这种链表的数据结构:链表中的基本要素:结点(也可以叫节点或元素),每一个结点有两个域,左边部份叫值域,用于存放用户数据;右边叫指针域,一般是存储着到下一个元素的指针head结点,head是一个特殊的结节,head结点永远指向第一个...

2019-10-11 16:01:26 287

原创 Postgresql死锁的处理

背景:对表进行所有操作都卡住,原因可能是更新表时导致这个表死锁了,开始进行排查解决一:查询pg_stat_activity有没有记录pg版本10.2select pid,query,* from pg_stat_activity where datname='死锁的数据库' and wait_event_type = 'Lock';select pg_cancel_backend('死锁...

2019-08-21 10:39:31 1524

原创 TensorFlow中层API:TFRecord的数据导入

为什么用TFRecord?在数据集较小时,我们会把数据全部加载到内存里方便快速导入,但当数据量超过内存大小时,就只能放在硬盘上来一点点读取,这时就不得不考虑数据的移动、读取、处理等速度。使用TFRecord就是为了提速和节约空间的。一、数据说明:假设要学习文本类型的分类模型。我们会事先搜集各个类别的文本信息,用这些信息作为判断类别的依据。同时也会把文本真实的类别信息记录下来。1、常规方式:...

2019-08-13 15:47:38 319

原创 Python:如何用一行代码获取上个月是几月

本文介绍的关于Python时间日期处理,日期时间处理在实际应用场景中无处不在,所以这也成了编程语言中必不可少的模块,Python 也不例外。但是,你知道在Python中有多少个相关的模块吗?datetime、time、calendar、 dateutil、 pytz 等等。 你知道有多少种数据类型吗?date、time、datetime、tzinfo、timedelta 等等。有天我遇到这样的需...

2019-07-03 15:38:32 3583

原创 python数据批量插入postgreSQL数据库

1、executemany()方法批量输入数据到数据库import pandas as pdimport psycopg2from DBUtils.PooledDB import PooledDBimport math'''批量插入 data:为dataframe数据,size:为批量大小sql示例: "insert into table(username,password,us...

2019-07-02 09:22:33 9222

原创 PostgreSQL两种分页方法查询

第一种SELECT * FROM test_table WHERE i_id>1000 order by i_id limit 100;第二种SELECT * FROM test_table order by i_id limit 100 OFFSET 1000;100就是你需要多少行;1000就是查询的起点位置。也就是,从起点1000开始查询,返回100条数据。...

2019-06-21 11:26:14 18209 2

原创 PyCharm创建.py自动添加文件头注释

创建.py文件时 顺便自动添加作者、时间、文件名信息……打开PyCharm编辑器点击File/Settings点击Editor/File and Code Templates/Python Script添加以下代码:#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : ${DATE} ${TIME}# @Aut...

2019-06-20 08:51:28 133

原创 仅用四行代码实现RNN文本生成模型

摘要: 想要在没有任何问题的情况下生成文本,而无需自己构建和调整神经网络吗?赶紧来看看textgenrnn项目吧,它只需几行代码就能轻松地在任何文本数据集上训练任意大小和复杂度文本生成神经网络。正文:textgenrnn就是采用RNN的方式来实现文本生成的一个简洁高效的库,代码量非常少,又非常易于理解。其架构是采用了LSTM+Attention的方式来实现。如下图所示:源码提供的功能:一、...

2019-06-11 08:47:29 1174

原创 对推荐系统排序(Rank)评价指标的理解?

1、1.Mean Average Precision (MAP)可能大家接触比较多的是MAP,MAP考虑的是0和1的排序。AP=∑j=1niP(j).yi,j∑j=1niyi,jAP=\frac{\sum_{j=1}^{n_{i}}P(j).y_{i,j}}{\sum_{j=1}^{n_{i}}y_{i,j}}AP=∑j=1ni​​yi,j​∑j=1ni​​P(j).yi,j​​其中yi,j...

2019-06-05 11:58:49 2880

转载 python 利用utf-8编码判断中文英文字符

下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符,全角符号转半角符号,unicode字符串归一化等工作。# -*- coding: UTF-8 -*- """判断一个unicode是否是汉字"""def is_chinese(uchar): if uchar >= u'\u4e00' and uchar <= u'\u9fa5': ...

2019-05-29 10:15:47 1786

原创 基于skip_thoughts vectors 的sentence2vec神经网络实现

1、论文摘要我们描述了一种通用、分布式句子编码器的无监督学习方法。使用从书籍中提取的连续文本,我们训练了一个编码器-解码器模型,试图重建编码段落周围的句子。语义和语法属性一致的句子因此被映射到相似的向量表示。我们接着引入一个简单的词汇扩展方法来编码不再训练预料内的单词,令词汇量扩展到一百万词。在训练模型后,我们用线性模型在8个任务上提取和评估我们的向量,包括:语义相关性,释义检测,图像句子排序,...

2019-05-29 10:08:00 477

原创 postgresql 按日期范围查询,出生日期推年龄(python年龄推出生日期)

一、postgresql按照日期范围查询有好几种方法,日期字段类型一般为:Timestamp without timezoneselect * from user_info where create_date >= '2015-07-01' and create_date < '2015-08-15';select * from user_info where create_da...

2019-05-29 10:06:50 2213

原创 Python中strip()、lstrip()、rstrip()用法详解

Python中有三个去除头尾字符、空白符的函数,它们依次为:strip: 用来去除头尾字符、空白符(包括\n、\r、\t、’ ‘,即:换行、回车、制表符、空格)lstrip:用来去除开头字符、空白符(包括\n、\r、\t、’ ‘,即:换行、回车、制表符、空格)rstrip:用来去除结尾字符、空白符(包括\n、\r、\t、’ ',即:换行、回车、制表符、空格)注意:这些函数都只会删除头和尾的...

2019-05-29 08:58:19 2334 1

原创 python判断变量是否为int、字符串、列表、元组、字典等方法

#!/usr/bin/env pythona = 1b = [1,2,3,4]c = (1,2,3,4)d = {'a':1,'b':2,'c':3}e = "abc"if isinstance(a,int): print "a is int"else: print "a is not int"if isinstance(b,list): print "b ...

2019-05-29 08:53:56 5784

原创 Python3-中把图片进行-base64-编码

base64 是一种用 64 个字符来表示任意二进制数据的方法。Python 3.6 代码实现如下:import base64files = os.listdir(PATH+'/pyUtils/photoFiles')##存放图片的文件夹 PHOTO_LABEL={}##创建字典{图片名称:图片的base64编码} for file in files: ...

2019-05-21 17:16:44 1958

原创 python: 获取 后缀名(扩展名) / 文件名

method使用 os.path.splitext(file)[0] 可获得 文件名 。使用 os.path.splitext(file)[-1] 可获得以 . 开头的 文件后缀名 。 import os file = "Hello.py"获取前缀(文件名称)assert os.path.splitext(file)[0] == "Hello"获取后缀(文件类型)a...

2019-05-21 17:09:25 9142 1

原创 如何从GitHub上下载一个项目中的单个文件或者子文件夹

从GitHub上下载整个项目非常简单,只需要git clone xxx就可以了,但是有时候我们只需要项目中的某个文件或者子文件夹,用SVN就可以实现。在Windows上装个TortoiseSVN比较方便。安装过程很简单,TortoiseSVN安装完毕后,例如我们打开GitHub上的某一个项目:https://github.com/jinjiajia/skip_thoughts这个项目里面有很多...

2019-05-16 14:14:42 13435 4

原创 linux address is already in use

程序被异常关闭,我再次运行时,显示 address is already in use解决办法:查看端口##lsof -i tcp:端口 and netstat -tlnp|grep 端口root@star-SYS-7048GR-TR:/home/star# lsof -i tcp:8558COMMAND PID USER FD TYPE DEVICE SIZE/OF...

2019-05-15 15:59:04 1040

转载 Python - 字典(dict)删除元素

字典(dict)删除元素, 可以选择两种方式, dict.pop(key)和del dict[key].# -*- coding: utf-8 -*-def remove_key(d, key): r = dict(d) del r[key] return rx = {1: 2, 3: 4, 4: 3, 2: 1, 0: 0}x.pop(1)print x...

2019-05-14 13:57:31 9424

原创 [CSDN_Markdown]使用LaTeX基本数学公式

简介以前我很头疼在博文里写公式,后面发现CSDN的博文编辑器能支持LaTeX 公式输入,此文主要记录如何在CSDN的Markdown编辑器中写 LaTeX 公式!(目前我也记不住,方便自己参考)还有一种简单的方法可以查看基础公式对应的LaTeX 公式使用LaTeX写公式的基本语法LaTeX 公式有两种,一种是用在正文中的,一种是单独显示的。正文中的公式用 $…$ 来定义,单独显示的用 ...

2019-05-13 10:49:10 288

原创 jieba分词创造多个实例

想根据不同的环境用不同的分词器https://github.com/fxsjy/jieba/issues/290发现github这边也有这个问题,解答如下:那么 t = jieba.Tokenizer([dictionary]) 生成的实例,如何使用 jieba.analyse 相关功能呢?比如 jieba.analyse.set_stop_words(file_name)jieba.an...

2019-05-10 15:15:16 1077

原创 textrank提取关键词与关键句

最近在调研怎么提取关键句,目前的思想是用全文提取关键词和关键句提取关键词进行比较,以评估关键句的提取。(提取关键词的方法现在用的是自己构建的领域词表(带权重)与文本tfidf分析出的词分数相结合,效果还可以,还没有想出更好的提关键词的方法)关键句提取:测试了一下textrank,以下记录了textrank的原理:一:PageRank简介TextRank算法是由网页重要性排序算法PageRa...

2019-05-09 11:36:50 6551 3

原创 图解BERT

原文链接:The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)作者:Jay AlammarBERT论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding大家可以关注作者(包括之前的self...

2019-05-08 14:39:00 2459

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除