5 langb2014

尚未进行身份认证

暂无相关简介

等级
TA的排名 492

python3中的pandas删除部分数据,报错“Int64HashTable.get_item”

删除操作需谨慎!!!!!!!问题记录一下,File "pandas\core\series.py", line 766, in __getitem__ result = self.index.get_value(self, key) File "\pandas\core\indexes\base.py", line 3103, in get_value tz=geta...

2019-12-11 12:22:31

生成数据的详细报告pandas-profiling库(python3)

pandas-profiling第一印象应该是pandas吧,pandas-profiling确实和pandas有点关系,pandas-profiling能够使用DataFrame自动生成数据的详细报告,相比describe生成的profile要详细的多。pandas_profiling基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。对于数据集的每一列,...

2019-10-23 18:14:33

解决conda的“Solving environment: failed”问题

1.问题代码最近conda装软件包的时候一直出现下述问题,网上查了很多解决办法都没解决我这个问题。参见linkCollecting package metadata (current_repodata.json): doneSolving environment: failed with current_repodata.json, will retry with next repod...

2019-10-23 16:22:18

Ubuntu18的回收站爆了,节点爆了

由于近期训练网络,小碎片已经到达几十亿,经常手动删除文件夹,然后虽然文件清理了,可是INode爆满,也无法进行复制啊删除啊创建啊等操作。之前碰到过但是稍微删除一下就可以运行了,这次怎么也不行,百度了好多,清理tmp目录,其实都无效。然后查看节点发现home节点爆满100%。记录一下过程:首先看个linux命令dfdf命令作用是列出文件系统的整体磁盘空间使用情况。可以用来查看磁盘已被使用多...

2019-10-18 15:04:19

机器学习中的Embedding

来自知乎的一个解释:(版权归原作者所有,仅供学习,禁止商用)https://zhuanlan.zhihu.com/p/46016518解释还是有点感觉迷糊,数学解释:Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function,其中该函数是injective(就是我们所说的单射函数,每个Y只有唯一的X对应,反之亦然)和st...

2019-10-17 15:18:03

离散余弦变换 - Discrete Cosine Transform

图像模糊丢失高频信息,可以用于模糊评估离散余弦变换的定义与傅里叶变换的思想相似,离散余弦变换(Discrete CosineTransform - DCT)将函数表达为许多不同幅度和频率的余弦函数的和。对于图像这样一种二维函数而言,在对其进行离散余弦变换后,图像中大部分的,在视觉上比较重要的信息都会集中在小部分的DCT系数上面。由于这个原因,DCT经常被用于图像压缩的应用场景当...

2019-10-11 16:04:12

python3读取中文路径(亲测有效)

读取图片是碰到一个中文路径或者中文名字的问题。解决方案:def cv_imread(file_path = ""): img_mat=cv2.imdecode(numpy.fromfile(file_path,dtype=numpy.uint8),-1) return img_mat...

2019-09-16 15:43:11

Python 自省指南与反射

Python 自省指南:https://www.ibm.com/developerworks/cn/linux/l-pyint/From:https://my.oschina.net/taisha/blog/55597什么是自省?在日常生活中,自省(introspection)是一种自我检查行为。自省是指对某人自身思想、情绪、动机和行为的检查。伟大的哲学家苏格拉底将生命中的大部分时间用...

2019-08-29 11:13:21

python3的enumerate

Python enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。语法以下是 enumerate() 方法的语法:enumerate(sequence, [start=0])参数sequence:一个序列、迭代器或其他支持迭代对象。 start:下标起始位置。返回值返回...

2019-08-29 11:03:08

python3的ChainMap

ChainMap类用于快速链接多个映射,以便将它们视为一个单元。它通常比创建新字典和多次调用update()快得多。该类可用于模拟嵌套作用域,在模板中很有用。class collections.ChainMap(*maps)ChainMap将多个字典或其他映射组合在一起以创建单个可更新视图。如果未指定maps,则提供单个空字典,以便新链始终至少具有一个映射。底层映射存储在列表中。该...

2019-08-28 16:42:52

python3的deque

1.什么是双端队列deque的英文意思是Double-Ended Queue,从字面的意思来看,他就是一个双向队列。我们使用list存储数据的时候,按索引访问元素很快,因为list是线性存储,数据量很大的时候在列表头插入和删除元素的效率就会很慢。为什么list效率低呢?因为list有append()和insert(index,value)两个添加方法,append()方法只能在在列表的尾部...

2019-08-28 14:11:57

Faiss相似性搜索类库

Facebook 人工智能实验室(FAIR)基于十亿级别的数据集构建了最近邻搜索算法的实现,这比之前介绍的已知文献中在 GPU 上实现的最先进且最快的 k-selection 算法还要快大约 8.5 倍,因此创造了新的记录,包括第一个基于十亿高维向量构建的 k 最近邻图。关于相似性搜索传统的数据库是由包含符号信息的结构化数据表组成。比如,一个图片集可以表示为一个数据表,每行代表一个被索引的...

2019-08-28 10:13:23

期望最大化注意力网络 EMANet 详解

先占个坑,有空复现一下,效果看着不错。由于公式图片无法转过来,所以就直接页面转PDF搬砖过来了。

2019-08-27 14:41:23

python3的OrderedDict

OrderedDict 是 collections 提供的一种数据结构, 它提供了有序的dict结构。先把源代码贴一下:class OrderedDict(dict): '记住插入顺序的字典' # 一个继承自dict的键值对字典 # 继承的字典提供 __getitem__, __len__, __contains__, get 方法 # 所有方法的O() 均与...

2019-08-26 16:24:30

Python3的namedtuple

因为元组的局限性:不能为元组内部的数据进行命名,所以往往我们并不知道一个元组所要表达的意义,所以在这里引入了collections.namedtuple这个工厂函数,来构造一个带字段名的元组。具名元组的实例和普通元组消耗的内存一样多,因为字段名都被存在对应的类里面。这个类跟普通的对象实例比起来也要小一些,因为 Python 不会用 __dict__ 来存放这些实例的属性。namedtupl...

2019-08-26 14:00:08

Python3的Counter类

1.Counter类Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。1.1 创建下面的代码说明了Counter类创建的四种方法:Counter类的创建Python 1...

2019-08-23 10:36:18

Timsort排序算法

算法实现原理TimSort原理:现实数据通常会有部分是已经排好序,TimSort正是利用这一点,将数组拆成多个部分已排序的分区,部分未排序分区重新排序,最后将多个分区合并并排序。例如:array[] =[24,63,70,55,41,92,81,80],排序步骤如下:1. 拆分分区:[24,63],[70,55],[41,92],[81,80]2. 重排分区:[24,63]...

2019-08-22 17:07:37

图像检索:Spreading Vectors for Similarity Search

Thinking in Reverse.Spreading Vectors for Similarity Search是小白菜崇拜的Matthijs Douze和Herve Jegou的作品,发表于ICLR 2019,是一篇对思维方法非常有启发作用的paper,可能会成为利用DNN构建索引方面的经典。这样一篇因为思维的光辉而动人的paper,小白菜很乐意成为它的布道者,并希望借自己的绵薄之...

2019-08-19 12:54:28

图像检索:图像拷贝检索PHash改进方案

感知哈希是用来做图像拷贝检索(Copy Detection)最容易操作的一种方法,实际上除了感知哈希、均值哈希,还有很多的从图像本身出发计算出来的图像哈希值,在OpenCV 3.3及其以后的版本中,包含了很多图像哈希的计算方法,具体的可以参考The module brings implementations of different image hashing algorithms,其中各种图像哈...

2019-08-19 12:00:22

图像检索:Fisher Vector

Fisher Kernels原理模式分类的技术主要可以划分为生成式和判别式两大类。生成式模型关注类条件概率的建模,判别式模型则直接关注问题的本身——分类。这也解释了判别式模型相对于生成式模型理论上的优越性。尽管如此,生成式模型也具有判别式模型不具备的许多特性,使生成式模型被广泛使用。如生成式模型可以处理长度不一的数据。其中,Fisher kernels的引入结合了...

2019-08-19 11:05:17

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。