糖小豆子-CSDN博客

翻译学习哈希综述：A survey on learning to hash

a survey on learning to hash

2023-01-04 16:31:08 914

原创弱监督学习 weakly supervised learning 笔记

弱监督学习

2022-12-28 22:15:57 447

翻译查询聚集：congressional samples for approximate answering of group-by queries

congressional samples for approximate answering of group-by queries

2022-12-20 20:32:16 107 1

bitmap join indexbitmap indexbitmap join indexoracle bitmap join index整理一下看到的bitmap join index笔记。bitmap index针对每一个可能的值x，建立一个或一组位图映射，每个bit为1代表这个位置的值等于x，为0则不等于x。每个位置都可以直接映射到某一行的rowid。bitmap index对于并发DML的性能很差，OLTP系统并不合适使用bitmap index。从oracle9i起，oracle引进了

2022-05-13 20:08:11 371

原创图编码算法总结 Graph Embedding Methods

写在最前来总结一下最近几周看的图编码算法，还蛮有意思的。图算法：1.经典数据结构与算法层面：最小生成树（Prim，Kruskal，…），最短路（Dijstra，Floyed，…），拓扑排序，关键路径等；2.概率图模型，涉及图的表示，推断和学习，Koller的书/公开课；3.图神经网络，主要包括Graph Embedding （基于随机游走）和Graph CNN（基于邻居汇聚）两部分。图编码：Graph Embedding技术将图中的节点以低维稠密向量的形式进行表达，要求在原始图中相似（不同的

2021-11-12 20:37:48 2125

翻译子图同构论文：Efficient Streaming Subgraph Isomorphism with Graph Neural Networks

Efficient Streaming Subgraph Isomorphism with Graph Neural Networksvldb 2021 research track图神经网络的有效流子图同构Abstract在基于图的数据管理中，检测同构子图的查询是很有重要的。当对单个或批量查询的静态设置，子图同构搜索问题得到了相当多的关注，但现有方法不能扩展到连续查询流的动态设置。在本文中，我们通过缓存和重用以前的结果来解决由子图同构查询流引起的可伸缩性挑战。首先，我们提出一种新的基于图嵌入的子图

2021-10-18 14:44:39 925

原创数据驱动基数估计：DeepDB: Learn from Data, not from Queries！

面对大规模数据和不同的应用场景，传统数据库组件存在业务类型不敏感、查询优化能力弱等问题。因此，目前一类研究通过将传统数据库组件用机器学习算法替代，来实现更高的查询和存储效率。主导的学习组件，是query-based，workload-driven，以一堆有代表性的queryset去实际运行，产生训练集。这种方式的问题，在于训练成本很高，并且当workload变化时需要不断迭代。本文是采用另一种思路，data-driven，就是直接对于数据建模，并且模型可以同态的变化，接受insert，update，del

2021-05-21 10:48:28 1133 4

原创列索引推荐：Workload-driven recommendations for Columnstore and Rowstore indexes in relational databases.

给定工作负载，系统分析工作负载以识别并推荐一组对工作负载性能最优的行存储和列存储索引;系统扩展到数据库系统优化器的“What-if”API，在不实际构建索引的情况下估算列存索引的大小(以每个列的粒度计算)，估算构建每个列存索引时将导致的查询性能改进。列存索引不同于行存储(eg. B-tree)索引，优化器只需要考虑访问查询中引用的列的成本。对于行存储索引，优化器可能只关心索引的总大小。列存储大小估计的主要挑战是，当数据库管理系统构建列存储索引时，它应用编码和压缩技术的组合，使列存储索引的大小依赖于数据

2021-05-18 16:17:34 143

翻译结构数据：ARM-Net: Adaptive Relation Modeling Network for Structured Data

ARM-Net: Adaptive Relation Modeling Network for Structured DataSIGMOD ’21 comp.nus.edu.sgABSTRACT关系数据库是存储和查询结构化数据的标准，从结构化数据中提取见解需要高级的分析。深度神经网络(DNNs)已经在特定的数据类型(如图像)中实现了超人类的预测性能。然而，现有的DNN在应用于结构化数据时可能不会产生有意义的结果。原因是表中属性值的组合之间存在关联和依赖关系，而这些关联和依赖关系不遵循简单的可被DNN

2021-05-12 15:12:08 541 2

翻译数据库行列混合论文：Columnstore and B+ tree - Are Hybrid Physical Designs Important?

Columnstore and B+ tree - Are Hybrid Physical Designs Important?HTAP混合负载是工业界的一个热点，一般来说，B+树用于OLTP业务，列存用于OLAP业务。然而，真实的业务场景中很难区分workload到底是OLTP还是OLAP，主流的OLTP商业数据库都会有比较强的OLAP分析能力。这篇论文研究如何在同一个数据库中混合使用B+树和列存这两种不同类型的索引，它首先通过一个benchmark对这两种索引在各种读写场景下的性能做了一个量化对比，接

2021-04-29 17:40:28 714

原创 memory_profiler监测python代码运行时内存消耗

使用memory_profiler中的mprof功能来进行测量的，它在代码运行过程中每0.1S统计一次内存，并生成统计图。首先安装memory_profiler和psutil（psutil主要用于提高memory_profile的性能，建议安装）（可使用pip直接安装）pip install memory_profilerpip install psutil具体运行方式为如下：mprof run test.pymprof plot结果会生成一个.dat文件，里面记录了内存随时间的变化，使用

2020-05-28 13:01:17 924 2

原创 Python3.6: import cvxopt: ImportError: DLL load failed.

python3.6导入cvxopt时提示，找不到指定的模块：ImportError: DLL load failed: 找不到指定的模块。cvxopt 需要安装Numpy-MKL：https://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy和 cvxopt: https://www.lfd.uci.edu/~gohlke/pythonlibs/#cvx...

2020-04-19 21:04:50 809 1

原创使用Anaconda安装faiss

我透，耗费了我两个下午，在第一台服务器安装踩坑，后来又在另一台服务器安装又踩坑，我服了。特此记录。使用Anaconda安装faiss是最方便快速的方式，facebook会及时推出faiss的新版本conda安装包，在conda安装时会自行安装所需的libgcc, mkl, numpy模块。faiss的cpu版本目前仅支持Linux和MacOS操作系统，gpu版本提供可在Linux操作系统下用C...

2020-04-06 16:21:25 4824 3

翻译论文笔记《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

Abstract介绍了一种新的语言表示模型BERT，它代表Transformers的双向编码器表示。与最近的语言表达模型不同，BERT是预先训练深层双向表示，通过联合调节所有层中左右的上下文。因此，可以通过一个额外的输出层对预训练的BERT表示进行微调，以创建适用于各种任务的最新模型，如回答问题和语言推理，而无需对特定于任务的体系结构进行实质性修改。BERT概念简单，经验丰富。它在11项自然语...

2019-05-21 16:21:45 563

翻译论文笔记《Neural Architecture Search With Reinforcement Learning》

摘要神经网络是一种强大而灵活的模型，能够很好地解决图像、语音和自然语言理解中的许多困难学习任务。尽管成功，神经网络仍然很难设计。在本文中，我们使用一个循环网络来生成神经网络的模型描述，并通过强化学习训练该RNN，以最大限度地提高生成的架构在验证集上的预期精度。在cifar-10数据集上，我们的方法从无到可以设计出一种新的网络体系结构，在测试集精度方面可以与人类发明的最佳体系结构相媲美。我们的ci...

2019-04-25 15:09:42 714

转载 Attention Model in NLP

这里整理一下最近看的有关Attention Model的资料，貌似网上的相关blog都大同小异。AM模型是2015年NLP领域重要的进展之一。一、引言感受：从认知心理学里面的人脑注意力模型引入的概念。人脑注意力模型：在某个特定的时刻t，意识和注意力的焦点是集中在画面的某一个部分上的。本质是一个资源分配模型。深度学习中的注意力模型工作机制，和看见心动异性时荷尔蒙驱动的注意力分配机制是一样的...

2018-10-12 09:59:29 411 3

原创 2018年算法工程师秋招经验贴（微软、华为、网易游戏、阿里offer）

目前不打算再投其他的公司了，所以来写面试总结。本人985硕士，性别女，可以参考下哈。下面是按照我的面试顺序进行排序的。微软微软是参加的进校面试，（师姐安利的，师姐是参加的夏令营）微软的面试体验是非常的棒的，微软特别尊重面试者，面试一般集中在问算法题上，一时想不出方法，面试官也会给一些思路引导，不会怼人真的是很亲切的。。。进校面试是上午10点签到，10点到11点现场笔试，笔试为两道基...

2018-09-02 16:18:54 15379 58

原创 LSTM原理复习整理

LSTM网络long short term memory，即LSTM，是为了解决长期以来问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层。LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。图中使用的各种...

2018-08-04 16:18:07 1250

原创论文笔记《Part-of-Speech Tagging for Twitter with Adversarial Neural Networks》

这里记录近两个月阅读论文中，最贴近项目需求的几篇论文，此博为其中一篇，也是思想引用最多的一篇。 0、Paper basic information Authors：Tao Gui, Qi Zhang∗, Haoran Huang, Minlong Peng, Xuanjing Huang School: Fudan University Published 2017 in EMNLP 1...

2018-07-02 15:21:00 949

转载 David Silver强化学习公开课笔记：Lecture 1 强化学习入门

第一课主要解释了强化学习在多领域的体现，主要解决什么问题，与监督学习算法的区别，完整的算法流程由哪几部分组成，其中agent包含的内容，以及解释了强化学习涉及到的一些概念。本课视频地址:RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning 本课ppt地址:http://www0.cs.ucl...

2018-05-22 11:24:50 870 3

原创 Coursera之deeplearning.ai：CNN-Art Generation with Neural Style Transfer

Deep Learning & Art: Neural Style Transfer算法为Gatys et al.(2015)提出的(https://arxiv.org/abs/1508.06576). 在本实验中，可以实现neural style transfer algorithm;使用算法生成艺术图像。很多算法通过优化一个成本函数来获得一组参数值，在Neural Style...

2018-04-24 16:35:24 772

原创利用pytorch实现迁移学习之猫狗分类器(dog vs cat)

迁移学习迁移学习(Transfer learning) 就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的，所以通过迁移学习我们可以将已经学到的模型参数（也可理解为模型学到的知识）通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习。本文使用VGG16模型用于迁移学习，最终得到一个能对猫狗图片进行辨识的CNN（卷积神...

2018-04-23 15:04:31 12963 14

原创利用Spark MLlib实现Kmeans算法实例(Python)

聚类 - spark.mllib聚类是一种无监督的学习问题，我们的目标是根据一些相似的概念将实体的子集相互分组。聚类通常用于探索性分析和/或作为分层监督学习管线（其中针对每个群集训练不同的分类器或回归模型）的组成部分。该spark.mllib软件包支持以下模型： K-means Gaussian mixture Power iteration clustering (PIC) L...

2018-04-11 13:02:38 3642 3

原创利用Spark MLlib实现协同过滤(ALS)算法实例(Python)

协作过滤协同过滤通常用于推荐系统。这些技术旨在填补用户项目关联矩阵的缺失条目。 spark.ml目前支持基于模型的协作过滤，其中用户和产品由一组可用于预测缺失条目的潜在因素来描述。 spark.ml使用交替最小二乘（ALS）算法来学习这些潜在因素。实现中spark.ml有以下参数：numBlocks是为了并行化计算而将用户和项目划分到的块的数量（默认为10）。 rank是模型中潜在因素...

2018-04-07 16:24:59 5156 1

原创 python常用函数积累（三）

1、strides ndarray数据结构引用两个对象：数据存储区和 dtype对象存储区，具体包括dtype，dim count，dimensions，strides和data。 dim count指维度的数目；dimesion指各维度的数字； strides指每个轴的下标增加1时数据存储区中的指针所增加的字节数，比如有个3*3的数组，元素类型是float32，那么每个数占4（32/8）...

2018-03-28 12:17:03 1218

原创 Pytorch常用函数积累

Pytorch中文文档 1、torch.index_select(input, dim, index, out=None) → Tensor>>> x = torch.randn(3, 4)>>> x 1.2045 2.4084 0.4001 1.1372 0.5596 1.5677 0.6219 -0.7954 1.3635 -1...

2018-03-26 11:40:09 11417

原创 python常用函数积累（二）

1、scipy矩阵操作七种矩阵类型 csc_matrix: Compressed Sparse Column format csr_matrix: Compressed Sparse Row format bsr_matrix: Block Sparse Row format lil_matrix: List of Lists format dok_matrix: Dictionar...

2018-03-24 22:00:21 3294 4

原创论文笔记《PaletteNet: Image Recolorization with Given Color Palette-reading notes》

1、Paper basic information author：Junho Cho and Sangdoo Yun and Kyoungmu Lee and Jin Young Choi journal：2017 IEEE Conference on Computer Vision and Pattern Recognition year：2017 Volume:2017 July ...

2018-03-12 14:19:59 1127 3

原创论文笔记《A Closed-form Solution to Photorealistic Image Stylization-reading notes》

1、Paper basic information Authors：Yijun Li、Ming-Yu Liu、Xueting Li、Ming-Hsuan Yang、and Jan Kautz ( University of California, Merced ; NVIDIA) Comments: 11 pages, 14 figures Subjects: Computer V...

2018-03-07 22:20:58 2590 5

原创 python常用函数积累（一）

1、移动文件import os,shutilsrcfile='/home/tx/src'dstfile='/home/tx/dst'count=0for item in os.listdir(srcfile): count+=1 if count < 5001: sourceFile = os.path.join(srcfile, item) ...

2018-03-06 16:25:21 357 2

转载 Windows下Anaconda2(Python2)和Anaconda3(Python3)的共存

前言Anaconda是一个Python的科学计算发行版，包含了超过300个流行的用于科学、数学、工程和数据分析的Python Packages。由于Python有2和3两个版本，因此Anaconda也在Python2和Python3的基础上推出了两个发行版，即Anaconda2和An...

2018-02-15 09:16:49 398

原创 CS231n-深度学习与计算机视觉-笔记-Lecture7.3 迁移学习

迁移学习transfer learning 我们看到使用正则化，加入不同正则策略可以帮助减小，训练误差和测试误差的间隙，过拟合的一个问题，有时候过拟合是由于数据不够，你希望得到一个大的、功能大的模型，一个大的功能强大网络在你使用，小数据集合时很容易过拟合，正则化是一种处理它的方法。另一种方法是使用迁移学习。使用迁移学习，你不需要超大的样本集，也能训练卷积神经网络。它的思想很简单，首先找到

2018-02-04 11:23:47 717

原创 centos基本操作

1、添加用户并授权#useradd hadoop#passwd hadoop#vim /etc/sudoershadoop ALL=(ALL) ALL2、静态IP 编辑 ifcfg-eth0 文件#vim /etc/sysconfig/network-scripts/ifcfg-eth0 BOOTPROTO="static" #dhcp改为static ONBOOT

2018-01-20 15:42:12 324

原创 CS231n-深度学习与计算机视觉-笔记-Lecture5 卷积神经网络

1.历史 2.卷积和池化先从函数角度了解工作原理，简单介绍这些连接点。对于全连接层，我们要做的就是在这些向量上进行操作。比如我们有一张图片，三维图片32*32*3大小，我们将所有的像素展开，就可以得到一个3072维的向量。我们得到这些权重，把向量和权重矩阵相乘，这里我们就用10*3072，然后就可以得到激活值。卷积层和全连接层的主要差别，可以保全空间结构，不是将它展开成一个长

2018-01-19 16:59:09 696

原创 CS231n-深度学习与计算机视觉-笔记-Lecture3 损失函数和优化

线性分类属于参数分类的一种，所有的训练数据中的经验知识都体现在参数矩阵W中，而W通过训练过程得到，我们拿到一张照片拉伸成一个长的向量，这里的图片假设叫做X，应该是拉伸成一个三维长向量（32，32，3），一共3个，其中高度和宽度都是32像素。3则代表颜色通道红绿蓝，还存在一个参数矩阵W，把这个代表图片像素的列向量，当作输入，然后转化成10个数字评分。线性分类可以理解为每个种类的学习模板，左下角的图对

2017-12-28 22:35:49 1254

原创 CS231n-深度学习与计算机视觉-笔记-Lecture2 图像分类

CS231n 深度学习与计算机视觉笔记 Lecture2 图像分类

2017-12-26 22:02:21 591 4

转载使用lfslivecd进行LFS内核编译

使用lfslivecd进行LFS内核编译，LFS详细搭建指南。

2017-12-04 20:13:43 2018 5

原创 Nginx+Tomcat实现负载均衡动静分离集群

Nginx+Tomcat实现负载均衡、动静分离集群。

2017-12-04 20:06:12 499

原创《Spark快速大数据分析》笔记Ch4 键值对操作

键值对 RDD 是 Spark 中许多操作所需要的常见数据类型。本章就来介绍如何操作键值对RDD。键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL（抽取、转化、装载）操作来将数据转化为键值对形式。　　本章也会讨论用来让用户控制键值对 RDD 在各节点上分布情况的高级特性：分区。有时，使用可控的分区方式把常被一起访问的数据放到同一个节点上，可以大大减少应用的通信开销。这会

2017-09-15 11:19:39 546