thormas1996-CSDN博客

原创 python笔记查看安装包的路径

例如需要查看numpy的路径import numpyprint(numpy.__file__)

2020-08-19 14:41:33 312 1

原创 Conference Date (update at 2020.07.28)

Medical ImageIEEE Transactions on Medical ImagingIF = 6.685(2020)IPMIVenue: Rønne at the island of Bornholm, DenmarkConference Dates: June 27 - June 2, 2021Paper registration: 29 November 2020Submission of full papers: 6 December 2020ISBIVenue: Ni

2020-07-28 10:27:31 404

原创 url open error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed

Python3 在下载数据集的时候需要多验证一次证书，会导致以下错误：URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:748)>解决办法：import sslssl._create_default_https_context = ssl._cr...

2019-10-29 19:59:09 1096

原创极大极小搜索算法 minimax search

minimax search设计象棋等AI模型时常常需要使用博弈论的思想，minimax search就是一种基于当前状态推测出使我方最有利而对方最不利的行动，在实际模型中需要考虑状态函数，树的深度，时间成本等等因素，这里只讲一个最简单的例子说明minmax search的计算过程。假设根据当前局面我们得到一个下图所示的博弈树：从上往下，单数层是我方行动，双数层是对方行动，我方行动需要选择...

2019-10-21 13:48:14 9638 2

原创论文阅读 Multi-Task Deep Neural Networks for Natural Language Understanding

这是今年arXiv上Microsoft Research的一篇文本embedding的文章，原文在Multi-task DNN。这篇文章的思路很简单，在BERT的基础上，用multi-task learning对embedding layer进行fine-tuned，但在GLEU benchmark上的实验结果非常好，九个NLU任务中八个的表现都有提升，benchmark提升了足足2.2%。M...

2019-10-12 17:53:33 492

原创 tensorflow笔记 cross entropy loss

交叉熵损失函数是模型中非常常见的一种损失函数，tensorflow中一个计算交叉熵的函数：tf.nn.sigmoid_cross_entropy_with_logits，也可以调用keras中的函数： tf.keras.backend.binary_crossentropy，两者有一些不同。先来看看tf自带的sigmoid_cross_entropy_with_logits：tf.nn.si...

2019-07-09 14:39:20 1716 3

原创联邦学习论文阅读：Variational Federated Multi-Task Learning

这篇文章是探索联邦学习的框架下的多任务学习，稍后会整理一下之前的那篇multi task learningto be continued

2019-07-03 10:54:12 3059 1

原创调参笔记：神经网络收敛问题

最近网络一直有收敛的问题，怀疑是梯度在训练的时候爆炸或归零导致分类器对evaluate集全0或全1预测。This blog gives a quick step to check the model:https://blog.slavv.com/37-reasons-why-your-neural-network-is-not-working-4020854bd607...

2019-07-01 11:07:55 1242

原创联邦学习论文阅读：Secure Federated Matrix Factorization

这是六月刚刚挂上arXiv的文章，杨老师学生的工作摘要这篇文章提出了联邦化的矩阵分解算法，作者发现传梯度也会泄露信息，所以利用同态加密来进一步保证用户数据的隐私性。框架基本框架和federated collaborative filtering那篇文章是一样的：一个标准的横向联邦框架，user vector保留在本地训练，只上传加密后的更新梯度，服务器进行汇总，然后训练product ve...

2019-06-24 14:40:56 1664

原创联邦学习论文阅读：Fair Resource Allocation in Federated Learning

arXiv上刚刚挂的一篇文章Fair Resource Allocation in Federated Learning，作者是CMU的AP Virginia Smith组的，搜了一下主页，居然是一个超级年轻的小姐姐~Motivation之前横向联邦学习一般都是follow google的FedAvg算法，将所有用户（或者随机一部分）更新的梯度取个平均作为中心模型的更新参数。显然，这种做法虽然...

2019-06-04 15:38:36 3965 11

原创联邦学习相关资料

联邦学习相关的博客，论文以及PPT，持续更新个人能力有限，欢迎补充~Blog Google16年解释联邦学习用于输入预测应用的blog：Federated Learning: Collaborative Machine Learning without Centralized Training Data, 2016 杨强老师18年解释联邦学习概念的blog：CCCF专栏 | 联邦学习...

2019-06-03 11:59:17 2864

原创联邦学习论文阅读：Asynchronous Federated Optimization

这是UIUC的一篇刚刚挂在arXiv上的文章：Asynchronous Federated Optimization。我对边缘计算和异步算法不太了解，直观的理解是作为一个user，我上传的梯度参数是延迟的，也就是说central server当前已经更新过这次的梯度了，并且已经开始计算下一次甚至下下次的global gradient了，那么我这次的参数实际上是混在其他用户下一次更新的数据中的。...

2019-05-30 16:17:01 4179

原创深度学习笔记简单神经网络反向传播的推导

最近手推了一下神经网络梯度更新中的参数偏导，做一个笔记。模型我们考虑一个非常简单的神经网络，输入embedding后只通过一个全连接层，然后就softmax输出预测值Created with Raphaël 2.2.0Input X: 1xnEmbedding Layer Z1 = WX: 1xNActivation Layer (Relu) Z2 = relu(Z1): 1xNFully ...

2019-05-23 16:17:16 274

原创推荐模型评价指标 AUC

推荐中常用的模型评价指标有准确率，召回率，F1-score和AUC。1. 什么是AUCAUC指标是一个[0,1]之间的实数，代表如果随机挑选一个正样本和一个负样本，分类算法将这个正样本排在负样本前面的概率。值越大，表示分类算法更有可能将正样本排在前面，也即算法准确性越好。2. AUC的计算方法绘制ROC曲线，ROC曲线下面的面积就是AUC的值假设总共有（m+n）个样本，其中正样本有m个...

2019-05-22 14:50:07 3616

原创 tensorflow笔记 tf.metrics.accuracy

tf.metrics.accuracy用于计算模型输出的准确率tf.metrics.accuracy( labels, predictions, weights=None, metrics_collections=None, updates_collections=None, name=None)return accuracy, update...

2019-05-17 14:37:40 1526 2

原创 python笔记 shuffle和permutation

函数shuffle与permutation都可以打乱数组元素顺序，区别在shuffle直接在原来的数组上进行操作，而permutation不直接在原来的数组上进行操作，会返回一个新的打乱顺序的数组。import numpy as npa = np.arange(4)print('a:', a)b = np.random.shuffle(a)print('a:',a)print('b:...

2019-05-16 14:53:30 507

原创 python笔记 list和array

python中的list和array是常用两种数据类型。list中的数据类不必相同的，而array中的类型必须全部相同。list中保存的是数据存放的地址，也就是指针。import numpy as npimport pandas as pda = [1,2,3]b = np.array([1,2,3])c = pd.DataFrame(a)d = pd.DataFrame(b)pri...

2019-05-16 14:47:24 228

原创 tensorflow笔记协调器tf.train.Coordinator

原理TensorFlow中有两个函数管理Session中的多线程：Coordinator和 QueueRunner。同一个Session中可以创建多个线程，但所有线程必须能被同步终止，异常必须能被正确捕获并报告。当会话终止的时候，队列必须能被正确地关闭。Coordinator用来管理在Session中的多个线程，可以用来同时停止多个工作线程，同时报告异常，当程序捕捉到这个异常后之后就会终止...

2019-05-14 20:09:45 537

原创 tensorflow笔记 string_input_producer, slice_input_producer

tensorflow将读取数据分为了两个步骤，先读入文件名队列，再读入内存队列进行运算。为了减少GPU的等待时间，提高计算速度，tensorflow使用两个线程来分别处理这两个步骤。tf有三个函数string_input_producer, slice_input_producer, input_producer用于建立文件名队列。函数参数如下所示，除了tensor list是必须外，其余都可以...

2019-05-14 17:40:22 1513

原创 jupyternotebook 撤销删除操作

方法一先按esc进入命令模式，即左侧线为蓝色（为绿色时是编辑模式），按z键即可恢复方法二如果是运行过的代码直接运行history

2019-05-09 17:48:16 46330 4

原创 tensorflow笔记 tfrecord创建及读取

之前很少仔细看tf的一些基础api，只要能跑通就过了，最近打算花时间把部分基础api整理一下，方便以后使用。简介tfrecord是tensorflow训练模型时比较常用的处理大量数据的格式。简单来说，一种二进制数据储存格式，比一次性读取csv或jpg数据要更快，且占用更小的内存。生成tfrecord文件考虑一个简单的分类问题数据集，feature是一个1x5的向量，label取值为0或1...

2019-05-09 17:12:54 304

原创数据处理笔记

数据处理笔记import pandas as pd#读取数据data = pd.read_csv(path, header=0) #head=0表示第一行取为列名，head=-1表示列名为空#改列名data.columns = ['column1', 'column2', 'column3']#取多列data_12 = data[['column1', 'column2']]...

2019-05-05 10:16:10 163

原创 Latex公式编辑

对常用latex公式编辑做一个备忘录大括号x={ab×yc×zx =\left\{\begin{aligned} ab & \times y \\ c & \times z\end{aligned}\right.x={abc×y×z$$x =\left\{\begin{aligned} ab & \times y \\ c &...

2019-04-23 20:07:34 488

原创推荐系统笔记二 Personal rank算法

Graph-based推荐传统做法是构建二元图（bipartite），分为user和item两个node集合，user-item的interaction构建两个集合之间的连线，见下图，其中圆框是三个user，方形框是四个item。该方法在2005年前较流行，现在学术界更流行的方法是Graph Convolutional Network(GCN)。推荐采用personal rank算法，或...

2019-04-23 19:55:41 1181

原创推荐系统论文阅读 Why Does Collaborative Filtering Work?

这篇是一篇比较早的利用图来研究推荐系统的文章（2005）：Why Does Collaborative Filtering Work? — Recommendation Model Validation and Selection by Analyzing Bipartite Random Graphs作者利用二元图（bipartite）方法来对一个数据集做一个量化的评价，希望能够通过二元图拓扑...

2019-04-22 15:53:16 156

原创讲座笔记 Federated GBDT

新加坡国立大学Bingsheng He老师的讲座，主要内容是如何更好构建GPU架构来加速训练ML模型以及最近对联邦学习的一些探索。现在联邦学习中保护用户隐私的算法主要是两类：一类是HE，但计算效率很低，另一类是DP，但会对模型准确率造成影响。很自然的引出一个问题，是否能换一种方法，既能够保证计算效率，又不损害模型准确率？因此他们想到可以利用LSH，将数据映射到buckets中，对一个bucket...

2019-04-14 13:17:37 587

原创元学习 meta-learning

总结一下元学习的概念meta-learning主要是为了解决冷启动或者数据很少的情况，它的想法是学习到任务空间中的一个最优点，这个点与所有任务的最优解是最近的，也就是说学习到一个更好的泛化模型。本质上来说，meta-learning学习的其实是模型参数的一个最优初始化参数。MAML下面这幅图比较形象地说明了MAML学习的过程：θ{\theta}θ代表一个任务模型的参数矩阵，比如说CNN的...

2019-04-04 10:29:28 1222

原创联邦学习论文阅读：Federated collaborative filtering

今年一月刚挂上arXiv的一篇联邦推荐文章Federated collaborative filtering for privacy-preserving personalized recommendation system。摘要作者将一个隐形反馈的CF模型修改成了联邦学习的框架，隐私性用Fed-Avg算法保证。总的来说，没什么创新。问题在保护用户隐私的情况下利用隐性反馈进行推荐框架...

2019-04-02 15:02:25 3198 7

原创联邦学习论文阅读：Federated meta-learning for recommendation

2018年fb的文章Federated meta-learning for recommendation的阅读笔记

2019-04-01 11:27:49 4472 7

原创联邦学习

历史联邦学习的概念最早由google于17年提出[1]，他们构建了一个横向联邦模型用于提升用户下一步输入预测的准确性。解决的问题数据隔离少标签数据传输过程隐私安全分类横向联邦模型：用户特征一致，用户不一致纵向联邦模型：用户一致，用户特征不一致联邦迁移学习：用户，用户特征均不一致安全和隐私安全性通过同态加密HE和secret sharing解决隐私性通过查分隐私D...

2019-04-01 10:29:57 5532 5

原创推荐系统论文阅读：Entire Space Multi-Task Model

阿里18年的论文Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate.code已经开源：代码

2019-04-01 10:09:57 739

原创推荐系统笔记一：overview

Motivated by Dr. Wu, briefly summarize the paper for future reference.This overview is based on my understanding of the paper: Zeynep Batmaz, Ali Yurekli, Alper Bilge, Cihan Kaleli, A review on deep ...

2019-03-26 14:21:51 166

原创 Low-resource Neural Machine Translation

调研了一下目标领域少数据的机器翻译问题，持续更新中Low resource MT指在source domain有大量数据，而target domain数据很少，希望能迁移一些知识来提高target domain翻译的效果。常用作法扩大数据集，e.g. 用单语数据pivot-based method，也常见于zero-source问题，找一个中间domain，A->B，B->...

2019-03-20 10:08:12 1663

原创联邦学习论文阅读 Federated Online Learning to Rank with Evolution Strategies

这是今年刚在WSDM上发表的一篇文章，在联邦学习的框架下考虑了实时排序算法的实现，作者将这个框架称为Federated Online Learning to Rank (FOLtR)。code开源地址解决什么问题？如何在数据保存在本地的情况下，利用客户的交互数据实时优化手机上的排序模型。相比之前的工作创新之处？1）之前算法都是centralized setting，这个框架下sever不...

2019-03-14 11:26:55 3323 3

原创 python pickle读取，储存数据

def picklesave(obj,file): ff = open(file,'wb') pickle.dump(obj,ff) ff.close()def pickleload(file): ff = open(file,'rb') obj = pickle.load(ff) ff.close() return obj

2019-03-11 15:28:26 1780

原创最大均值差异 Maximum Mean Discrepancy(MMD)

最大均值差异MMD用于衡量两个分部之间的相似性，迁移学习中经常用其来衡量源领域和目标领域的差异性。它的基本假设是：如果对于所有以分布生成的样本空间为输入的函数f，两个分布生成的样本足够多，且其对于函数f所有对应值的均值都相等，那么可以认为这两个分布是同一个分布。如何用MMD来衡量两个分布的相似性？简单来说，就是找一个在样本空间的连续函数f，将两个分布的样本在f上的均值相减，要求函数f使这个差值...

2019-03-07 15:09:35 6584 1

原创迁移学习论文阅读：Transfer Learning via Learning to Transfer

论文地址2018cvpr的论文，作者提出了一个L2T的框架，目的是对于一个新的任务，利用以前的经验来帮助决定如何进行迁移，从而避免之前需要尝试多种迁移方法的情况。实验分为两个步骤：第一步：从以往的经验中得到三个数据，源领域和目标领域对，代表迁移知识的潜在特征矩阵以及相比较不用迁移学习时模型性能提升。那么可以建立一个表示迁移知识和模型性能提升的映射关系，成为响应函数，用于决定迁移的内容和方法...

2019-03-07 14:53:18 1228

原创迁移学习论文阅读：Taskonomy: Disentangling Task Transfer Learning

Taskonomy: Disentangling Task Transfer Learning是CVPR2018的最佳论文，斯坦福大学Guibas组的文章。论文地址：http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf作者在知乎有一个非常详细的解释文章：https://zhuanlan.zhihu.com/p/38425434个人笔记：迁...

2019-03-06 09:50:53 887

原创 CDN笔记二 Locality Sensitive Hashing算法续

This is part of my general survey on LSH in CDN classNN searchGiven a set P of n points, design an algorithm that, given any point q, returns a point in P that is closest to q (its “nearest neighbor...

2018-12-25 13:59:54 394

原创 CDN笔记一 Locality Sensitive Hashing算法

本篇笔记基于文章Similarity search in high dimensions via hashing。历史locality-sensetive hashing 局部敏感哈希，简称为LSH，最早由Indyk于1998年提出[1]^{[1]}[1]，1999年被用于解决高维度海量数据的近似查找[2]^{[2]}[2]。近邻查找先来看看什么是k-NN和ϵ\epsilonϵ-NN问题。...

2018-10-24 04:12:20 458

空空如也

空空如也