anshuai_aw1-CSDN博客

转载事务相关博客

事务的多版本控制浅谈数据库并发控制 - 锁和 MVCC多版本并发控制2个结合看。『浅入深出』MySQL 中事务的实现分布式事务的实现原理

2021-08-31 05:49:36 572

Consistency = Consensus?词典会告诉你，Consusens的意思就是“一致”（我想这也许就是中文文献中对“一致性”误用的根源），似乎和Consistency是一样的？答案是否定的。虽然这两个单词的译意接近，但是在分布式系统中作为专业名词来讲，其代表的含义实则相差甚远。我们常说的“一致性（Consistency）”在分布式系统中指的是副本（Replication）问题中对于同一个数据的多个副本，其对外表现的数据一致性，如线性一致性、因果一致性、最终一致性等，都是用来描述副本问题中的一

2021-06-05 04:04:32 661

转载 Database consistency

consistency 这个词在不同的环境下有着不同的含义，各个方向都在使用，导致很难理解:多副本的一致性，即distirbuted一致性hash.CAP理论的一致性ACID里的一致性而这几个一致性的含义都不相同。结合各种资料，自己做个总结方便查阅。一、事务的ACID中的C第一种理解首先来解释下ACID中的Consistency怎么解决。参考文献【1】中的sleep deep解释得很好。直接复制过来：请看下面Wikipedia中关于数据库事务一致性的定义Consistency e

2021-06-03 22:36:32 513

原创 cache consistency: Read-Through, Write-Through, Write-Behind

花点时间记录一下自己对cache的一些基本概念的理解。cache的功能这里略去。一、cache consistencycache consistency这个概念到处都在用。但是各有各的解释，容易模糊。在这里，借助参考文章【1】中的定义简单化这个概念：eventually the value of key k should be the same as the underlying data store, if k exits in cache.即只要cache中的值和back-end中的值一致，

2021-05-23 16:28:34 502 1

原创 FIF 最优性的证明

简单记录一下如何证明page replacement algorithm是offline optimal的算法。主要参考文献【1】https://blog.henrypoon.com/blog/2014/02/02/proof-of-the-farthest-in-future-optimal-caching-algorithm/【2】CSE 202: Design and Analysis of Algorithms【3】大数据算法课程笔记8a：page replacement algor

2021-01-18 22:10:19 534 1

原创 Amortized analysis平摊分析和Competitve analysis竞争分析的关系

文章目录一、Amortized analysis平摊分析1.1 引言1.2 聚类分析 aggregate method1.2.1 栈1.2.2 计数器1.3 记账方法 accounting method1.3.1 栈1.3.2 计数器1.4 势能方法potential method1.4.1 栈1.4.2 计数器1.5 动态表1.5.1 聚类分析1.5.2 记账分析1.5.3 势能分析1.6 记账方法和势能方法的关系二、势能法用于竞争分析2.1 自组织表（self-organizing lists）参考文献

2020-09-18 10:22:39 805 1

原创在线算法(online algorithm)--竞争性分析

文章目录一、competitve analysis二、page replacement2.1 问题背景2.2 deterministic online algorithm2.2.1 LIFO和LFU不是α\alphaα-竞争算法2.2.2 LRU和FIFO是kkk-竞争算法2.3 deterministic online algorithm的竞争比是Ω(k)\Omega(k)Ω(k)参考文献基于参考材料，和自己的理解，本文主要整理了在线学习中的竞争性分析，和它的典型例子：page replacement问

2020-09-08 19:28:12 8329 4

原创算法时间复杂度分析——大O、大Ω、大θ、小o，小ω

最近开始转战传统算法分析的研究工作了，重新拾起以前学过的一些内容。目录一、概述二、对常见的Ο和Ω进行分析2.1 大O表示法2.2 大Ω表示法三、P问题，NP问题，NP-hard问题，NPC问题3.1P问题和NP问题3.2 NPC问题和NPH问题参考文献：一、概述Ο，读音：big-oh；表示上界，小于等于。Ω，读音：big omega、欧米伽；表示下界，大于等于。Θ，读音：theta、西塔；既是上界也是下界，称为确界，等于。ο，读音：small-oh；.

2020-09-07 17:28:30 36633 7

原创 Pytorch入门笔记

class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)

2020-07-15 14:28:29 715

原创解决Hive中collet_list列表排序混乱：sort_array

这篇文章写的比较扯淡。。。。由collect_list形成的列表经过concat_ws拼接后顺序具有随机性，要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可。sort_array就是对array进行排序，且只能升序。我在这里举一个完整的例子和代码：如果，我们有如下的数据集（借助了参考文献1的数据），我们希望对memberid进行分组，依照legcount的顺序，...

2020-05-22 13:55:22 9364 3

转载理解多元高斯分布

p(x;μ,Σ)=1(2π)n/2∣Σ∣1/2exp⁡(−12(x−μ)TΣ−1(x−μ))p(x;\mu , \Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))p(x;μ,Σ)=(2π)n/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))此时我们说随机变量 [公式] 服从一元标准高斯分布, 其均值 [公式] , 方差 [公式] , 其概率密度函数为Z=X−

2020-05-08 21:37:05 4429

转载关于协方差矩阵的理解

转载自《关于协方差矩阵的理解》

2020-05-07 20:39:26 677

原创 Hive操作的笔记：如何查Hive表某个分区的最后更新时间等

记录一些自己在工作的一些小功能的代码实现，不断补充记录。一、如何查Hive表某个分区的最后更新时间。通过查HDFS可以得知：1: 查询某个表的HDFS地址desc formatted app.app_vdp_cate_health_cate1_coinuser_associndex;2: 进入到地址中dfs -ls hdfs://ns7/user/mart_vdp/...

2020-04-02 14:31:08 3888

原创推荐系统（二）：PNN源论文整理和思考

文章目录一、背景二、PNN思想和模型三、优化四、代码实践。参考文献一、背景PNN源论文为《Product-based Neural Networks for User Response Prediction》，是上海交大团队发表在ICDM 2016上。本文在阅读源论文和网上其它资料的基础上，重点整理了论文的细节和思想。我们已经知道，在信息检索领域（IR，Information Retriev...

2020-03-31 18:57:45 1166

原创（二）FFM（Field-aware Factorization Machine）原理

一、背景FFM算法，全称是Field-aware Factorization Machines，是FM（Factorization Machines）的改进版。FFM由Yu-Chin Juan与其比赛队员提出，他们借鉴了field（域）概念提出了FM的升级版模型。简单来说，通过引入field的概念，FFM把相同性质的特征归于同一个field。本文主要介绍FFM的理论，由于其算法复杂度比较高，在...

2020-03-30 17:45:39 2197

原创推荐系统（一）：Wide & Deep源论文整理和思考

最近有一批业务需要用到推荐算法，因此，准备认真整理一下自己学习的推荐算法的思路，以便于正确地应用和对比。一、推荐算法1.1 背景首先应该需要了解推荐算法的一些基本思路，我之前整理过一篇《（一）推荐算法概述——以协同过滤为主》。简单来说，推荐系统分为两种： CF-Based（协同过滤）、Content-Based（基于内容的推荐）协同过滤(collaborative ﬁltering)就...

2020-03-26 14:00:11 3123 2

原创 Tensorflow.Dataset中map，shuffle，repeat，batch的总结

Dataset API是TensorFlow 1.3版本中引入的一个新的模块，主要服务于数据读取，构建输入数据的pipeline。Google官方给出的Dataset API中的类图：我们本文只关注Dataset的一类特殊的操作：Transformation，即map，shuffle，repeat，batch等。在正式介绍之前，我们再回忆一下深度学习中的一些基本概念。batch siz...

2020-03-25 15:03:54 10101 2

原创 Tensorflow.feature_column的总结

一、简介tensorflow提供了一个功能强大的特征处理函数tf.feature_column，feature columns是原始数据与estimator之间的过程，其内容比较丰富，可以将各种各样的原始数据转换为estimator可以用的格式。特征数据主要包括categorical和dense(numeric或者continuous)两类，处理方法是使用tensorflow中的feature...

2020-03-24 19:34:18 4533

转载 Python: Matplotlib中subplots多子图绘图的一些tricks

本文转载自《Matplotlib中多子图绘图时，坐标轴及其label的几种排布方式》。目录1、最普通的2、只在最外层坐标轴显示 Label3、如果 x label和y label 都一样可以只显示一个4、刻度也只在最外侧显示5、或者Label仍然分开显示6、加入 colorbar7、整个 fig 共用一个 colorbar8、colorbar 横置9、...

2020-03-02 10:54:41 9740 1

原创 Git, GitHub和GitLab的区别和联系

话说有将近一年没更新过博客了。惭愧。今天整理下Git, GitHub和GitLab这三个名词的概念，虽然经常用GitHub，但是其实对于这些概念还是有些混淆。一、GitGit是一种版本控制系统，是一个命令和工具。Git是一个开源的分布式版本控制系统（Version Control System），它没有中央服务器的概念，用户需要修改某个文件时，必须把代码仓库完整地镜像下来而不是只提取...

2020-02-17 11:57:34 697

原创 PU learning简介（附python代码）

一、引言在现实生活中，有许多只有正样本和大量未标记样本的例子。这是因为负类样本的一些特点使得获取负样本较为困难。比如：负类数据不易获取。负类数据太过多样化。负类数据动态变化。举一个形象点的例子：比如在推荐系统里，只有用户点击的正样本，却没有显性负样本，我们不能因为用户没有点击这个样本就认为它是负样本，因为有可能这个样本的位置很偏，导致用户没有点。因此，有研究人员开始关注PU Lea...

2019-04-23 18:16:50 14080 7

原创深入理解L0，L1和L2正则化

正则化技术是机器学习中常用的技术，一般是用来解决过拟合问题的。为什么范数可以作为机器学习的正则化项？为什么L1正则化可以用来进行特征选择的工作？为什么正则化可以解决过拟合问题？本篇博客从机器学习中为什么需要范数讲起，引出L0L_0L0，L1L_1L1 和 L2L_2L2的定义，然后回答上述的问题。文章目录一、损失函数与目标函数二、范数与正则项2.1 定义2.2 L1和L2 范数的对比2.2...

2019-04-21 18:27:57 7078 1

原创分类问题中类别不平衡问题的有效解决方法

LightGBM二分类处理：在LGBM的文档中，可以看到有两个参数来处理类别不平衡，分别是is_unbalance和scale_pos_weight 。在上图中的介绍中，这2个参数只能选其一，不能同时选。这说明了什么呢？这2个参数肯定是起到了相同的作用。这2个参数的关系是什么呢？在issue中找到了答案：if is_unbalance = true, weight of each pos...

2019-04-14 14:13:51 8580 1

原创适合工业界的特征选择方法介绍

一直想写一篇关于特征选择（Feature Selection）的博客。有两个原因：第一、特征选择对于传统机器学习任务是十分重要的；第二、自己在硕士期间的研究方向就是特征选择，对于学界前沿的特征选择方法是有那么一丢丢了解的。在有监督，无监督，半监督以及单标签，多标签各种场景下，也做过一些工作：《Local-nearest-neighbors-based feature weighting for...

2019-04-02 12:44:23 1719 1

转载 Spark性能调优详解

本文完全转载自《美团技术沙龙》和过往记忆博客。在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执...

2019-04-01 15:46:39 763

原创蓄水池采样算法（Reservoir Sampling）原理，证明和代码

有一个在大数据下很现实的例子：“给出一个数据流，这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法，使得数据流中所有数据被选中的概率相等。”解决这个问题既需要算法设计，又需要一些概率论知识，因此对于大多数人，起码包括我，这不是一个立刻就能想出答案的问题。解决这个问题的算法叫蓄水池采样（Reservoir Sampling）算法。本篇博客介绍该算法的原理、证...

2019-03-22 21:01:30 14916 3

原创（一）异常检测算法：Isolation Forest原理及其python代码应用

异常检测 (anomaly detection)，又被称为“离群点检测” (outlier detection)，是机器学习研究领域中跟现实紧密联系、有广泛应用需求的一类问题。但是，什么是异常，并没有标准答案，通常因具体应用场景而异。大多数文献对异常的定义虽然笼统，但其实暗含了认定“异常”的两个标准或者说假设：异常数据跟样本中大多数数据不太一样。异常数据在整体数据样本中占比比较小。为了刻...

2019-03-13 20:19:16 19260 1

转载 Python: 一文看懂pandas的透视表pivot_table

本文转载自知乎《Pandas | 一文看懂透视表pivot_table》，在原文基础上略有增删改。感谢原作者非常生动的例子。目录一、概述1.1 什么是透视表？1.2 为什么要使用pivot_table？二、如何使用pivot_table2.1 读取数据2.2Index2.3Values2.4Aggfunc2.5Columns2.6pivot_t...

2019-03-11 18:31:21 14855 9

原创 python：column_or_1d用法

今天在读代码的时候，发现Python sklearn的utils有个这样的函数：sklearn.utils.validation.column_or_1d。第一次遇到这个函数，记录一下用法。在机器学习任务中，这个函数一般是对数据集的Y进行操作。官方说明如下：可以看到对1维array进行raval()。warn是提出警告。这个警告是说，如果我们输入的y是2D的形式(shapes, 1...

2019-03-11 15:38:10 6295

转载（一）推荐算法概述——以协同过滤为主

推荐算法具有非常多的应用场景和商业价值，因此对推荐算法需要认真学习。推荐算法种类很多，但是目前应用最广泛的应该是基于协同过滤的推荐算法。本文总结了多种推荐算法，其中重点对协同过滤的推荐算法做一个概括。目录一、推荐系统的作用二、推荐算法概述2.1基于流行度的算法2.2 协同过滤算法2.2.1 基于用户的CF2.2.2 基于物品的CF2.3 基于内容的算法2....

2019-03-06 20:51:45 1248 4

原创（二）常见的分类评价指标及代码实现与应用

在上一篇《（一）常见的回归评价指标及代码应用》中我们介绍了评价回归性能的指标。sklearn的官方文档《 Model evaluation: quantifying the quality of predictions》中，对于二分类，多分类和多标签问题，有非常详细的指标介绍和实现。本篇博客我们只介绍常见的分类评价指标，以及它们的代码实现与应用。文章目录一、二分类指标（Binary Clas...

2019-03-03 18:02:02 5533 3

原创（一）常见的回归评价指标及代码实现与应用

每个机器学习模型都试图使用不同的数据集来解决具有不同目标的问题，因此，对于不同的机器学习任务，在充分理解上下文的基础上，选择合适的机器学习评价指标是非常重要的。只有了解了本次机器学习建立模型的任务，才能选择合适的评价指标。本篇博客关注回归问题的评价指标。先介绍常用的评价指标，然后用代码实现一下部分评价指标。分类问题的评价指标的问题随后会整理。一、回归指标（Regression Metrics...

2019-03-01 18:24:39 5359 3

原创 PySpark-DataFrame各种常用操作举例

最近开始接触pyspark，其中DataFrame的应用很重要也很简便。因此，这里记录一下自己的学习笔记。详细的应用可以参看pyspark.sql module。这是官网文档，里面记录了详细的DataFrame使用说明。目录一、创建DF或者读入DF二、查2.1 行元素查询操作2.2 列元素操作 2.3 排序2.4 抽样三、增、改四、合并 join / un...

2019-02-23 13:29:52 33908 1

原创机器学习中最优化问题总结

记录一下自己学习机器学习中最优化问题的过程。一、基础知识1.1 梯度向量、Jacobian矩阵和Hessian矩阵这里讨论的三个概念：梯度向量、Jacobian矩阵和Hessian矩阵它的自变量：x=(x1,x2,⋯&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;ThinSpace;,xn)T\mathbf{x} = (x_1,x_2,\cdots,x_n)^Tx=(x1,x2,⋯,xn)T因变量有两种情况：一维f

2019-02-14 17:36:38 1196

原创关联规则（三）：带时间间隔的序列模式挖掘

序列模式挖掘，即是在序列数据库中挖掘出频繁子序列，是一个具有广泛应用的重要的数据挖掘问题。PrefixSpan 算法可以有效地挖掘出大规模数据的频繁子序列，然而，它并没有项集之间的时间间隔。因此，本文提出了一种带时间间隔的序列模式挖掘算法，我们称其为I-PrefixSpan算法。一、引言带时间间隔的序列模式可以提供比传统序列模式更有价值的信息。我们以零售业务为例：在带时间间隔的序列模式的帮助下...

2019-01-24 16:02:48 3345 2

原创利用Anaconda管理多个python版本

问题描述最近在搞序列模式挖掘prefixspan算法，正好有一个大神写好了这个库PrefixSpan-py。安装没有报错，安装以后，运行程序发现报错。但是在朋友电脑上，发现一样的安装步骤和代码却可以运行。发现他的python版本是3.6.6，而我的python版本是3.5.3。于是，猜测可能是python版本的问题。因为我python3.5.3的环境已经安装好了很多个库，我担心简单地把版本从3...

2019-01-21 14:23:41 1646

转载完全图解RNN、RNN变体、Seq2Seq、Attention机制

本文转自何之源知乎文章《完全图解RNN、RNN变体、Seq2Seq、Attention机制》。PS：建议先阅读之前的博客《深度学习（五）：循环神经网络(RNN)模型与前向反向传播算法》。本文主要是利用图片的形式，详细地介绍了经典的RNN、RNN几个重要变体，以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角，帮助初学者更好地入门。一、从单层网络谈起在...

2019-01-11 18:00:13 698

原创排序学习（Learning to rank）综述

Learning to rank(简写 LTR、L2R) 也叫排序学习，指的是机器学习中任何用于排序的技术。目录一、LTR引言1.1 LTR的出现背景1.2 LTR基本框架二、训练数据的获取2.1人工标注2.2搜索日志2.3公共数据集三、特征提取四、模型训练4.1 单文档方法（PointWise Approach）4.2文档对方法（PairW...

2019-01-09 11:38:19 43407 5

原创 Scala语法快速入门

最近开始接触一点Scala的东西，这篇博客记录的都是一些最基本的Scala语法，主要是方便自己查询用，所以不是很系统。目录二、控制结构2.1 条件表达式2.2 块表达式和赋值2.3 循环2.4 增强for循环和for推导式三、Scala 方法与函数3.1 方法3.2 函数3.2.1 指定函数参数名3.2.2 可变参数3.2.3 高阶函数3.2.4...

2019-01-07 15:18:32 3041

原创 Scala下划线“_”的常用用法大全

在Scala中，我们随处可见下划线“_”，本篇博客记录了Scala中下划线“_”的各种常用用法，可能不是全部的用法。目录一、集合和函数中使用1.1 集合1.2 函数二、作为通配符2.1 import语句2.2 case语句2.3 元组（tuple）三、下划线和其他符号组合的使用方式3.1 下划线与星号（_*）3.1.1 变长参数3.1.2 变量声明中...

2019-01-04 17:51:39 2369

空空如也

空空如也