自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

骚铭科技SM-Tech!

讲述是最好的沉淀!分享是最好的备份!

  • 博客(31)
  • 资源 (6)
  • 收藏
  • 关注

原创 广告点击率平滑

CTR 平滑在计算广告中,有时存在一些比较稀疏的数据,这时需要对这些数据进行平滑。例如,某个广告,只有三次浏览(Impression),0次点击(Click),那么点击率为0%?如果恰巧有一次点击,点击率为33%?显然这样不合理,这样的点击率预估就很不准确了。因此,我们需要一种可以对点击率平滑的方法。下面先介绍什么是BetaBeta分布。Beta 分布关于 BataBata 分布,可以参考这篇博文:

2017-07-04 20:34:17 1414

原创 推荐系统(基本方法+评估指标+工具)

基本方法Neighborhood-based item-itemModel-based 矩阵分解针对隐式反馈的矩阵分解方法评估指标ErrorPercentile-rankHit Radio at NN or HRNN工具参考资料基本方法1 Neighborhood-based (item-item)参考文献:Item-based Collaborative Filtering Re

2017-03-17 15:19:26 9106

原创 [cs229] k-means 图像压缩

k-means 算法因为简单易实现,所以有许多应用。其中一个有意思是应用于有损图像压缩。其核心思想是通过聚类将颜色表示数量减少。例如,传统RGB,每个通道0~255(8 bits),则可以表示16777216 (24 bits)种颜色,通过聚类可以减少到16种颜色。下面以此为例,比较一下原始图像与压缩图像。迭代次数 50 次,聚类数目 16。

2017-03-07 10:30:04 1953 2

原创 [UNIX系统编程] I/O缓冲

使用缓冲的目的当然就是为了提高性能了。在UNIX中,I/O 有两层缓冲: 1. 内核缓冲 2. stdio 库缓冲内核缓冲: 当使用系统调用write的时候,并不是直接写入磁盘,这样性能太挫。而是先写到内核缓冲区,等缓冲区满了,或者调用sync的时候,才写入磁盘。经过实验,我们发现当缓冲区大小为4096个字节时,性能几乎达到最优,于是乎就用这个值了。stdio 库缓冲: 当使用printf

2016-11-19 15:50:31 438

原创 自定义哈希函数

每种数据类型都需要相应的 hash function。在C++中,一些内置类型不需要自定义哈希函数,例如,int,double,string等。但是一些自定义的数据类型就需要自定义哈希函数了。例如,下面定义了直线Line,根据y=kx+by = kx +b,每条直线需要两个变量来定义:kk,bb。注意,除了定义哈希函数外,记得还要重载==运算符,也就是定义等于操作。#include <iostrea

2016-08-23 09:47:33 3003

原创 [ZeroMQ] libzmq 源码阅读 之 Reactor机制(mailbox, event)

[ZeroMQ] libzmq 源码阅读 之 Reactor机制(mailbox, event)ZeroMQ libzmq 源码阅读 之 Reactor机制mailbox event信号员 signaler进程间通信signaler 实现多路复用器poller 监听 socketmailboxIO Thread总结zmq在创建的时候回启动两类线程,一是应用线程(Application

2016-07-20 20:23:28 3436 1

原创 [ZeroMQ] libzmq源码阅读 之 thread_t

libzmq源码阅读 之 thread_t最近阅读了ZeroMQ源码的poll的实现,看到类 thread_t 挺有意思,记录一下。我认为,这个thread_t是对pthead的一层封装,弄成C++的模样。thread.hpp#include <pthread.h>namespace zmq { typedef void (thread_fn) (void*); // 定义个类型‘线程函数

2016-07-18 20:21:53 840

原创 Function Table 函数指针表

定义一个函数表类,包含一个 vector 成员 funcList。问题是,如何定义函数指针? 如下所示,f即为函数指针。vector<void (*)()> funcList;void add(void (*f)() );#include <iostream>#include <vector>using namespace std;#define DF(N) void N() { \cout <<

2016-06-30 10:57:16 1154

原创 [MIT 6.824 Distributed System] Google File System

Google File System (GFS)主题:性能、容错、一致性什么是一致性(consistency)?当data是多副本的和并发读写的的时候,保持数据的一致性是非常重要的。弱一致性:read() 可能返回过期的数据(stale data)——不一定是最新的数据。强一致性:read() 返回最近一次 write() 的数据。权衡:strong consistency

2016-06-30 08:43:17 840

原创 [MIT 6.824 Distributed System] Lab 1: MapReduce (2016)

MIT分布式系统课程实验1:Lab 1: MapReduce以下是我自己实现的版本,与大家分享一下,有问题欢迎提出,也希望各位指出错误!在common.go里面可以打开调试:// Debugging enabled?const debugEnabled = trueOverviewPart I: Map/Reduce input and output第一部分主要是实现文件读写,读写内容当然就是ke

2016-05-23 09:48:10 2645 2

原创 Decision Tree

决策树最近研读了机器学习(周志华)的第四章决策树,在此做点小笔记。基本概念决策树,顾名思义,就是一棵用于做决策的树,其实我觉得就是个分类器。生成一棵决策树的基本思路很简单,用贪婪的方法不断降低分类对象的混乱度,或者说不断提高纯度(purity)。用来度量混乱度或纯度的方法有很多,其中比较经典和简单的方法是信息熵, Entropy(t)=−∑k=1|Y|pklog2pkEntropy(t) = -\

2016-05-18 08:45:46 580

原创 [Leetcode] Minimum Height Trees

Minimum Height Trees For a undirected graph with tree characteristics, we can choose any node as the root. The result graph is then a rooted tree. Among all possible rooted trees, those with minimum

2016-05-13 15:20:32 394

原创 inline function

最近看Thinking of C++,对内联函数又有了更深的了解。为什么要用 inline function?我们知道 C++ 由 C 发展而来。在C语言中,为了提高效率,经常使用预编译的方法来定义函数,也就是我们经常看到的宏 #define …。由于是代码替换,避免了函数调用所带来的堆栈操作,从而提高效率。然而,基于这种简单文本替换的预编译函数,常常会带来各种意想不到的bugs。所以,使用宏定义需

2016-05-13 15:19:13 539

原创 namespace 的使用

最近在看libzmq的源码,里面大量使用namespace。平时没怎么用过,故写一段测试代码作为笔记。我抽象了一个客厅类 living_room_t,里面有chair_t 和 desk_t。CMakeListscmake_minimum_required(VERSION 3.3)project(namespace_test)set(SOURCE_FILESmain.cppliving_room

2016-05-09 09:21:31 2014

原创 ZeroMQ 源码阅读

一、创建contextzmq_ctx_new()context 干嘛用的?context 是用于管理全局状态的,例如sockets, io_thread, repear等。下面是zmq内部结构白皮书的解释: To prevent this problem libzmq has no global variables. Instead, user of the library is respons

2016-05-08 14:31:27 609

原创 关于家用宽带的几点不满与想法

最近家里4M宽带升级了百兆光纤,感觉电信的垄断生意实在是做得太离谱了。由此萌生了hack它的想法。首先看看深圳宽带的费用:4M宽带套餐,一年1440¥100M光纤套餐,一年1980¥如果我将百兆光纤的带宽分给20户(5M/户),那么每户的年费用将大幅降为99¥/年。可见,价差巨大啊!说什么降费提速,我怎么觉得这里面黑得很!Hack想法:大厦独立运营 最直接的想法是采用平均分配策略。拉一条光纤

2016-05-08 08:14:12 342

原创 [Leecode] Maximum Gap

Maximum Gap题意很清晰,要找出最大的gap,但是是顺序序列最大的gap。由于要求线性时间,很容易想到算法导论中说的线性时间排序算法:Counting Sort, Radix Sort 和 Bucket Sort。题目中还有一个提示,序列中每个元素都是32 bits 的 positive integer,所以,我想用基数排序应该是比较恰当的。 基数排序的时间复杂度如下, O(d(n+k)

2016-02-02 20:08:54 290

原创 [Leetcode] LRU Cache. 哈希表+双向链表之实现

题目首先来看题目,就是实现一个LRU,最近最少使用。 Design and implement a data structure for Least Recently Used (LRU) cache. It should support the following operations: get and set. get(key) - Get the value (will alwa

2015-12-12 14:45:11 3154 1

原创 [Cloud Networking Notes] Week4

CDN (Content Distribution Network)为什么要CDN?要为页面加载加速,可以使用static caching的方法。然而静态缓存的方法要面对两个大问题:Volume and diversity of contentDynamic content, encrypted content而CDN可以解决这些问题。如何实现CDN?实现CDN大致分为三步:将内容服务器(c

2015-12-05 15:11:47 626

原创 [Cloud Networking Notes] Management and sharing of network infrastructure in cloud data centers

如题,本周课程主要讲述云数据中心的网络管理,和网络基础设施的共享。Targets and Motivations具体的目标与动机可以参考下面这篇文章: VL2: A Scalable and Flexible Data Center Network我们希望数据中心做到高可伸缩性和高利用率,也就是灵活和高效。 To be agile and cost eff ective, data cente

2015-12-01 15:38:22 705

翻译 [Cloud Networking Notes] Congestion

[Cloud Networking Notes] Congestion参考论文:Data Center TCP (DCTCP)传统TCP的拥塞控制传统的拥塞控制是很粗糙的,慢启动,加性增长,乘性减少。如图,存在什么问题?参考Cloud Networking Quiz 2 的第15题: Question 15 What problems does TCP’s reaction to loss

2015-11-24 10:36:30 460

原创 [Cloud Networking Notes] Routing and Traffic Engineering

Routing and Traffic Engineering传统数据中心的网络结构是非常简单的,就像实验室的局域网一样,采用分层次的树状结构。路由算法采用Spanning Tree。 但是用这种方法的话,顶层的交换机压力会非常地大,需要花大资金买高端的交换机。一种改进方法如下所示,将大交换机才分成更多小交换机,并且使用更多的链路。 现在有许多更屌的路由方法,例如TRAIL,所有链路全部接上,全

2015-11-21 11:44:10 729

原创 电子干涉--粒子还是波?

电子双缝干涉难题,粒子还是波?最近看《上帝在掷骰子吗?》,看到许多非常有意思的量子物理问题。例如电子双缝干涉实验,就十分蛋疼。我们都知道,波粒二象性,电子既有粒子性,也有波动性。高中物理这讲的,我也没深究过。电子可以既是粒子又是波吗?不妨先来做个思维实验。首先,我们假设电子是波。当个这团波经过双缝,出现干涉现象,很好。那么最后呢?当这团波打在屏幕上,会显示出一团干涉条纹么?显然不是嘛,仅仅只是一个亮

2015-10-31 20:51:52 807

原创 Paxos算法

共识算法Paxos 算法共识问题Paxos算法描述伪代码直观理解容错性分析共识问题什么是共识问题? 粗略地说,该问题是在一个或多个进程提议了一个值应当是什么后,使进程对这个值达成一致协定。解决什么问题? 在一个计算机提议一个动作后,控制引擎的所有计算机要决定“继续”还是“放弃”。

2015-10-24 10:41:42 828

原创 智能指针

智能指针shared_ptr用途shared_ptr目的是为了解决资源泄露的问题。学C++的时候,老师千叮万嘱new了之后一定要delete掉,否则很容易发生内存泄露等问题。但实际上,new/delete这种模式会出现很多问题。我知道的有两点: 1. 忘记delete。 有时候代码比较复杂,或者没有直接使用new(例如在成员函数中new),是非常容易忘记delete的。 2. 在执行d

2015-10-23 20:01:16 341

原创 Indicator random variables --Hat check problem

Indicator random variablesHat check problem N个顾客进入一家酒店,把帽子给保管员。走的时候保管员随机把帽子还给顾客,请问多少个顾客可以拿回自己的帽子?假设XX为拿回自己帽子的顾客的数目。XiX_i为第ii个顾客拿回自己帽子的数目(等于概率)。有, X=X1+X2+...+XnX=X_1+X_2+...+X_n 关键在于,如何计算每个顾客拿回自己帽

2015-09-07 22:14:07 810

原创 使用Hortonworks Sanbox 练习 Hadoop 和 MapReduce

最近在上Coursera的云计算系列课程。在Cloud Application里面,需要提交练习编写MapReduce的作业。便捷模拟Hadoop环境的虚拟机是Hortonworks Sanbox。开机之后可以SSH登陆,127.0.0.1:2222# 添加环境变量export HADOOP_CLASSPATH=$JAVA_HOME/lib/tools.jar# 编译hadoop com.su

2015-09-07 08:35:19 1101

原创 Cloud Computing Application Notes

Cloud Computing Application NotesCloud utility pricingD(t)D(t): demandPP: max(D(t))max(D(t)), peak demandBB: baseline unit costs (例如,买车,平均每天10刀)CC: cloud unit costs (例如,租车,平均每天45刀)UU: Unit Pre

2015-08-27 21:06:17 392

原创 期货大作手风云录 --简记

期货大作手风云录 –简记周末一口气把期货大作手看完了,根本停不下来。有很多让人拍案叫绝的交易思路和方法,以及各种毁三观的交易现实。建仓印象比较深的是建仓方法。人总是会犯错误的,不可能总是看多就涨,看空就跌。正确的建仓方法是:试仓建仓加仓平仓如果试仓成功,说明你是对的,才可以逐步建仓。否则,试仓失败,马上止损。而在逐步建仓的过程中,采用“浮盈加仓”,账面盈利了才加仓。同时,必须保证绝不让自己

2015-08-24 21:38:09 824

原创 Red-Black Tree

红黑树前段时间看到STL map使用的数据结构是红黑树,研究了一下。红黑树的由来红黑树是二叉查找树的升级版本。二叉树只是平均树深为O(lg(n)),但是无法保证树深h一定是O(lg(n))。这就是红黑树发明的原因。红黑树为每个node增加一个bit,为color:red or black。红黑树的属性节点只有两种颜色:黑的和红的根一定为黑色叶节点(NIL)一定是黑的红节点的两个孩子一定是黑的

2015-08-23 19:36:44 380

原创 TCP/IP基于数据报,而不是面向连接,优点何在?

TCP/IP基于数据报,而不是面向连接,优点何在?

2015-08-22 15:45:26 1323

Machine+Learning+for+Sequential+Data+A+Review

序列型数据(例如文本、手写字等)的机器学习方法综述。

2018-05-30

ID-CNN+CRF

针对中文命名实体识别(NER),采用IDCNN+CRF的方法。

2018-05-30

命名实体识别(Standford)

斯坦福NLP的信息提取,包括命名实体识别和关系提取等。

2018-05-30

Neural Architectures for Named Entity Recognition

Neural Architectures for Named Entity Recognition。中文命名实体识别论文,方法是BiLSTM+CRF。

2018-05-30

人工智能_从学科教学到工程实践_ppt

人工智能,从学科教学到工程实践。介绍性ppt,包含基本概念和算法等。

2018-04-21

深度学习介绍-台大-李宏毅

Deep Learning Tutorial 李宏毅。台大深度学习的介绍性PPT,适合入门。

2018-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除