3 来自文家市的那个小孩

尚未进行身份认证

我要认证

我低调,所以我不说

等级
TA的排名 23w+

K8s CNI网络最强对比:Flannel、Calico、Canal和W

介 绍网络架构是Kubernetes中较为复杂、让很多用户头疼的方面之一。Kubernetes网络模型本身对某些特定的网络功能有一定要求,但在实现方面也具有一定的灵活性。因此,业界已有不少不同的网络方案,来满足特定的环境和要求。CNI意为容器网络接口,它是一种标准的设计,为了让用户在容器创建或销毁时都能够更容易地配置容器网络。在本文中,我们将集中探索与对比目前最流行的CNI插件:Flannel、Calico、Weave和Canal(技术上是多个插件的组合)。这些插件既可以确保满足Kuberne.

2020-08-05 08:50:42

Dgraph的集群部署

Dgraph是免安装版的,可以直接下载安装组件直接运行所需服务,也可以通过docker镜像来启动服务。整个组件包括三个部分: Zero: 是集群的核心, 负责调度集群服务器和平衡服务器组之间的数据,类比于Elasticsearch的master节点; Alpha: 保存数据的谓词和索引. 谓词包括数据的属性和数据之间的关系; 索引是为了更快的进行数据的过滤和查找,类比于Elasticsearch的data节点; Ratel: dgraph 的 UI 接口, 可以在此界面上进行...

2020-07-08 09:36:22

分布式图数据库在贝壳的应用实践

你想知道百亿级图谱如何实现毫秒级查询吗?社区众多的图数据库中如何才能挑选到一款适合实际应用场景的图数据库呢?贝壳找房的行业图谱480亿量级的三元组究竟是如何存储的呢?本文将带你探索上述问题并从中得到解答。本次分享题目为"分布式图数据库在贝壳找房的应用实践",共分为以下五大块内容:图数据库简介 图数据库技术选型 图数据库平台建设 原理&优化&不足 未来规划 先来看一个问题:贝壳找房最大的图谱——行业图谱,目前量级已经达了480亿三元组,如此海量的图谱数据究竟应该如何存储,如何查询

2020-07-06 22:20:02

dgraph bulk和dgraph live的区别和操作

当图谱构建完毕后,就需要将数据上传到图谱查看效果,往往数量量比较大,借助一些工具能实现数据的快速上传,dgraph 自带了两个上传命令,dgraph bulk 和 dgraph live。 dgraph bulk:作为首选方案的原因是它的执行效率比dgraph live高很多,话不多说,先罗列一它的执行命令: dgraph bulk -f data.rdf -s data.schema --map_shards=4 --reduce_shards=1 --zero=lo...

2020-07-06 22:09:10

dgraph搜索时如何限制节点数

在搜索时,往往图谱中与某个节点关联的周围节点数量繁多,我们需要通过一定的条件过滤留下满足需求的结果,dgraph 默认是根据uid排序{ find_follower(func: uid(MICHAELS_UID)){ name age follows (first: 3){ # 获取前3条 name ...

2020-07-06 21:33:00

elasticSearch 全文搜索调优(一)

ES虽然擅长于搜索,但面对存储数据量的不断增加,搜索的性能也不断的下降,在现阶段强调用户体验的时候,如果不能实时或者近实时地提供给用户想要的信息,对一个讲究盈利的产品而言是致命的。我也是刚接触这一块的小白,所以第一阶段针对ES的调优,搜集了一些网上比较有效的方法策略,下面做一个总结。一、refresh_interval 为了数据的实时性,ES的分片会每隔一段时间刷新一次,默认...

2019-07-18 18:59:28

解决几乎任何机器学习问题

解决几乎任何机器学习问题(完整翻译)英文原文:Approaching (Almost) Any Machine Learning ProblemKaggle团队| 07.21.2016Kaggle大师Abhishek Thakur最初在2016年7月18日在这里发表了这篇文章。一个数据科学家每天处理大量的数据。有人说,超过60-70%的时间花在了数据清理,数据转移和数据采集上,使得机器学习模型可以...

2018-06-08 09:59:32

Google Wide And Deep model 解释与应用

    这个模型是Google2016年6月发布用于分类和回归的模型,首次应用在了Google Play的推荐上,它的核心思想是结合线性模型的记忆能力(memorization)和DNN模型的泛化能力(generalization),在训练时同时优化2个模型的参数,从而达到整体模型的预测能力最优,这个有别于组合模型(组合模型是在分别训练几个模型,在预测层再组合)注:为什么线性模型有记忆能力,而DN...

2018-06-05 22:26:35

推荐系统的时效性

时效性推荐系统应该考虑时间效应,因为用户的兴趣是有时间变化的。用户一年前喜欢的东西现在不一定感兴趣,相比于推荐过去喜欢的物品,推荐用户近期喜欢的物品更有参考价值。而在新闻更是如此,推荐过去跟用户兴趣一致的新闻已经失去了意义。每个系统时间效应的大小不同,比如时间对电影的作用就没有新闻那么明显。要考虑时效性,必须加入时间参数,比如三元组(用户,物品,时间)代替简单的二元组(用户,物品)。给定时间 T ...

2018-05-30 21:26:44

分本分类

    机器学习问题是把数据转换成信息进而提取到知识的过程,特征是“数据->信息”的过程,决定了结果的上限,模型是“信息->知识”的过程,则是去逼近这个上限。可见特征提取的重要性。    文本的处理涉及到分词,常规的我们会在网上找一个现成的分词工具,如jieba分词或者stanford的分词工具,网站上也有一些收费的分词工具,我们不需要去知道其中的原理,但如果需要我们对某些序列分词,则...

2018-05-30 19:59:24

朴素贝叶斯模型:文本分类+垃圾邮件分类

学习了那么多机器学习模型,一切都是为了实践,动手自己写写这些模型的实现对自己很有帮助的,坚持,共勉。本文主要致力于总结贝叶斯实战中程序代码的实现(python)及朴素贝叶斯模型原理的总结。python的numpy包简化了很多计算,另外本人推荐使用pandas做数据统计。一 引言  让你猜测一个身高2.16的人的职业,你一般会猜测他是篮球运动员。这个原理就是朴素贝叶斯原理,因为篮球运动员大多身高很高...

2018-05-30 09:24:30

三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)及Spark MLlib调用实例(Scala/Java/python)

 Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理如下:TF-IDF算法介绍:        词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。        词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语...

2018-05-28 21:55:28

【机器学习】汇总详解:矩阵的迹以及迹对矩阵求导

矩阵的迹概念        矩阵的迹 就是 矩阵的主对角线上所有元素的和。        矩阵A的迹,记作tr(A),可知tra(A)=∑aii,1<=i<=n。定理:tr(AB) = tr(BA)证明定理:tr(ABC) = tr(CAB) = tr(BCA)    这个是tr(AB)=tr(BA)的推广定理,很容易证明。    根据定理tr(AB)=tr(BA)可知:       ...

2018-05-27 09:53:34

凸函数与凹函数

    最近在学机器学习的逻辑回归,它的思路很简单,最开始我们做的是线性回归,也就是根据已知样本拟合出一条能够描述其分布的线来,而它的评价标准是最小平方差。    为什么是最小平方差,而不是诸如差的绝对值之类的评价指标,这个就涉及到“最小二乘法”的思想,我们认为线性回归的预测值与真实值之间的差值是符合高斯分布的,对这个的评估就转化为对正态分布表达式中参数的评估,用极大似然估计,便得到损失函数的表达...

2018-05-23 22:16:02

序列化与反序列化

    这两个操作的初衷是无论存储还是网络传输,内容都是二进制的字节序列,而真实的应用场景中,我们还多时候得到的是一个对象,于是都放置在内存中进行操作,但内存始终是有限的,当内存的容量不足以放置这么多数据时,就需要将一部分暂时用不到的数据存储到硬盘中,于是乎就出现了对象序列化的操作。    同时,如果需要进行远端通信数据传输,也面临着对象序列化的问题,接收方会进行逆向操作,也就是对象反序列化。  ...

2018-05-23 21:40:36

go语言——请求url

    虽然go语言和Java语言一样都是采用了restful的编程风格,但略有不同的是go语言的所有请求路由会单独抽出来放置在一个文件内,采用的是:    beego.Router("/task", &controllers.TaskController{}, "get:ListTasks; post:NewTask")或者正则匹配的形式    beego.Router("/downlo...

2018-05-22 21:46:55

我的机器学习之路

    重拾丢弃四年的课本,毅然考取交大研究生,回来继续深造,也算一个机遇,因为15年的时候大数据开始成为风口。来到交大,也可谓一波三折,最开始误打误撞进入无线网实验室,偏离了初衷,好在有换导师的机会,挑出这个坑,进入自然语言处理实验室,它是人工智能上的明珠,跌跌撞撞,在里面软磨硬泡半年有余,却始终不是滋味,于是再次鼓起勇气,跳出原来的圈子,进入机器学习的研究领域。    研究生阶段虽然快要结束,...

2018-05-21 21:20:21
勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。