自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Liao_Wenzhe的博客

github: LiaoWenzhe,欢迎star

  • 博客(56)
  • 收藏
  • 关注

原创 大规模Aiops系统在核心网数据中心的探索与实践-算法架构

目录1.背景:2. KPI分类:3. 分类异常检测 ​4. 关联分析与告警收敛5. 根因分析1.背景:异常检测需要监控的指标繁多(50万左右),覆盖了机器性能,业务用户数,率等众多指标检测。而利用最少的人为参与同时及时准确发现这些指标数据的异常波动,是业务稳定性的重要保证。 但是这些数据不但数量众多,而且不同业务的曲线也有截然不同的特征:2. KPI分类:由于KPI数量众多,且形状各异,故先对海量KPI数据进行分类,包括离线和在线2个模块: ...

2022-02-13 18:38:11 706

原创 liaowenzhe的算法/研发工程师工作5年2017-2021复盘总结

前言:年终将近,回顾了2017年毕业到2021年的一些事,有些感触,才明白了那些经历教会我的事情。在生活上、成长上、事业上需要一步一脚印,今天在这里整理了我这几年的思考,分享给大家,希望对看完的你能有所帮助,愿所有人功不唐捐。1.关于生活的反思。2.关于爱情,亲情,友情的反思。3.关于技术的反思。4.关于职场的反思。5.关于学习与成长的反思。...

2022-01-03 20:56:58 4092 4

原创 孤立森林异常分数公式剖析

孤立森林异常分数公式剖析

2022-11-18 22:18:57 312 1

原创 大规模AIOPS在核心网数据中心的探索与实践-工程架构

大规模AIOPS在核心网数据中心的探索与实践-工程架构

2022-11-13 13:15:23 205

原创 python - 统计学实战

python - 二项分布,柏松分布和正太分布实战

2022-09-26 15:25:16 600

原创 鸟哥私房菜&linux就该这么学-学习记录

运维开发

2022-08-31 23:37:31 1182

原创 ORACLE认证课程

ORACLE认证课程

2022-08-31 23:35:23 179

原创 Hadoop&&Spark

大数据

2022-08-31 23:34:38 565

原创 isc2022主题演讲:AI驱动API安全风险检测与运营

AI

2022-08-31 23:19:44 362

原创 利用scikit-network 进行 page/node Ranking

scikit-network介绍:scikit-network - 知乎pageRank/nodeRank介绍:图上的node ranking问题 - 知乎[论文阅读] PageRank Algorithm - 知乎from sknetwork.ranking import PageRankfrom sknetwork.data import houseimport pandas as pd import numpy as np from sknetwork.ranking

2022-04-16 16:33:13 1296

原创 如何在toB数据服务公司做数据算法工程师

1. 背景随着中国政府数字化政策的大力推行,中国互联网技术的高速发展与大数据/Ai技术的大力发展,各行各业都展开了轰天裂地的数字化改造,也诞生了一批面向传统企业(保险/金融/运营商)的数字化服务公司(toB),新的职业:数据算法工程师,也应运而生。2. 理解ToBToB: ToB面对的是企业级客户,就是客户是企业。企业所涉及的业务系统往往是复杂的,比如ERP系统、OA系统、CRM系统,因此ToB行业往往会面对较复杂的业务场景。这类系统的特点是:业务场景多且复杂、业务流程长、各个企业之间差别较大。

2022-04-05 19:20:32 847

原创 利用python-sknetwork进行图聚类/社区发现

社区发现是基于图结构的非常经典的聚类算法,与传统聚类算法:kmeans/dbscan等不同,前者能将离散数据进行团伙聚类,从而解决传统聚类方式基于连续值距离度量的缺点。社区发现综述:马东什么:社区发现算法综述120 赞同 · 13 评论文章代码如下:from IPython.display import SVGimport numpy as npfrom scipy import sparseimport pandas as pdfrom sknetwork.utils imp

2022-03-30 22:50:05 1590

原创 机器学习中离散特征的聚类方法

有时候我们要对离散特征进行相似聚类,数据样例如下:可以看到有很多非连续的特征,没法直接利用聚类的距离度量,因此这种状况计算类别有几种方式:1. 图聚类,就是将特征转化为图中的一个点,然后跑图算法。2. 先用文本距离算法(例如jaccard)计算好相似矩阵,再利用sklearn dbscana的precomputd参数,先计算好相似矩阵,再进行聚类。例如:import numpy as npfrom scipy.spatial.distance import pdist.

2022-03-30 22:36:54 4728 1

原创 拆掉思维里的墙-阅读记录

1.从职业发展来看,一套房子消灭一个梦想。有人问音乐人高晓松,为什么结了婚还租房住,不买房?高晓松回答:“我不买房,全天下都是我的,想住哪儿就住哪儿,买了房就只剩一个角落是我的。我妹也没买房,但我俩都走遍了全世界。”王石抛出了惊人之语:“对于那些事业没有最后定型,还有抱负、有理想的年轻人来说,40岁之前租房为好。因为房贷而损失了多少上升和自由的机会?2爱情还是安全感?结婚是为了什么?不要为了所谓的安全感而结婚。“我不能没有你!”我们在很多疯狂的关于爱情的血案、情仇、报复和自残背后都能听到这样

2022-03-13 21:41:28 337

原创 态度-阅读记录

1.一个乐观的人生态度比什么都重要。2.相比你的乐观,取得好成绩是次要的。3.共同读一本书,是梦话,梦馨与我沟通的一种方式。4.不同地方对幸福的定义不一样,你要因地制宜。在中国,勤劳致富。5.莫扎特并不知道自己会在后世留下这么大的成就,他的信念就是给这个世界留下点美好的东西,就是这个心态造就了莫扎特。你不要想着在这个世界上留下多大的成就,尽自己最大努力给身边的人带来正向影响,尽职尽责,尽力在这个世界留下点美好的东西,就可以了。6.通过练钢琴这个过程,让你知道战胜困难的过程,成功是

2022-03-13 21:27:54 470

原创 穷查理宝典-阅读记录

1.比如说,查理思考问题总是从逆向开始。他的这种思考方法来源于下面这句农夫谚语中所蕴含的哲理:我只想知道将来我会死在什么地方,这样我就不去那儿了。2查理在他漫长的一生中,持续不断地研究收集关于各种各样的人物、各行各业的企业以及政府管治、学术研究等各领域中的人类失败之著名案例,并把那些失败的原因排列成正确决策的检查清单,使他在人生、事业的决策上几乎从不犯重大错误。这点对巴菲特及伯克希尔五十年业绩的重要性是再强调也不为过的。3任何一个问题在他看来都可以使用正确的方法通过自学完全掌握,并可以在前人的基

2022-03-13 21:12:50 593

原创 这才是数学-阅读记录

1.思维灵活、团队协作还有贯彻到底的执行精神才是我们招聘中更加看重的。2接受传统教育的学生纷纷表示,走出校园后用到数学的地方确实不少,但是从来没有用到过在课堂上学到的那些知识,他们觉得有一道明确的分界线将数学课堂与现实生活划分开;而对于那些接受以现实问题为导向教育的学生来说,在学校获取的知识可以与现实生活很好地衔接,因此掌握的知识在工作与生活中能够得到很好的发挥。3数学之魂?数学的本质?什么是数学?数学家在干什么?以实际问题为导向学习数学。数学是一种“研究方法”或者一套“思想体系。数学可

2022-03-13 21:08:07 587

原创 你只是看起来很努力-阅读记录

1.家人的重要性那时他年纪轻轻,长发飘飘,只知道拼工作,却不知道家人对自己的重要性,在妻子最需要自己的时候不在她身边,后来妻子大出血,没有保住孩子,那成了他一辈子的悔恨。2我们总容易被光芒吸引,却不知道每个人前显贵的人,背后跪过多少次。3遇到问题,挫折,不要抱怨,想办法解决,安慰。挫折已经够让人长记性了,不要责骂。传递正能量。抱怨的人往往给不出解决方案。抱怨过后給出解决方案才能给人希望。可是,如果那个男生没有批评这个姑娘,而是选择去安慰她:钱丢了没事儿,我们找找,找不到我来赚,都会解决的;捷

2022-03-13 20:03:37 204

原创 愿你的青春不负梦想-阅读记录

1.想要变得与众不同,最重要的是不要与别人比较,你应该和自己比较。2.迷茫的时候也不能停下进步的脚步,前行之中总会有转机。在困难中前进,会有转机----做好当前的事3.我设定的阶段性目标连起来就会变得越来越高远。#必须要有目标4.内在与外在共修!5.我的父母都是纯朴的农民,他们虽无力教我读书,但他们用勤劳和善良教会我基本的做人道理和是非标准。6.最后自卑反而成了我学习的动力。7.追随了不少优秀人物,公开或偷偷地从他们身上汲取精华。8.就算被女生拒绝了,那又能怎样?不敢?9.一

2022-03-13 19:54:21 323

原创 隐私计算-联邦学习,多方安全计算,可信计算的区别与联系

联邦学习,多方安全计算,可信计算作为隐私计算三类技术是有各自的特点和差别,核心思想不同,应用侧重方向、数据流动方式、硬件要求等方面有差异,各有自行的演进路径。1、联邦学习(软件级):核心思想:面向模型,"数据不动、模型动",原始数据在本地模型训练,只交互模型的中间计算结果。应用方向:侧重于多方数据的分布式机器学习模型训练和推理。数据流动:不交换原始数据密码技术:密分享、同态加密、差分隐私等硬件要求:通用硬件2、多方安全计算(软件级):核心思想:面向数据,信任密码学,构建一系列

2022-03-06 13:01:21 7486

原创 一文读懂各种分布式机器学习框架的区别与联系

创作不易,欢迎关注,点赞,收藏!本文主要对比各种常见的分布式机器学习框架原理,包括数据分布式,参数服务器,Ring-Allreduce 架构和数据流图。1.数据分布式机器学习(例如spark-mllib):Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口.Spark 的主要特点还包括:- (1)提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销;-

2022-02-28 23:13:42 3086

原创 一文读懂常用机器学习解释性算法:特征权重,feature_importance, lime,shap

目录1.线性回归中的特征权重β:2. 树模型中的feature_importance:3. lime:4. shap:5. 各种算法对比:1.线性回归中的特征权重β:线性模型中,特征可以归类为:数值特征(比如气温)、二进制特征(性别0/1)、范畴特征(天气:下雨、阴天、晴天,使用one-hot编码,让具体类别有自己的二进制选项)2. 树模型中的feature_importance:无论是经典的决策树算法,还是基于决策树算法的boost算法(xgboost)还是ba

2022-02-28 17:57:55 4537 2

原创 学会如何学习

本文整理于笔者在公司的一次演讲:1 背景。为什么要研究学习?学习是人这一生最常用的技能,无论是婴儿时期学习走路,说话,识字,还是上学以后数学,英语,化学等学科的学习,还是生活中无形的模仿,都离不开学习的身影:我们潜移默化的都在学习!但是在上学的时候,人们会学习各种技能去掌握一门学科,例如,对数学我们要题海战术,对英语要大声叫。但是很少有人讲述元学习的学习技巧,什么是元学习?就是学会如何学习。这才是学习的本质,只要掌握了学会如何学习,我们就能是事半公倍。​2 学习对大脑结构

2022-02-27 17:51:41 110

原创 一起聊聊看书吧

本文整理于笔者在公司的一次演讲:1 自己的故事。在喜欢上阅读之前,笔者曾经也感到十分迷惘,直到有一天不知道咋地,看到一本书,这本书让笔者意识到自己以前的学习方法都是错误的!于是便有了启发的种子,直到后面的养成习惯。​根据读书目的,书籍类型的不同,笔者将阅读分成3个种类型:长智,怡情和养性。2 阅读-长智。在长智部分,主要是看的一些技能型和工具类的书籍,目的是为了增长自己在某一领域的知识,对这种书籍我们可以先翻下目录,看看自己对哪一个章节感兴趣,翻阅相关内容和热门评注(微信

2022-02-27 17:47:41 117

原创 精进-名句与思考

1.手表调慢能让你的心灵慢下来。2.如何对待时间?决定了你是一个怎么样的人。要郑重.3.在工作场景中以未来视角为主是合适的 ,在非工作时间采用享乐主义视角更为合适 。积极过去视角适合在与家人和朋友一起时引发 。4.5年后我该做什么?5.1 .使远期未来的目标更加具体化 、情境化和可实施 ; 5.2 .降低近期未来中的 “非期望行为 ”的便利性 ,主动增加挑战的难度 。远期有时太远,近期各种困难!--5年...

2022-02-26 16:13:59 2593

原创 周鸿祎自传

​1.那共通之处就是——人们如何在没有前车之鉴的判例中进行决策,又如何在泰山压顶般的压力之下做出最优的判断。对于创业者来说,每一天都是压力测试。----决策2.真正的勇敢,并非骁勇善战,而是无论何时何地都不忘初心,坚守信仰,并秉持自己始终不会放弃的那份纯粹。3也许正是因为物质生活的匮乏,造就了当时小孩们一种普遍具备的动手能力,各种自制发明层出不穷。---从小动手。4儿童时代及其喜欢自己动手做东西的周鸿祎。5熊孩子周鸿祎6纵容另类孩子的老师。---包容坏小孩。7爱阅读的周鸿..

2022-02-26 15:38:32 426

原创 富甲美国---沃尔玛创始人山姆·沃尔顿

​1.不断地检讨回顾我们做得好不好或需要改进的,我们从没有对现况满足过。我们会短暂地大肆庆祝成功,然后认真地检讨下次如何能做得更好---不断改进与创新。2我们都记得山姆・沃尔顿先生走到哪儿都拿着他的黄色笔记本,他会把和顾客、同事、朋友甚至陌生人那儿听到的好点子记下来。这个好习惯影响着沃尔玛的每一位同事。----要有时刻记好笔记的习惯。3.山姆・沃尔顿先生尊重每一位同事,并且替同事们创造了一个公平、透明的环境。尊重员工才能让员工尊重客户。4.知晓自己的愿望并乐于动手去实现,是成功的。..

2022-02-26 15:26:31 777

原创 常见API漏洞解释以及应用层解决方案

常见API漏洞:1.未受保护API:在现行的Open API开放平台中,一般需要对第三方厂商的API接入身份进行监管和审核,通过准入审核机制来保护API。当某个API因未受保护而被攻破后,会直接导致对内部应用程序或内部API的攻击。比如因REST、SOAP保护机制不全使攻击者透明地访问后端系统即属于此类。加强保护机制审查和代码规范。2. 弱身份鉴别:当API暴露给公众调用时,为了保障用户的可信性,必须对调用用户进行身份认证。因设计缺陷导致对用户身份的鉴别和保护机制不全而被攻击,比如弱密码、硬..

2022-02-25 15:26:48 9384

原创 降维与二分类器准确度互斥

最近笔者和小伙伴一起排查一个二分类的模型性能下降问题,主要表现为: tsne降维可视化(或者pca降维),可以非常清晰的看到有分类边界,但是利用gbdt进行训练二分类查准查全只有70%多。 gbdt进行训练二分类查准查全有98%,但是tsne降维可视化(或者pca降维),不能看到有分类边界。 ​ tsne可视化也就是说gbdt的结果与tsne的变成了...

2022-02-25 15:26:29 675

原创 最近一些的有意思的思考-记录成长

目录1. 正气:对社会做一些有意义的事情,对社会做更有正向价值的事情。2. ​勇气:认准一个方向,就勇敢去做,有时候不是你看的比别人早而成功,而是你坚持的比别人久。​3. 豪气:成功了,苟富贵,勿相忘。​4. 技术水平的成长:从低垂果实->自由探索。有感于最近公司内部CEO,CTO的一些分享,访谈以及互联网上看到的一些传记访谈,想记录一下自己最近的一些思考:1. 正气:对社会做一些有意义的事情,对社会做更有正向价值的事情。记得李开复自传《让世界因你而不同》中发人深省的一句话

2022-02-20 14:40:52 7745

原创 BlackHat论文解读: HTTP 标头,请求走私,缓存中毒

概念:1.现代web架构:基于反向代理转发的二层结构,如下图1所示。2.http标头,请求走私:在http-header中修改制定参数参数名或值,以实现在front 到 back中调用链中的攻击,造成缓存攻击,ip限制,速率绕过等。如下图2所示。3. 缓存中毒:利用front的缓存,覆盖原始访问的内容,如下图3所示,我们可以任意更改rsp-body里的值。影响:1. 绕过网关 IP 限制和速率限制(仅仅修改转发参数即可攻击漏洞):API Gateway 允许你使用以下资源

2022-02-10 18:25:58 3477

原创 《蛤蟆先生去看心理医生》阅读笔记

书本中心思想是人的一生受原生家庭的影响很大,特别是幼儿时期父母的影响,基本会改变人的一生。书中作者将人的状态分为儿童,父母,成人三种状态,我们可以一一对照,看看我们是否是其中的一种状态,如果做的不好,可以有意识的改进。在书籍末尾,作者将人的坐标分为4种,而主人公抑郁的蛤蟆就是我不好,你好的坐标&儿童型状态。 儿童状态 嫉妒,愤怒,懦弱,恐惧,欢喜,自然,依赖,悲伤等等。​编辑切换为居中添加图片注释,不超过 140 字(可选)2. 家长状态掌控,严厉等等。..

2022-02-01 17:24:32 715

原创 分享有助于个人成长的专栏,公众号,微博等等资源

微博:1. 个人成长类:wenzhe_china海波的随想硅谷王川黄斌自我的SZ李永乐老师人物经典书籍推荐程序员-邹欣毅马当闲2. 计算机相关:爱可可,爱生活包云岗中科大胡不归唐杰THU软件教书匠金旭亮龙星镖局马少平THU陈怡然-杜克大学3. 军事政治:卢克文4. 生活类:蜡笔和小勋ElenaLin_青青5.育儿教育心理:数学张良李玫瑾人生进阶专栏1. 得到:《硅谷来信》2. 得到:《

2022-01-03 12:54:49 572

原创 记录-吴军《硅谷来信》有感

吴军老师的《硅谷来信》对我的人生产生了极大的影响,今日突然想总结下这几年的实践结果,在此记录。1.成功=做事的速度 * 做事的量级 * 做事的数量。(思维方式)2.颠覆性的创新能产生让蚂蚁战胜大象。(创业领域)3.西瓜与芝麻(提醒我们要抓大放小,类似于82原则,有时候往往20%的东西决定了80%的事情)4.耶鲁精神-自由,奉献(我不赞同你的观点,但是我支持你,为社会奉献)5.常识(用常识去判断)。6.博雅教育(啥都会一点,触类旁通)。7.人生是一条河。8.五级工程师职业发展。

2021-08-24 00:38:18 1143

原创 时间序列异常检测几篇论文解读

1.COPOD: Copula-Based Outlier Detection该论文利用ecdf+copula统计给出了一种新的多维组合的异常检测方法,详见知乎:https://zhuanlan.zhihu.com/p/3381892992.Revisiting Time Series Outlier Detection: Definitions and Benchmarks本文重新将时间序列中的异常进行了分类,基于不同的类别进行了不同时间序列异常检测算法的基准测试。3...

2021-08-19 10:38:38 1380

原创 时间序列分类几种方法解读

1. 背景时序数据的监控在安全风险发现过程中扮演着不可忽视的角色,我们可以通过自定义一些KPI(关键风险指标),刻画这些KPI的时间序列基线,通过时间基线进行安全风险的异常检测。然而从海量的时序数据指标中可以发现,指标种类繁多、关系复杂(如下图5所示)。在指标本身的特点上,有周期性、规律突刺、整体抬升和下降、低峰期等特点,在影响因素上,有节假日、临时活动、天气、疫情等因素。想要覆盖上述种种场景 ,并且精准的进行安全风险的发现十分困难。若在海量指标监控上,能根据指标自动适配合适的策略,不需要人为参

2021-08-18 15:33:59 3940

原创 异常检测及其分布集成

异常检测算法种类繁多,包括聚类,树,统计分布,机器学习,深度学习等多种形式,下面对一些常见问题进行了自己的总结:1.如何选型?主要看算法原理和数据分布:如下图所示,第一二张图的异常点容易成一个团,形成局部离群点,而图三则是全局离群点,不同的离群方式应当采用不同的算法,比如图1,2用聚类,图3用孤立森林。一个非常好用的异常检测工具包:https://github.com/yzhao062/pyod2.算法集成。算法种类多,有时候单一算法并不能满足要求,需要对多算法做测试甚至进行集成,以

2021-08-16 15:09:39 383

原创 如何降低xgboost和随机森岭的过拟合和欠拟合

数据角度:增加数据有利于降低过拟合和欠拟合。模型角度:让模型复杂度降低有利于降低过拟合,增加模型复杂度有利于降低欠拟合。对应xgboost模型复杂度降低就是让每棵树小点,树的数量少点,增大惩罚系数,early stopping。复杂度提高相反。对应随机森岭模型复杂度降低就是让每棵树小点,但是树的数量多点。复杂度提高相反。抽样角度:让每棵树的抽样样本减少,有利于减少过拟合。让每棵树的抽样样本增加,有利于减少欠拟合。让每棵树的抽样特征减少,有利于减少过拟合。让每棵树的抽样

2021-08-15 14:34:34 1000

原创 大数据算法基础总结-lwz更新

基础概念:方差和偏差 解释方差:在训练集上表现很好,测试集上表现很差 解释偏差:在训练集上表现就不好 模型训练为什么要引入偏差和方差?请理论论证:VCBANGD 什么情况下引发高方差:训练数据比较少,模型太复杂, 某些特征引起过拟合。 如何解决高方差问题: 添加训练数据,正则化等一些手段让模型简单,随机森林,减少 引起过拟合的某些特征,dopout。 以上方法是否一定有效:不一定,大部分有效。 如何解决高偏差问题:添加数据,降低正则化水平,使用复杂模型,添加有效特征。 以上

2021-08-15 10:32:07 299

原创 复利效应的应用

复利:每天一点点的成长*时间长度,会带来极大的改变。在平时的日常工作上,总想想有没有更好的方法解决问题,有没有更高效的方法解决问题,找到方法后,改进自己的习惯,做起来,而不是觉得老得习惯能接受,延续涝的思维和行为习惯。这样日积月累后会形成一个完全不一样的你。...

2021-08-12 09:44:23 217

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除