自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Miracle8070

该博客记录学习计算机和人工智能的过程中做出的探索,见证一下自己的成长,同时也把自己踩过的坑和学习到的知识分享出来,大家共同进步,一起交流,一起努力。我们永远年轻,永远热泪盈眶。

  • 博客(311)
  • 资源 (6)
  • 收藏
  • 关注

原创 AES和RSA加解密算法学习笔记(实战版)

今天整理一篇有关密码学的学习笔记,原因是最近做的一个任务是在网络传输的时候,需要对传输的包进行加密和解密工作,以保证传输过程的安全性。所以,这个过程用到了AES和RSA两个算法。场景:假设我要给我的老师传送毕设代码和论文, 我已经把代码和论文打成了一个压缩包,我想把这个压缩包通过微信发过去。首先,我对压缩包先用AES算法加密,得到压缩包的密文其次,我把AES算法的密钥,再通过RSA算法加密, 得到密钥的密文。

2024-04-22 21:33:56 676

原创 LLM推理框架Triton Inference Server学习笔记(二): Triton模型部署流程(stey by stey)

上一篇文章对triton inference server进行了一个整体的介绍,解答了三个经典问题what, why, how。这篇文章就开始转入实践, 从实践的角度整理Triton模型部署的全流程, 如果我有一个训练好的模型了,究竟如何部署到triton server,并提供服务给到客户端, 客户端发请求之后,怎么把数据推理得到结果等。这篇文章, 会对这些问题做出解答。Triton模型部署概览模型仓库准备模型配置文件编写Triton Server启动TritonServer客户端访问。

2024-04-14 17:27:16 963

原创 Python向带有SSL/TSL认证服务器发送网络请求小实践(附并发http请求实现asyncio+aiohttp)

最近工作中遇到这样的一个场景:给客户发送文件的时候,为保证整个过程中,文件不会被篡改,需要在发送文件之间, 对发送的文件进行签名, 而整个签名系统是另外一个团队做的, 提供了一个接口服务完成签名,但访问这个接口需要提供他们团队提供的证书链先进行认证,所以需要和该服务端建立安全的链路,这里是用ssl双向认证的方式实现。本篇文章主要是记录下如果是用Python给这种ssl双向认证的服务器发送post请求的时候,应该怎样携带证书去双向认证?

2024-04-03 21:20:27 822

原创 LLM推理框架Triton Inference Server学习笔记(一): Triton Inference Server整体架构初识

这篇文章开始进行大语言模型(Large Language Model, LLM)的学习笔记整理,这次想从Triton Inference Server框架开始,因为最近工作上用到了一些大模型部署方面的知识, 所以就快速补充了些,大模型这块, 属于是从用户使用触发,先把模型部署上来, 把整个业务流程走顺,让用户先能用起来,然后再深入到模型本身的细节中去哈哈。Triton Inference Server是Nvida开源的机器学习推理引擎,提供了非常多实用的功能帮助我们快速落地AI模型到生产环境以提供业务使用。

2024-03-11 20:41:37 1369

原创 《小狗钱钱》读书笔记

今天整理的一本书叫《小狗钱钱》,作者是有”欧洲巴菲特”之称的博多舍费尔,这是一本儿童教育的财商启蒙书,舍费尔用生动的金钱童话,将看似复杂的财富法则一一拆解,引导我们在实际生活中操作,以轻松有取的方式教我们如何变得富有。

2024-02-25 23:24:17 802

原创 MongoDB学习笔记

最近工作用到了Mongodb,虽然有了gpt,对于这种数据库操作的代码基本上不用自己费多大功夫,但对于知识本身,还是想借机会系统学习下Mongodb的,原因是之前接触数据库一直都是mysql,oracle等关系型数据库,对于非关系型数据库,这还是第一次接触,另外,就是写代码的时候,也不想总是问gpt, 毕竟,所以,抽出了几天的时间系统学习一下mongodb,,本篇文章就是,本次教程主要参考两个网站。

2024-02-22 22:17:35 1116

原创 Python重温笔记番外篇

1. 写在前面今天这篇文章整理一波python的高频面试题了, 正好借着这个机会把前面的知识进行一个串联, 要不然这些知识很容易就会遗忘, 毕竟知识多而又不太容易常用到。 涉及到的知识包括列表推导式, 高阶函数的使用, 字典排序, 字符串, 日期, 文件遍历, 生成器, 正则, 线程等, 所以还是比较全面的, 以后如果再遇到python方面的练习题的话, 也可以再进行相应的补充。整理完这篇之后, python全栈学习的python部分就基本差不多结束, 无非后面还会有两到三个的小插曲, 接下来就是pyt

2024-01-04 14:53:04 1014

原创 C++11的新特性大总结

1. 写在前面这段时间, 差不多把C++的基础内容重新过了一遍,后面会利用零碎的时间,再把一些C++的重要新内容给过一下, 因为随着时代的发展, C++也与时俱进, 迭代更新, 这个过程中可绕不开C++11的标准,这个可以看做是C++的一次重大升级,其实这个我还是在实习期间接触的,在之前,我对C++的认识,依然是停留在老版本上,直到实习的时候,看到自动类型推导,智能指针,Lambda表达式等, 也不禁心里一惊,“好酷炫”,C++原来还可以这样玩, 才意识到之前的C++认知有点落伍了, 而落伍的核心原因,竟

2024-01-04 14:43:47 878

原创 C++重温笔记(八): C++异常

1. 写在前面c++在线编译工具,可快速进行实验: https://www.bejson.com/runcode/cpp920/这段时间打算重新把c++捡起来, 实习给我的一个体会就是算法工程师是去解决实际问题的,所以呢,不能被算法或者工程局限住,应时刻提高解决问题的能力,在这个过程中,我发现cpp很重要, 正好这段时间也在接触些c++开发相关的任务,所有想借这个机会把c++重新学习一遍。 在推荐领域, 目前我接触到的算法模型方面主要是基于Python, 而线上的服务全是c++(算法侧, 业务那边基本上

2024-01-04 14:42:29 893

原创 Shell脚本学习笔记

工作中,需要用到写一些shell脚本去完成一些简单的重复性工作, 于是就想系统的学习下shell脚本的相关知识, 本篇文章是学习shell脚本整理的学习笔记,内容参考主要来自C语言中文网, 学习过程中, 加入了一些在学习过程中的实践经验和思考, 并抽取出一些常用的知识内容整理成这篇文章,方便以后回看回练, 如果想更系统的学习, 可以去前面这个网站进行学习。大纲如下Shell基础Shell编程Shell高级Shell的一些快捷操作。

2024-01-02 20:20:45 978

原创 FastAPI框架学习笔记(快速入门FastAPI框架)

今天整理一篇后端框架的笔记, fastapi框架是比较主流的后端异步web框架,关键是python语言可以写,正好公司最近安排了一些后端服务的活, 所以就看了一个fastapi框架的入门课程(链接在底部),完成任务,这次想把学习的笔记整理下,方便以后回看回练。

2023-10-29 09:36:34 4070

原创 C++重温笔记(十): C++输入输出流

1. 写在前面c++在线编译工具,可快速进行实验: https://www.bejson.com/runcode/cpp920/这段时间打算重新把c++捡起来, 实习给我的一个体会就是算法工程师是去解决实际问题的,所以呢,不能被算法或者工程局限住,应时刻提高解决问题的能力,在这个过程中,我发现cpp很重要, 正好这段时间也在接触些c++开发相关的任务,所有想借这个机会把c++重新学习一遍。 在推荐领域, 目前我接触到的算法模型方面主要是基于Python, 而线上的服务全是c++(算法侧, 业务那边基本上

2023-06-19 11:16:30 1397

原创 大数据框架Hadoop篇之Hadoop入门

Hadoop是一个Apache基金会开发的分布式系统基础架构, 主要解决: 海量数据的存储和海量数据的分析计算问题

2022-12-18 10:18:55 2137 2

原创 Pyspark学习笔记小总

pyspark官方文档: https://spark.apache.org/docs/latest/api/python/index.htmlpyspark案例教程: https://sparkbyexamples.com/pyspark-tutorial/这篇文章记录下最近学习的有关Pyspark以及用spark sql去处理大规模数据的一些常用语法,之前总觉得pandas是做数据分析和数据挖掘的利器, 但是工作之后,面对海量数据(上亿规模),这才发现,普通的pandas几乎毫无用武之力,所以有必要再重

2022-11-20 10:24:33 3015 2

原创 Protocol Buffers学习小记

这篇文章是有关Protocol Buffers的学习笔记,工作中这个东西会用的非常多,这是因为它提供了一种跨平台,跨语言,可延展且非常灵活的(前后向兼容)的序列化和反序列化结构化数据的方式,并且轻量悠然,在团队协作中,是一个必不可少的数据传输工具,不同团队做数据交互的时候,一般都会问到"你这个数据的proto定义是什么?", 而这个proto定义,其实就是protocol buffer的相关知识 了,如果这个东西不会用,在工作中可能会影响与其他团队的沟通,所以借着国庆,抓紧补一下这块知识。

2022-10-05 14:00:55 794

原创 git使用笔记总结(基于场景的git教程)

这篇文章依然是想整理下git的基本使用,之前实习的时候,也整理过,但发现写的有些乱(废话太多),尤其是在场景上,并且在公司工作了两个多月之后, 又对git有了新的使用体验,所以想重新写篇文章,把之前的整合一下,git真的非常重要,以后进公司与同事合作开发的必备技能, 但如果直接看教程文档,没有实际场景的话, 有些东西并不是很好理解,所以这篇文章会整理常用的git操作命令,并结合一些实际场景来辅助理解,目前这些命令,基本能cover住大部分公司中git的使用场景,如果后面遇到新的,也会再基于这篇文章补充。

2022-09-25 11:16:38 2004

原创 Durable rules(持久规则引擎) 学习小记

这篇文章记录下学习durablerules的过程,持久规则引擎是一个多语言框架,用于创建能够对大量事实陈述进行推理的基于规则的系统,白话的讲就是事先制定好一些规则,这些规则描述要匹配的事件以及采取的操作。这样,当有事实过来的时候,就可以去匹配事件然后采取相应的行为了。很类似我们代码中写的的逻辑。那么为啥要用这东西呢?快,且适用于多语言,且如果判断太多,不像ifelse那么臃肿。写出来的判断语句更加的优雅。当然,由于我也是刚学,且可参考的文档不多,我就拿github项目{"name"......

2022-07-25 15:50:45 902

原创 ElasticSearch快速入门小记

工作中用到了ElasticSearch,这是一个全文搜索引擎,可以快速的储存搜索和分析海量数据,这个东西非常重要,各大公司也都在用。这篇文章是快速入门ElasticSearch的笔记记录,我的想法是先通过一些资料学习下这东西怎么使用,先用起来,后面如果需要补理论的话再去补就快了。下面分别从安装,基本概念,以及postman和通过PythonAPI使用ElasticSearch进行介绍。.........

2022-07-20 13:14:27 1562

原创 poetry管理python开发环境学习小记

在Python开发中,往往需要根据不同的需求搭建不同的Python环境,环境管理方面,之前学习到的方式是anaconda进行统一的管理,但是工作之后了解到,conda在本地开发时候会提供非常多的便利,但对于生产环境,conda会过于臃肿,且locking的能力需要额外安装工具,所以往往不适用生产环境中的Python环境管理。生产环境中,可以使用pyenv来管理各种Python版本,而poetry来管理虚拟环境。这篇文章,主要是记录下这两个工具的使用。......

2022-07-18 21:54:42 3516

原创 C++重温笔记(十一): C++文件操作

1. 写在前面c++在线编译工具,可快速进行实验: https://www.bejson.com/runcode/cpp920/这段时间打算重新把c++捡起来, 实习给我的一个体会就是算法工程师是去解决实际问题的,所以呢,不能被算法或者工程局限住,应时刻提高解决问题的能力,在这个过程中,我发现cpp很重要, 正好这段时间也在接触些c++开发相关的任务,所有想借这个机会把c++重新学习一遍。 在推荐领域, 目前我接触到的算法模型方面主要是基于Python, 而线上的服务全是c++(算法侧, 业务那边基本上

2022-07-05 10:49:31 2158 2

原创 西瓜书重温(七): 贝叶斯分类器(手推+代码demo)

1. 写在前面今天开始学习西瓜书第七章,有关贝叶斯分类器的基本知识, 贝叶斯决策论是在概率框架下实施决策的基本方法,对分类任务,在所有相关概率已知时, 贝叶斯决策论考虑如何基于概率和误判损失选择最优类别标记。当然,这个学习过程和我们之前学习的像SVM,神经网络等思路不太一样,这其实涉及到统计学界参数估计的两个经典学派: 频率学派和贝叶斯学派了,当然,也产生了两种相差比较远的估计方法(极大似然估计与贝叶斯估计), 另外还有两个我们常听到的名字生成模型与判别模型等。 这些东西都是啥? 背后又有哪些有意思的故

2022-06-24 19:15:20 1634 2

原创 C++重温笔记(七): C++模板与泛型程序设计

1. 写在前面c++在线编译工具,可快速进行实验: https://www.bejson.com/runcode/cpp920/这段时间打算重新把c++捡起来, 实习给我的一个体会就是算法工程师是去解决实际问题的,所以呢,不能被算法或者工程局限住,应时刻提高解决问题的能力,在这个过程中,我发现cpp很重要, 正好这段时间也在接触些c++开发相关的任务,所有想借这个机会把c++重新学习一遍。 在推荐领域, 目前我接触到的算法模型方面主要是基于Python, 而线上的服务全是c++(算法侧, 业务那边基本上

2022-06-21 23:00:23 1330 1

原创 Docker快速入门小记

从实际需求学习docker,整理了docker常用命令以及一些关键技术究竟如何使用

2022-06-03 16:54:44 1459 2

原创 word自带公式批量转成MythType格式的采坑小记

1. 写在前面这两天写毕设论文修改格式,原先使用的是word自带的公式,结果发现有两个问题:无法改变字体,默认是Cambria Math的字体, 但是没法改,但我这边发现都是用的新罗马字体论文正文行距是22磅的时候,发现公式显示不全基于以上两个痛点问题,导致我不得不重新修改公式的格式,换成MythType,但我论文里面有超级多的数学公式,寻思着这要是一个个的手敲, 那不得一整天时间, 结果就像看看有没有一键到位的操作。 结果还真有, mathtype有格式转换功能,能一键到位。 But, 我花

2022-05-06 00:02:12 6344 2

原创 Ubuntu更新显卡驱动与升级cuda版本“采坑“小记

1. 写在前面这次记录下今天安装百度的自动驾驶框架Apollo的时候,在硬件环境上采的一些坑,花费了5个多小时的时间,才把Apollo框架装上且能正常使用GPU,通过今天的摸索,让我对Cuda升级和显卡驱动等有了一定的了解。关于Apollo框架的安装过程,可以直接见官网我直接按照这个步骤来的,一开始是直接按照官网上说的步骤来的,不过之前由于实验室服务器上都装好了cuda等,所以这步跳了过去。从docker这里开始。 把前面的基础工作弄完之后,然后开始安装Apollo,这个也没费多大劲,装完。然后ap

2022-04-29 20:18:35 17754 3

原创 AI上推荐 之 多任务loss优化(自适应权重篇)

1. 写在前面在多任务学习中,往往会将多个相关的任务放在一起来学习。例如在推荐系统中,排序模型同时预估候选的点击率和浏览时间。相对于单任务学习,多任务学习有以下优势:多个任务共享一个模型,占用内存量减少;多个任务一次前向计算得出结果,推理速度增加;关联任务通过共享信息,相互补充,可以提升彼此的表现。前面的一篇文章,主要是从模型结构的角度聊了下多任务学习,介绍了工业界非常经典也常用的MMOE模型,然而,对于多任务学习, Loss的优化也非常重要, 因为我们知道通过多个目标去指导网络进行统一的训练

2022-04-28 21:00:41 12557 17

原创 AI上推荐 之 MMOE(多任务yyds)

1. 写在前面这篇文章开始多任务模型的学习,随着推荐技术的蓬勃发展,目前越来越多的推荐场景,往往并不是单纯的优化一个指标,比如:视频推荐领域: 推荐排序任务不仅需要考虑到用户点击率,完播率,也需要考虑到一些满意度指标,例如,对视频是否喜欢,用户观看后对视频的评分;文章推荐领域: 不仅希望用户点击阅读文章,还希望用户有更多的停留时长,互动、关注。电商推荐领域: 不仅希望用户更多对商品点击浏览,还希望用户看完商品后进行付费,点击率和转化率所以,推荐系统做到后期,往往会朝着多目标学习进行演化,承担更

2022-04-20 21:14:47 4380 14

原创 Dropout技术之随机神经元与随机深度

1. 写在前面在学习复现EfficientNet网络的时候,里面有一个MBConv模块长下面这个样子:当然,这个结构本身并不是很新奇,从resNet开始,几乎后面很多网络,比如DenseNet, MobileNet系列,ShuffleNet系列以及EfficientNet系列都会发现这样的残差结构。 但这次探索里面发现了Dropout这个点, 之前在实现残差结构的时候, 如果碰到Dropout, 我一直以为是之前学习到的随机失活神经元的Dropout,但直到在这里看到源码才发现,不是我想象的那么简单!

2022-04-16 11:02:48 1667

原创 OpenCV实践小项目(三) - 停车场车位实时检测

1. 写在前面今天整理OpenCV入门的第三个实战小项目,前面的两篇文章整理了信用卡数字识别以及文档OCR扫描, 大部分用到的是OpenCV里面的基础图像预处理技术,比如轮廓检测,边缘检测,形态学操作,透视变换等, 而这篇文章的项目呢,不仅需要一些基础的图像预处理,还需要搭建模型进行识别和预测,所以通过这个项目,能把图像预处理以及建模型等一整套流程拉起来,并应用到实际的应用场景,还是非常有意思的。停车场车位实时检测任务,是拿到停车场的一段视频video,主要完成两件事情:检测整个停车场当中,当前一共

2022-04-09 10:57:08 21093 37

原创 OpenCV入门学习笔记之Harris角点检测与SIFT特征匹配算法

1. 写在前面这篇文章整理两个图像处理中非常重要的算法,一个是Harris角点检测算法,另一个是SIFT特征匹配算法,这两个算法本质上还是去找图像里面的关键特征点,帮助我们后续更好的理解图像以及做各种各样的分析。 由于这两个算法涉及到的数学原理会比较多,而我刚入门,所以只是从使用的角度,简单的描述到底在做什么事情,至于详细的数学细节或者推导,这里不过多整理,以掉包能完成任务为首要目的啦。首先,先介绍Harris角点检测算法,角点在图像中是很重要的特征,信息含量很高,那么如何找到一个图像里面的角点呢?

2022-04-05 20:01:26 8468 8

原创 AI上推荐 之 SDM模型(建模用户长短期兴趣的Match模型)

1. 写在前面今天整理的是SDM模型(Sequential Deep Matching Model),依然是阿里团队在2019年CIKM上的一篇paper。和MIND模型一样,是一种序列召回模型,研究的依然是如何通过用户的历史行为序列去学习到用户的丰富兴趣。 对于MIND,我们已经知道是基于胶囊网络的动态路由机制,设计了一个动态兴趣提取层,把用户的行为序列通过路由机制聚类,然后映射成了多个兴趣胶囊,以此来获取到用户的广泛兴趣。而SDM模型,是先把用户的历史序列根据交互的时间分成了短期和长期两类,然后从短期

2022-04-01 22:21:02 6075 6

原创 OpenCV实践小项目(二) -文档ocr扫描识别

1. 写在前面今天整理OpenCV入门的第二个实战小项目, 前一篇文章是信用卡数字识别, 主要运用了OpenCV基础图像处理操作里面的轮廓检测, 边缘检测,形态学操作, 今天的这个项目叫做文档ocr扫描识别,就是给定一个文档的图片,然后识别文档上的文字信息,这个在生活中也是非常常见的哟。 比如试卷扫描,文章扫描等等吧,其实原理都非常类似。下面是给定了一个随意拍摄的购物小票的图片, 然后通过一顿图片处理等操作,得到的ocr扫描结果:由于这个截图我进行了放缩,导致右边这个图片人眼看不太清楚字了,但是基本

2022-03-31 08:11:52 3064 1

原创 OpenCV实践小项目(一): 信用卡数字识别

OpenCV实践项目之信用卡数字识别

2022-03-28 16:34:11 9167 9

原创 AI上推荐 之 MIND(动态路由与胶囊网络的奇光异彩)

1. 写在前面今天整理的是MIND模型(Multi-Interest Network with Dynamic Routing), 这是阿里团队2019年在CIKM上发的一篇paper,该模型依然是用在召回阶段的一个模型,解决的痛点是之前在召回阶段的模型,比如双塔,上一篇介绍的YouTubeDNN召回模型等,在模拟用户兴趣的时候,总是基于用户的历史点击,最后通过pooling的方式得到一个兴趣向量,用该向量来表示用户的兴趣,但是该篇论文的作者认为,用一个向量来表示用户的广泛兴趣未免有点太过于单一,这是作者

2022-03-27 07:39:11 6129 9

原创 OpenCV入门学习笔记之常用的图像处理操作

1. 写在前面由于后面的工作会偏cv一些,所以这段时间抓住最后毕业的小尾巴抽出时间来想开一条cv的自学线路,和当时入门推荐差不多,cv这里也是简单的梳理了目前的一些方向以及各个方向常用的一些知识,然后各个方向进行学习和突破。 当然作为初学者,我依然还是从经典的模型开始,因为我发现,读论文学模型,然后做相关项目是比较快速的入门方式,但是呢, 这个过程中,我突然发现,对于cv来讲,基础的图像预处理操作也是非常重要的一大块,虽然做一些重大项目还是以大规模的深度学习模型为主,但是,如何让模型能更好的学习到图像的特

2022-03-24 15:42:01 8632 2

原创 TensorFlow2.x保存与加载带有自定义层模型以及使用子模块采坑小记

1. 写在前面做时空数据预测毕设的时候, 遇到的一个需求就是想用Transformer搭建一个特征提取器, 模型的输入是滑动窗口切分好的时空数据, 维度[batch, seq_len, observepoint_num] , 解释的话,就是一个表面有m个观测点, 每个观测点每天会测量一次温度, 那么如果是预测整个平面温度趋势的话,就是需要先用滑动窗口,采用过去几天的数据切割,所以就得到了这样的一个三维初始数据。我的想法是先让这个数据集过一个Transformer特征提取器,这样就能获取全局信息, 得到各

2022-02-25 18:00:26 2774 7

原创 西瓜书重温(五): 神经网络手推版

1. 写在前面这个系列大约有5个多月的时间没有更新了, 这段时间经历了主要是在忙实习的事情,公司里是很难静下心来去阅读西瓜书这样的宝书的,所以呢,一直搁置。而现在回到学校, 算是有一些时间,打算把这个系列接上。虽然这里面的知识比较偏理论,可能给我们的感觉是不太实用,并且写的有些省略,晦涩难懂,对初学者也不是很友好, 但里面有很多重要的思想是我们解决实际问题中会考虑到的,而我之所以想重温一遍,完全是因为兴趣驱动,而这次重温,我也会尽量结合着其他参考资料,对西瓜书的知识作补充,使其连贯,另外就是尝试用更加白话

2022-02-08 22:01:17 1601 3

原创 AI上推荐 之 YouTubeDNN模型(工业界推荐系统的灯火阑珊)

1. 写在前面这个系列很久没有更新了, 主要是前段时间经历了一波秋招, 后面的方向可能稍微偏数据挖掘和cv多一些,所以向这两块又稍微延展了一下,没来得及看推荐相关的论文,这次借着和如意大佬整理fun-rec项目的机会, 才重新又看起了之前一直想整理的经典模型, 对于推荐, 还是想把之前学习的知识沉淀下来的, 当然,可能后面的整理比较适合像我一样的初学者了吧,想法还是以经典paper解读为主, 学习一些新思想,并进行NLP, 推荐,cv, ML和DL等各种知识的串联。关于后面的整理, 我也梳理了一个思维框

2022-01-26 17:45:35 4863 13

原创 annoy(快速近邻向量搜索包)学习小记 - pip命令学习与annoy基础使用

1. 写在前面在写fun-rec新闻推荐系统的YouTubeDNN召回的时候, 得到用户向量和新闻向量,基于用户向量,需要从海量新闻里面得到最相似的TopK个新闻, 此时需要用到快速向量检索技术,之前用过的一个工具是faiss, 具体使用方法我也记录了一篇博客Faiss(Facebook开源的高效相似搜索库)学习小记, 但是faiss在windows系统中并不是很好安装,并且看着也有些复杂, 这次又接触了另一个向量检索的好用工具包, 就是annoy了。 这篇文章主要是记录下如何用annoy工具包做向量检索

2022-01-15 22:48:57 4879 3

原创 C++重温笔记(十二): C++多文件编程

1. 写在前面c++在线编译工具,可快速进行实验: https://www.bejson.com/runcode/cpp920/这段时间打算重新把c++捡起来, 实习给我的一个体会就是算法工程师是去解决实际问题的,所以呢,不能被算法或者工程局限住,应时刻提高解决问题的能力,在这个过程中,我发现cpp很重要, 正好这段时间也在接触些c++开发相关的任务,所有想借这个机会把c++重新学习一遍。 在推荐领域, 目前我接触到的算法模型方面主要是基于Python, 而线上的服务全是c++(算法侧, 业务那边基本上

2021-12-24 11:29:44 11634 13

墨尔本气温预测.zip

时间序列数据广泛存在于量化交易, 回归预测等机器学习应用, 是最常见的数据类型。所以这里通过墨尔本十年气温变化预测的任务来整理一个时间序列数据挖掘的模板,方便以后查阅方便。这个模板可以用在大部分的时间序列预测任务,从股票价格波动,到四季气温变化, 从大桥沉降预测,到城市用电预警等。 通过本模板,可以掌握sklearn中常用的工具包以及深度神经网络的搭建Keras,能够学习到处理时间序列的方式,里边还包含了大量的数据可视化的套路。

2020-03-12

深度学习理论知识.zip

这是很全的深度学习理论的知识,是最好的自学深度学习的速查文档和速学方式,里面的内容涵盖深度学习的很多领域,从神经网络的基础,到卷积神经,循环神经,LSTM,递归神经网络,从神经网络的优化方式到各种激活函数,batch正则,最后一个Minist手写数字识别实战,希望能够帮到自学深度学习的小伙伴。

2020-01-05

机器学习理论知识.zip

这是很全的机器学习理论的知识,是最好的自学机器学习的速查文档和速学方式,里面的内容涵盖机器学习的很多领域,从机器学习面试题集锦,到特征工程,正则等基础知识,到sklearn,spark等分布式,从线性回归,逻辑回归,决策树,朴素贝叶斯,adaboost,xgb,lightgbm,GBDT等主流的监督学习算法,到聚类,pca等非监督学习算法,从推荐系统到关联分析,svd等。最后一个OTO实战。 希望能够帮助到自学机器学习的小伙伴。

2020-01-05

AI算法工程师手册.zip

这算是一份手册或者是快速学习的一种方式,里面涵盖基本的机器学习和深度学习算法,从基本介绍,到特征工程,从基本的机器学习算法(决策树,贝叶斯,线性回归,支持向量机,KNN,聚合算法,GBDT,xgb,lightbgm等, 无监督算法pca,聚类等), 到深度学习算法(CNN,RNN)基本上全覆盖。所以有了这一个,能够在应用中快速的查看。希望在自学深度学习和机器学习的路上帮助到大家。

2020-01-05

机器学习、深度学习面试笔试题300+.pdf

最新版的机器学习和深度学习面试题目,从牛客等各大网站整理剖析,整合整理,共300多道经典题目。 涉及机器学习和深度学习理论和实践等各方面的知识,底层的知识偏多一些!

2019-11-24

数据处理之特征选择知识.pdf

用sklearn进行特征选择的一些知识整理, 主要包括如何对数据进行归一化,标准化, 对定性数据怎么描述,如何降维,如何进行特征选择,这些其实sklearn包中都封装好了相关的函数,使用的时候,可以直接来用,所以也是一份随时可以查阅的资料。

2019-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除