一种tang两种味-CSDN博客

原创 xgb生成的pkl文件转pmml文件用于跨平台部署并预测

import pandas as pdimport numpy as npimport datetimeimport matplotlib.pyplot as pltimport seaborn as snsimport osimport xgboost as xgb# step1：获取.model和.fmap模型文件'''fmap(feature map file)：实现feature id和feature name的对应格式为 featmap.txt: <featureid&

2022-05-20 15:23:32 2333

原创史上最全linux语法汇总，教你一文掌握linux

linux语法

2022-03-07 18:29:16 4816 3

原创史上最全pandas语法汇总，教你一文掌握pandas

pandas语法汇总

2022-03-07 16:57:36 2294 1

原创面试题汇总2（吐血整理）

2021届校招算法岗知识点总结：机器学习基础统计学习方法（LR，SVM，EM，最大篇，集成学习等），值得反复看好几遍，每一遍都会加深理解；尤其是学习理论：贝叶斯决策理论/假设空间概念/经验风险，结构风险/各类损失函数之间的区别与联系/极大似然估计，最大后验估计，贝叶斯估计的区别与联系。·树模型系列论文深入理解，gbdt，xgboost，lightgbm；·深度学习基础：过拟合解决方法，dropout，bn，In等；学习器，各种optimizer原理及对比；BP原理；各种激活函数等，最好用numpy

2020-10-18 20:40:32 39467 3

原创 2020算法秋招面经

2020.7.24 腾讯一面 40min先做个自我介绍吧xgboost 怎么计算特征重要性？？前5层是什么？？怎么排序特征重要性的？？bert的结构，过程详细讲一下你的项目中bert重新训练了吗？讲一下具体过程。你在哪弄的服务器？输入是什么？？emebedding+seg+pos三者相加还是级联，维度变了吗？postional encoding是怎么设计的？绝对位置还是相对位置？为什么这么设计？BERT被设计用来处理长度为512的输入序列。作者通过让BERT学习每个位置的向量表示来包含输入序列

2020-10-17 15:41:26 2360 1

原创 NLP面试题汇总1（吐血整理）

统计学习方法笔记当正负样本极度不均衡时存在问题！比如，正样本有99%时，分类器只要将所有样本划分为正样本就可以达到99%的准确率。但显然这个分类器是存在问题的。当正负样本不均衡时，常用的评价指标为ROC曲线和PR曲线。概率模型：决策树、bayes、HMM、CRF、概率潜在语义分析、潜在狄利克雷分析lda、高斯混合模型（一定可以表示为联合概率分布的形式，）概率模型的代表是概率图模型，即联合概率分布由有向图或者无向图表示的模型，而联合概率可以根据图的结构分解为因子乘积的形式。Bayes，CRF，HMM都是概

2020-10-08 09:51:11 76864 6

原创 [NLP]吴恩达NLP学习笔记

2020-04-14 16:45:30 599

原创 transformer及BERT深入理解

2020-04-11 21:42:35 350

原创推荐系统之大数据技术(超全面)

1.Flume1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2.1 AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的，是Flume数据传输的基本单元。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2 Source Sou...

2020-04-10 22:05:33 568

原创 mysql面试题汇总(全面)

框架考察的知识点较深入，以阿里巴巴为例，这些大厂的面试都是类似的，通常从一个大的面试点切入，然后层层深入，直到问到你不会为止，比如，你了解哪些数据库引擎？这个数据库引擎的特点是什么？这个数据库引擎是如何存储数据的？为什么要采用这种存储方式？等等。所以针对以上两个问题，作者结合自己 10 余年的工作和面试的经验，经过讨论和修改，最终制定了八大模块，汇总并介绍 MySQL 中的典型面试问题，它包含...

2020-04-08 10:16:47 3530 1

原创 mysql读书笔记

1、初识MYSQL什么是MySQLMySQL是一个小型关系数据库管理系统，与其他大型数据库管理系统例如Oracle、DB2、SQL Server等相比，MySQL规模小、功能有限，但是它体积小、速度快、成本低，且它提供的功能对稍微复杂的应用来说已经够用，这些特性使得MySQL成为世界上最受欢迎的开放源代码数据库。MySQL的优势MySQL的主要优势如下：（1）速度：运行速度快。（2）价...

2020-04-07 21:44:02 769

原创 [NLP]高级词向量之OpenAI GPT详解

1. 前言本文对2018年OpenAi提出的论文《Improving Language Understanding by Generative Pre-Training》做一个解析。一个对文本有效的抽象方法可以减轻NLP对监督学习的依赖。大多数深度学习方法大量的人工标注信息，这限制了在很多领域的应用。在这些情况下，可以利用来未标记数据的语言信息的模型来产生更多的注释，这可能既耗时又昂贵。此外，...

2020-04-07 10:45:32 1180

原创 [NLP]高级词向量之谷歌BERT详解

1. 前言如何让搜索引擎呈现用户想要的结果是困扰谷歌工程师的一大难题。谷歌搜索英文版于2019年10月25日上线BERT算法，他们的搜索引擎用上了强大的 BERT 预训练模型，可以让搜索引擎结合语境理解用户的搜索意图，甚至能理解一些不起眼的介词在搜索语句中的重要含义。有了 BERT 的加持，用户能在谷歌中搜到相关性更强的结果。下面来看看谷歌搜索算法BERT的介绍。2019 年 10 月 25 ...

2020-04-07 09:37:32 1656

原创 [NLP]高级词向量表达之ELMo详解

一、引言词向量是自然语言处理任务中非常重要的一个部分，词向量的表征能力很大程度上影响了自然语言处理模型的效果。如论文中所述，词向量需要解决两个问题：（1）词使用的复杂特性，如句法和语法。（2）如何在具体的语境下使用词，比如多义词的问题。传统的词向量比如word2vec能够解决第一类问题，但是无法解决第二类问题。比如：“12号地铁线马上就要开通了，以后我们出行就更加方便了。”和“你什么时候方...

2020-04-06 22:04:48 2713

原创 [NLP]高级词向量表达之Word2vec详解（知识点全覆盖）

一、词表征(Word Representation)首先明确句子是序列化，里面携带了大量大信息。在NLP发展的进程里面，采用了one-hot vector的形式来表示一个句子里面的词是一种方式。表示这个句子的方式如下：1、首先是创建一张词汇表(Vocabulary)，然后每个词都有对应的位置，假设现在我们有10000个单词。本例子来自于吴恩达的Deeplearningai。图中所示的词汇表大...

2020-04-06 17:27:51 4610 1

原创 [NLP]高级词向量表达之WordRank详解

如果说FastText的词向量在表达句子时候很在行的话，GloVe在多义词方面表现出色，那么wordRank在相似词寻找方面表现地不错。其是通过Robust Ranking来进行词向量定义。wordRank，与 word2vec、fastText三者对比在不同的项目需求上，有着不同的训练精度，在句法表达上，fastText更好，而在单个词语的相似性等内容表达上wordRank是三者中最好的...

2020-04-06 15:26:52 1013

原创 [NLP]高级词向量表达之GloVe详解

word2vec的弊端word2vec：与一般的共现计数不同，word2vec主要来预测单词周边的单词,在嵌入空间里相似度的维度可以用向量的减法来进行类别测试。1、对每个local context window单独训练，没有利用包含在global co-corrence矩阵中的统计信息2、多义词处理乏力，因为使用了唯一词向量。当前，学习词向量表示的方法主要有两种类型：一种是基于全局矩阵分解...

2020-04-06 15:17:04 1509

原创 [NLP]文本分类之fastText详解

Word2vec, Fasttext, Glove, Elmo, Bert, Flair pre-train Word Embedding一、fastText简介fastText是一个快速文本分类算法，与基于神经网络的分类算法相比有两大优点：1、fastText在保持高精度的情况下加快了训练速度和测试速度2、fastText不需要预训练好的词向量，fastText会自己训练词向量3、fa...

2020-04-06 14:51:21 4253

原创集成学习之Stacking详解

1、Stacking原理stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。最初的想法是：1：用数据集D来训练h1,h2,h3…，2：用这些训练出来的初级学习器在数据集D上面进行预测得到次级训练集。3：用次级训练集来训练次级学习器。但是这样的实现是有很大的缺陷的。在原始数据集D上面训练的模型，然后用这些模型再D上...

2020-04-05 12:04:17 8181

转载实时个性化推荐综述

随着互联网的深入发展和产品布局的多元化，越来越多的企业通过提供快节奏的产品及服务消耗用户的碎片化时间，从而赢得用户的青睐。这类产品通过便捷的UI交互来跟用户进行实时互动，在极短的时间内给用户“奖赏”，让用户欲罢不能，根本停不下来。这类产品普遍用到的一个技术就是实时个性化推荐技术。相比于传统的个性化推荐每天更新用户的推荐结果，实时推荐基于用户最近几秒的行为实时调整用户的推荐结果。实时推荐系统让用户...

2020-04-03 21:36:06 1431

原创推荐系统之采样修正的双塔模型

1、背景大规模推荐系统一般分为两阶段，即召回和排序阶段，本文重点关注召回阶段。给定{用户，上下文，物品}的三元组，一个通用的方法首先是分别计算{用户，上下文} 和 {物品} 的向量表示，然后通过一定的方式如点积来计算二者的匹配得分。这种基于表示学习的方法通常面临两个方面的挑战：1）工业界中物品的数量十分巨大。2）通过收集用户反馈得到的数据集十分稀疏，导致模型对于长尾物品的预测具有很大的方差...

2020-04-03 20:44:41 2071 1

原创 [NLP] 文本分类之TextCNN模型原理和实现(超详细)

1. 模型原理1.1论文Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。将卷积神经网络CNN应用到文本分类任务，利用多个不同size的kernel来提取句子中的关键信息（类似于多窗口大小的n-gram），从而能够更好地捕捉局部相关性。1.2 网络结构Te...

2020-04-03 16:48:30 21854 1

原创商汤科技2018校招C /算法笔试题

交换机主要工作在（）？网络层是路由器，数据链路层是交换机，物理层是光纤，传输层是TCP/UDP协议！完全二叉树完全二叉树除最后一层外都是满的，所以也可以这么算：第一层1个节点，令层数为n，除最后一层外，每层的节点个数为2^(n-1)，有330个叶子节点，所以倒数第二层为第9层，有256个节点，256+x=330得x=74,所以共有1+2+4+8+16+32+64+128+256+74*2=...

2020-03-27 21:49:55 474

原创滴滴-2019+快手2020（A）-校园招聘算法工程师笔试题

在什么情况需要对特征使用归一化处理？要解决这个问题首先要看归一化的作用：1.归一化可以加快梯度下降法求解最优解的速度。当特征之间的数值变化范围相差太大时，会使得收敛路径呈Z字型，导致收敛太慢，或者根本收敛不到最优解的结果。2.归一化可以提高计算精度。一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖...

2020-03-27 11:37:58 5397

原创 360公司-2019校招笔试-机器学习工程师客观题错题合集

KNN算法中K值对分类效果影响较为显著，一般K值较大时，对噪声比较敏感。（X）朴素贝叶斯算法对缺失数据特别敏感，事先需要知道先验概率。SVM算法可以解决高维问题。提高泛化性能。集成学习算法存在过拟合、鲁棒性不强等问题。KNNK值得选取非常重要，因为：如果当K的取值过小时，一旦有噪声得成分存在们将会对预测产生比较大影响，例如取K值为1时，一旦最近的一个点是噪声，那么就会出现偏差，K值的减...

2020-03-26 18:28:15 7467

原创大厂数据结构与算法题总结

sys.stdin.readline()和input()的区别sys.stdin.readline( )会将标准输入全部获取，包括末尾的’\n’，input()会把‘\n’忽略import sysprint('Plase input your name: ')name = sys.stdin.readline()print('Hello ', len(name))...

2020-03-25 10:00:25 281

原创数据常用预处理教程详解（sklearn，numpy，pandas）

log1p log1p = log(x+1) 即ln(x+1) expm1 = exp(x)-1log1p函数有它存在的意义，即保证了x数据的有效性，当x很小时（如两个数值相减后得到x = 10^{-16}），由于太小超过数值有效性，用log(x+1)计算得到结果为0，换作log1p则计算得到一个很小却不为0的结果，这便是它的意义（用泰勒公式来展开运算的）。对于...

2020-03-20 15:37:59 1832

原创推荐系统知识点集粹

2020-03-16 20:05:17 119

原创推荐系统项目实战篇

))

2020-03-14 20:44:56 166

原创推荐系统之ALS算法详解

ALS算法是2008年以来，用的比较多的协同过滤算法。它已经集成到Spark的Mllib库中，使用起来比较方便。从协同过滤的分类来说，ALS算法属于User-Item CF，也叫做混合CF。它同时考虑了User和Item两个方面。用户和商品的关系，可以抽象为如下的三元组：<User,Item,Rating>。其中，Rating是用户对商品的评分，表征用户对该商品的喜好程度。ALS...

2020-03-11 14:42:46 16027

原创基于关联规则的推荐算法详解(Apriori 、FP−Growth)

关联规则分析也是一种比较常见的推荐算法，主要是根据历史数据统计不同规则出现的关系，比如：X−>Y X->YX−>Y，表示X XX事件发生后，Y YY事件也会有一定概率发生。关联规则分析最著名的就是“啤酒-尿布”的经典案例，沃尔玛的超市管理人员通过数据发现，很多买尿布的人大概率事件会去购买啤酒。这是因为在美国很多妈妈在家带孩子，所以去超市买尿布的任务就交给了爸爸...

2020-03-11 14:11:51 4978

原创推荐系统算法（MF、FM、CF、SVD、LFM、SVD++、TItemCF、timeSVD++、模型融合）

1.传统的SVD分解对于如何补全一个矩阵，历史上有过很多的研究。一个空的矩阵有很多种补全方法，而我们要找的是一种对矩阵扰动最小的补全方法。那么什么才算是对矩阵扰动最小呢？一般认为，如果补全后矩阵的特征值和补全之前矩阵的特征值相差不大，就算是扰动比较小。所以，最早的矩阵分解模型就是从数学上的SVD（奇异值分解）开始的。给定m个用户和n个物品，和用户对物品奇异值分解将矩阵分解为奇异值和奇异向量...

2020-03-11 11:17:59 6835 2

原创协同过滤算法详解

一、协同过滤算法简介协同过滤算法是一种较为著名和常用的推荐算法，它基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐。也就是常见的“猜你喜欢”，和“购买了该商品的人也喜欢”等功能。它的主要实现由：●根据和你有共同喜好的人给你推荐●根据你喜欢的物品给你推荐相似物品●根据以上条件综合推荐因此可以得出常用的协同过滤算法分为两种，基于用户的协同过滤算法(user-b...

2020-03-10 21:55:41 33332 1

原创神经网络之LSTM算法详解（Long short-termmemory ）

前馈神经网络VS 反馈神经网络在深度学习领域，传统的前馈神经网络（feed-forward neural net，简称FNN）具有出色的表现，取得了许多成功，它曾在许多不同的任务上——包括手写数字识别和目标分类上创造了记录。甚至到了今天，FNN在解决分类任务上始终都比其他方法要略胜一筹。尽管如此，大多数专家还是会达成共识：FNN可以实现的功能仍然相当有限。究其原因，人类的大脑有着惊人的计算功能...

2020-03-10 21:26:30 4760

原创 FM算法详解（因子分解机）

1. 什么是FM？FM即Factor Machine，因子分解机。任意的 N×N 实对称矩阵都有 N 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。故实对称矩阵 A 可被分解成：其中，Q为正交矩阵，Λ为实对角矩阵。2. 为什么需要FM？1、特征组合是许多机器学习建模过程中遇到的问题，如果对特征直接建模，很有可能会忽略掉特征与特征之间的关联信息，...

2020-03-10 21:12:27 4766

原创 LightGBM算法详解(教你一文掌握LightGBM所有知识点)

LigthGBM是boosting集合模型中的新进成员，由微软提供，它和XGBoost一样是对GBDT的高效实现，原理上它和GBDT及XGBoost类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规模数据支持直接使用catego...

2020-03-10 19:28:11 49315 11

原创推荐系统之LFM算法详解

个性化召回召回：从item中选取一部分作为候选集1）不同的用户喜欢不同的item2）部分作为候选集，降低系统的负担根据用户的属性行为上下文等信息从物品全集中选取其感兴趣的物品作为候选集；召回的重要作用：召回决定了最终推荐结果的天花板个性化召回解析分三种：1.基于用户行为2.基于user profile3.基于隐语义的 LFM工业届个性化召回架构：个性化召回算法LFM（latent...

2020-03-10 15:42:28 9570 1

原创 kaggle推荐知识点

推荐系统在不同领域的应用实例：1.图书影音：Netflix、Youtube、MovieLens、豆瓣、网易云音乐2.新闻资讯：Google News、今日头条、知乎、Hulu3.人际社交：Facebook、Twitter、微博、人人网4.旅游出行：Wanderfly、TripAdvisor、蚂蜂窝、去哪儿5.电商零售：亚马逊、淘宝、天猫、京东...

2020-03-08 13:37:39 604

原创音乐推荐系统

线下能做的全部做好，当你想看的时候只是把结果取出来！不然临时算吃不消，python线上一般要用到分布式，java可能比python快一点1.针对用户推荐网易云音乐（每日30首歌/7首歌）2.针对歌曲在你听某首歌的时候，找“相似歌曲”1歌曲和歌曲之间的相似度是可以离线算好的，但是用户现在和以前的一般没法离线算好的，用户的兴趣随着时间推移会发生变化的！在推荐系统的建模过程中，我们将用到pyth...

2020-03-06 21:12:31 5371

原创 Python所有重要知识点（教你把python3拿捏得死死的）

python的特性Python是动态类型的，这意味着你不需要在声明变量时指定类型。你可以先定义x=111，然后 x=”I’m a string”，一点问题也不会有。Python是面向对象语言，所有允许定义类并且可以继承和组合。Python没有访问访问标识如在C++中的public, private, 这就非常信任程序员的素质，相信每个程序员都是“成人”了~在Python中，函数是一等公民。这...

2020-03-05 18:37:33 803

空空如也

空空如也