自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(169)
  • 资源 (2)
  • 收藏
  • 关注

原创 Task3 离线物料系统的构建

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cGyA8ZZh-1640158770630)(img/Task3 离线物料系统的构建/news-rec-sys-function-diagram.png)]offline部分主要是基于前面存储好的物料画像和用户画像进行离线计算, 为每个用户提供一个热门页列表和推荐页列表并进行缓存, 方便online服务的列表获取。 所以下面主要帮大家梳理这两个列表的生成以及缓存到redis的流程。离线物料系统的基本流程:爬取物料:使用s

2021-12-22 15:40:22 757

原创 Task02 数据库的基本使用

Task02 数据库的基本使用Mysql学习Mysql介绍MySQL为关系型数据库(Relational Database Management System), 这种所谓的"关系型"可以理解为"表格"的概念, 一个关系型数据库由一个或数个表格组成,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。主要特点:MySQL 使用标准的 SQL 数据语言形式。MySQL 支持大型数据库,支持 5000 万条记录的数据仓库,32 位系统表文件最大可支持

2021-12-18 19:28:53 906

原创 Task1 新闻推荐系统项目搭建

项目环境操作系统:macos10.14MySQL: 8.0.16Redis:5.0.14Mongodb:5.0.5Python 3.8后端:PyCharm 2021前端:WebStorm数据库连接:Nivacate for mysql数据库安装MySQL安装: https://www.jianshu.com/p/199492627cccredis安装:https://www.cnblogs.com/zhouxihi/p/14432125.html (需要brew)mongodb :h

2021-12-15 17:33:22 980

原创 数据库学习(五)

常见函数概念:类似于java的方法,将一组逻辑语句封装在方法体中,对外暴露方法名好处:1、隐藏了实现细节 2、提高代码的重用性调用:select 函数名(实参列表) 【from 表】;特点:①叫什么(函数名)②干什么(函数功能)分类:1、单行函数如 concat、length、ifnull等2、分组函数字符函数length 获取参数值的字节个数SELECT LENG...

2020-04-27 22:40:26 438

原创 数据库学习(四)

排序查询语法select 查询列表from 表名【where 筛选条件】order by 排序的字段或表达式;特点asc代表的是升序,可以省略desc代表的是降序order by子句可以支持 单个字段、别名、表达式、函数、多个字段order by子句在查询语句的最后面,除了limit子句按单个字段排序SELECT * FROM employees ...

2020-04-24 22:20:38 610

原创 数据库学习(三)

条件查询语法:SELECT 查询列表 FROM 表名 WHERE 筛选条件;分类:按条件表达式筛选按逻辑表达式筛选模糊查询按条件表达式筛选简单条件运算符:> < = != <> >= <=案例1:查询工资>12000的员工信息SELECT *FROM employeesWHERE salary&...

2020-04-20 22:55:04 461

原创 数据库学习(二)

DQL语言学习(一)基础查询SELECT 要查询的字段|表达式|常量值|函数FROM 表名;特点:通过SELECT查询完的结果 ,是一个虚拟的表格,不是真实存在要查询的东西 可以是常量值、可以是表达式、可以是字段、可以是函数条件查询SElECT 要查询的字段|表达式|常量值|函数FROM 表WHERE 条件;条件的分类:条件表达式:salary&...

2020-04-18 20:55:26 230

原创 【机器学习面试题】——循环神经网络(RNN)

文章目录1. 为什么需要RNN?2. 简要介绍RNN的基本结构单层网络结构经典RNN结构RNN的拓展结构3. CNN和RNN的区别 ?4. RNNs和FNNs(前馈神经网络)有什么区别?5. RNNs训练和传统ANN训练异同点?6. 为什么RNN 训练的时候Loss波动很大7. 描述RNN的前向输出流程8. RNN中为什么会出现梯度消失,如何解决?9. LSTM核心思想图解10. LSTMs与GR...

2020-03-19 23:42:34 5358

原创 【机器学习面试题】——BERT

1. BERT的基本原理是什么?BERT可以看成一个自编码的语言模型,主要用两个任务训练该模型。MLM(Masked LM)输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的符号**[MASK]来代替它们,之后让模型根据所给的标签去学习**这些地方该填的词NSP(Next Sentence Prediction)在双向语言模型的基础上额外增加了一个句子级别的连续性预测任...

2020-03-17 22:58:58 1865

原创 【机器学习面试题】—— 卷积神经网络

文章目录1. 卷积神经网络的结构输入层卷积层激活层池化层全连接层2. 卷积在图像中有什么直观作用3. 卷积层有哪些基本参数?4. 卷积核有什么类型?5. 二维卷积与三维卷积有什么区别?二维卷积三维卷积6. 有哪些池化方法?池化原理池化类型7. 1*1卷积的作用?8. 卷积层和池化层有什么区别?9. 卷积核是否一定越大越好?10. 每层卷积是否只能用一种尺寸的卷积核?11. 怎样才能减少卷积层参数量...

2020-03-07 21:58:12 9375

原创 【机器学习面试题】——w2v+tf-idf

Word2Vector1.什么是词嵌入模型?把词映射为实数域向量的技术也叫词嵌⼊2.介绍一下Word2Vec谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是连续词袋(Continues Bag of Words)和跳字(Skip-gram)模型。3.介绍CBOWCBOW,全称Continuous B...

2020-03-05 10:26:46 1903

原创 【机器学习面试题】——Apriori

协同过滤推荐有哪些类型基于用户(user-based)的协同过滤基于用户(user-based)的协同过滤主要考虑的是用户和用户之间的相似度,只要找出相似用户喜欢的物品,并预测目标用户对对应物品的评分,就可以找到评分最高的若干个物品推荐给用户。基于项目(item-based)的协同过滤基于项目(item-based)的协同过滤和基于用户的协同过滤类似,只不过这时我们转向找到物品和物...

2020-01-15 10:05:42 642

原创 【机器学习面试题】——XGBoost

文章目录1. RFRFRF和GBDTGBDTGBDT的区别2. 比较LRLRLR和GBDTGBDTGBDT,说说什么情景下GBDTGBDTGBDT不如LRLRLR3. 简单介绍一下XGBoostXGBoostXGBoost4. XGBoostXGBoostXGBoost与GBDTGBDTGBDT有什么不同5. XGBoostXGBoostXGBoost为什么可以并行训练6. XGBoostXGBo...

2020-01-09 15:54:49 711

原创 【机器学习面试题】——梯度下降

1. 机器学习中为什么需要梯度下降梯度下降的作用:梯度下降是迭代法的一种,可以用于求解最小二乘问题。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。如果我们需要求解损失函数的最大值,可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。2. 梯度下降法缺点缺点:靠近极小值时收敛速度减慢。直线搜索时可能会产生一些问题。可能...

2020-01-05 19:32:26 3095

原创 【机器学习面试题】——朴素贝叶斯

文章目录1.简述朴素贝叶斯算法原理和工作流程2. 条件概率、先验概率、后验概率、联合概率、贝叶斯公式的概念3.为什么朴素贝叶斯如此“朴素”?4.什么是贝叶斯决策理论?5.朴素贝叶斯算法的前提假设是什么?6.为什么属性独立性假设在实际情况中很难成立,但朴素贝叶斯仍能取得较好的效果?7.什么是朴素贝叶斯中的零概率问题?如何解决?8.朴素贝叶斯中概率计算的下溢问题如何解决?9.当数据的属性是连续型变量时...

2020-01-04 21:28:55 1689

原创 NLP学习——文本相似度计算

导入模块from gensim.models import Word2Vecimport jiebaimport numpy as npFILE_PATH = "./data/wiki_tiny.txt"MODEL_PATH = 'word_vec.model'读取文件def read_text(FILE_PATH): sentences = [] with op...

2020-01-03 16:49:21 337

原创 【机器学习面试题】——线性回归+逻辑回归

文章目录线性回归1. 简单介绍一下线性回归。2. 线性回归的假设函数是什么形式?3. 线性回归的代价(损失)函数是什么形式?4. 求解线性回归的代价函数的方法有哪些:6. 简述岭回归与Lasso回归以及使用场景。7. 线性回归要求因变量服从正态分布吗?逻辑回归1. 简单介绍一下逻辑回归2. 简单介绍一下Sigmoid函数3. 逻辑回归的损失函数是什么4.可以进行多分类吗?5.逻辑回归的优缺点6. ...

2020-01-01 21:35:15 2101 1

原创 【数据结构与算法】——二分查找

二分法查找算法思想二分查找又称折半查找、 对数搜索 ,是一种在有序数组中查找某一特定元素的搜索算法。假设表中元素是按升序排列选择数组中的元素,将数组分为前后两个区间如果要找的元素比中间的元素大,那么要找的元素在后半区间,更新后半区间为查找的区间如果要找的元素比中间的元素小,那么要找的元素在前半区间,更新前半区间为查找的区间直到最后找到要找的元素,或者整个数组分完...

2019-12-31 08:21:25 337

原创 【机器学习面试题】——决策树

文章目录1. 简单介绍决策树算法2. 决策树和条件概率分布的关系?3. 信息增益比相对信息增益有什么好处?4. ID3算法—>C4.5算法—> CART算法5. 决策树的缺失值是怎么处理的6. 决策树的目标函数是什么?7. 决策树怎么处理连续性特征?8. 决策树怎么防止过拟合?9. 如果特征很多,决策树中最后没有用到的特征一定是无用吗?10.决策树的优缺点?11. 树形结构为什么不需要...

2019-12-30 10:42:29 990

原创 【机器学习面试题】——随机森林+AdaBoost

文章目录1. 简单介绍随机森林2. 随机森林的随机性体现在哪里?3. 随机森林为什么不容易过拟合?4. 为什么不用全样本训练?5. 为什么要随机特征?6. RF与 GBDT 的区别?7. RF为什么比Bagging效率高?8. 你已经建了一个有10000棵树的随机森林模型。在得到0.00的训练误差后,你非常高兴。但是,验证错误是34.23。到底是怎么回事?你还没有训练好你的模型吗?9. 如何使用随...

2019-12-29 22:13:04 3592 1

原创 【机器学习面试题】——集成学习

文章目录1. 什么是集成学习算法?2. 集成学习主要有哪几种框架?3. 简单介绍一下bagging,常用bagging算法有哪些?4. 简单介绍一下boosting,常用boosting算法有哪些?5. boosting思想的数学表达式是什么?6. 简单介绍一下stacking,常用stacking算法有哪些?7. 你意识到你的模型受到低偏差和高方差问题的困扰,应该使用哪种算法来解决问题呢?为什么...

2019-12-28 21:53:21 1683

原创 自然语言分类任务 (1)

文章目录自然语言分类任务数据集模型准备数据数据集预览查看一个样本切分train/val创建vocabulary查看训练集中最常见的单词查看单词表查看label创建iteratorsWord Averaging模型模型结构模型配置模型参数计算初始化参数定义优化器和损失函数计算预测的准确率模型训练train模型验证evaluate读取保存的模型语句测试RNN模型(没有跑)模型结构模型配置词向量使用gl...

2019-12-25 21:51:52 1031

原创 深度学习 pytorch学习

背景准备用4周时间,根据深度学习与PyTorch入门实战视频教程,刷完配套的源代码。熟悉pytorch的使用。具体内容如下:每天抄写2-3个lesson的代码,完成任务之后微信群打卡。参考资料https://github.com/dragen1860/Deep-Learning-with-PyTorch-Tutorials后台回复「pytorch资源」,获取资源!后台回复「组队...

2019-11-24 16:20:34 224 1

原创 leetcode——167.两数之和 II - 输入有序数组

题目描述给定一个已按照升序排列 的有序数组,找到两个数使得它们相加之和等于目标数。函数应该返回这两个下标值 index1 和 index2,其中 index1 必须小于 index2。说明:返回的下标值(index1 和 index2)不是从零开始的。 你可以假设每个输入只对应唯一的答案,而且你不可以重复使用相同的元素。示例:输入: numbers = [2, 7, 11, 15]...

2019-11-17 17:24:47 153

原创 leetcode——75.颜色分类

题目描述给定一个包含红色、白色和蓝色,一共 n 个元素的数组,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。此题中,我们使用整数 0、 1 和 2 分别表示红色、白色和蓝色。注意:不能使用代码库中的排序函数来解决这道题。示例:输入: [2,0,2,1,1,0]输出: [0,0,1,1,2,2]解题思路分别统计个数,然后逐个赋值代码class S...

2019-11-16 22:18:12 121

原创 leetcode——80. 删除排序数组中的重复项 II

题目描述给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素最多出现两次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例 1:给定 nums = [1,1,1,2,2,3],函数应返回新长度 length = 5, 并且原数组的前五个元素被修改为 1, 1, 2, 2, 3 。你不需要考虑数组中超出新...

2019-11-15 14:40:05 114

原创 leetcode——26. 删除排序数组中的重复项

题目描述给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例 1:给定数组 nums = [1,1,2], 函数应该返回新的长度 2, 并且原数组 nums 的前两个元素被修改为 1, 2。 你不需要考虑数组中超出新长度后面的元素。示例 2...

2019-11-15 14:36:23 130

原创 leetcode——27. 移除元素

题目描述给定一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。示例 1:给定 nums = [3,2,2,3], val = 3,函数应该返回新的长度 2, 并且 nums 中的前...

2019-11-14 09:25:51 141

原创 leetcode——300. 最长上升子序列

题目描述给定一个无序的整数数组,找到其中最长上升子序列的长度。示例:输入: [10,9,2,5,3,7,101,18]输出: 4 解释: 最长的上升子序列是 [2,3,7,101],它的长度是 4。说明:可能会有多种最长上升子序列的组合,你只需要输出对应的长度即可。你算法的时间复杂度应该为 O(n2) 。解题思路定义一个辅助函数,用二分查找完成数组的覆盖或者插入,遍历完整个...

2019-11-13 20:38:39 179

原创 leetcode——34. 在排序数组中查找元素的第一个和最后一个位置

题目描述给定一个按照升序排列的整数数组 nums,和一个目标值 target。找出给定目标值在数组中的开始位置和结束位置。你的算法时间复杂度必须是 O(logn)O(log n)O(logn) 级别。如果数组中不存在目标值,返回 [-1, -1]。示例 1:输入: nums = [5,7,7,8,8,10], target = 8输出: [3,4]示例 2:输入: nums = ...

2019-11-12 23:11:15 155

原创 leetcode——98. 验证二叉搜索树

题目描述给定一个二叉树,判断其是否是一个有效的二叉搜索树。假设一个二叉搜索树具有如下特征:节点的左子树只包含小于当前节点的数。节点的右子树只包含大于当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。示例 1:输入: 2 / \ 1 3输出: true示例 2:输入: 5 / \ 1 4 / \ 3 6...

2019-11-08 17:05:15 235

原创 leetcode——15. 三数之和

题目描述解题思路先将给定 nums 排序,复杂度为 O(NlogN)O(NlogN)。异常判断因为 nums[j] > nums[i] > nums[k] >0 ,三个数中必须要有负数。使用双指针 前后夹击,遇到相同的元素,则跳过三数之和小于0,左边的指针i向右移动增大,并且要跳过所有的相同的元素三数之和大于0,右边的指针j向左移动减小,并且要跳过所有的相同的元素...

2019-11-07 16:36:14 163

原创 leetcode——1. 两数之和

题目描述给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]解题思路...

2019-11-06 22:15:12 118

原创 leetcode——239. 滑动窗口最大值

题目描述给定一个数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。示例:输入: nums = [1,3,-1,-3,5,3,6,7], 和 k = 3输出: [3,3,5,5,6,7] 解释: 滑动窗口的位置 最大值--------...

2019-11-06 11:07:59 132

原创 Leetcode——242. 有效的字母异位词

题目描述给定两个字符串 s 和 t ,编写一个函数来判断 t 是否是 s 的字母异位词。示例 1:输入: s = "anagram", t = "nagaram"输出: true示例 2:输入: s = "rat", t = "car"输出: false说明:你可以假设字符串只包含小写字母。解题思路思路一:使用sorted函数对字符串进行排序,如果排序之后两个字符串一样...

2019-11-06 10:43:41 124

原创 Leetcode——703. 数据流中的第K大元素

题目描述设计一个找到数据流中第K大元素的类(class)。注意是排序后的第K大元素,不是第K个不同的元素。你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器,它包含数据流中的初始元素。每次调用 KthLargest.add,返回当前数据流中第K大的元素。示例:int k = 3;int[] arr = [4,5,8,2];KthLargest kthL...

2019-11-04 21:22:15 176

原创 Leetcode——142.环形链表Ⅱ

题目描述给定一个链表,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(索引从 0 开始)。 如果 pos 是 -1,则在该链表中没有环。说明:不允许修改给定的链表。示例 1:输入:head = [3,2,0,-4], pos = 1输出:tail connects to node inde...

2019-10-28 22:50:53 146

原创 Leetcode——141.环形链表

题目描述给定一个链表,判断链表中是否有环。为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(索引从 0 开始)。 如果 pos 是 -1,则在该链表中没有环。示例 1:输入:head = [3,2,0,-4], pos = 1输出:true解释:链表中有一个环,其尾部连接到第二个节点。示例 2:输入:head = [1,2], pos = 0输...

2019-10-28 22:06:06 144

原创 Leetcode——20.有效的括号

题目描述给定一个只包括 ‘(’,’)’,’{’,’}’,’[’,’]’ 的字符串,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。 左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: "()"输出: true示例 2:输入: "()[]{}"输出: true示例 3:输入: "(]"输出: false...

2019-10-28 21:57:48 114

原创 Leetcode——24. 两两交换链表中的节点

题目描述给定一个链表,两两交换其中相邻的节点,并返回交换后的链表。你不能只是单纯的改变节点内部的值,而是需要实际的进行节点交换。示例:给定 1->2->3->4, 你应该返回 2->1->4->3.解题思路代码class Solution(object): def swapPairs(self, head): """...

2019-10-28 21:26:12 131

hive-2.1.1+mysql-connector-java-5.1.46-bin.jar

MySQL 作为 hive 的元数据库时遇到的问题 Mysql 版本 Ver 14.14 Distrib 5.6.40, for Linux (x86_64) using EditLine wrapper Hive 版本 apache-hive-2.1.1-bin.tar.gz 这个版本用 mysql-connector-java-5.1.46-bin.jar!!!!!

2018-08-09

通话记录模拟生成程序

此段程序能自动生成通话记录 主叫+被叫+通话日期+通话时间

2018-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除