TongYixuan_LUT-CSDN博客

原创机器学习项目（六）医疗知识图谱构建（五）

图表征学习TransX系列算法空间传递不变性Queen-women+man = kingTransE对于所有的实体和关系随机初始化一个向量，使得实体和关系在同一空间内表征，使得每个正确的三元组可以从头实体通过关系翻译到尾实体上，定义从头实体翻译到尾实体之后与标注尾实体之间的距离为“势能差”，找到整体最小的势能差的实体和关系向量。存在的问题TransE模型很简单也带来一个很大的问题就是他只适合处理一对一的关系，举例来说（华科、地点、武汉）和（黄鹤楼、地点、武汉）出现在KG中时，TransE的表

2020-06-11 16:07:21 781 1

原创机器学习项目（六）医疗知识图谱构建（四）

Neo4jNeo4j是一个高性能的NOSQL图形数据库，它将机构化数据存储在网络上而不是表中Node节点获得图数据库中所有实体节点relationship 增加所有增删改查的边关系节点NodeMatcher 查找节点#coding:utf-8from py2neo import Graph, Node, Relationship,NodeMatcherimport pandas as pdimport rebuwei = ['全身', '男性股沟', '颈部', '眼', '生殖部位',

2020-06-11 15:11:26 840

原创机器学习项目（六）医疗知识图谱构建（三）

BiLstm & CRFRNN 三个门结构 -> LSTM：门结构合并->GRU传递顺序改变->BiLSTM激活函数改变->libLSTM为什么要使用CRFCRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到句子中第一个词总是以标签“B-”或者“O”开始，而不是“I-”标签“B-label1 I-label2 I-lable3 I-…”,label1,label2,label3应该属于同一类

2020-05-19 16:34:26 629

原创机器学习项目（六）医疗知识图谱构建（二）

正则表达式通过规则的找到符合某种规律的字符串结果正则表达式构成：数量词：.?+*{}.句号匹配任意单个字符除了换行符匹配 >= 0个重复的在号之前的字符+匹配 >= 1个重复的在+号前的字符？标记？之前的字符为可选字符集：[]()(xyz)字符集，匹配与xyz完全相等的字符串转义字符：\t \r \p运算符：\|反斜线\在表达式中用于转码紧跟其后的字符，用于指定{}[]/+*.$^|?这些特殊字符|或运算符import reimport pandas

2020-05-18 20:53:23 534

原创机器学习项目（六）医疗知识图谱构建（一）

NLP中的两大流派知识图谱用三元组来表示知识：对领域的特定知识进行结构化存储和表示模型算法：利用图谱关系进行推导，进行实现自主学习深度学习利用机器提取的特征来表述数据：自动提取内在特征模型算法：优化特征的权重进行非线性映射深度学习对比知识图谱能够实现端到端的模型，中间减少人为的参与，知识图谱通过三元组的关系表示，可以最大限度的获得自然世界中的相互联系发展方向Pretrain+finetune预训练：大语料、无监督、深模型获得语义表示微调：在下游任务中添加具体语义信息实现任务强化学习

2020-05-14 20:58:16 1756

原创机器学习项目（五）电影推荐系统（七）Wide&Deep

Wide&DeepWide&Deep模型是谷歌在2016年提出的一种用于分类、回归任务的模型Memorization:LR模型+大量的原始特征和叉乘特征作为输入，“记忆”历史数据中曾共同出现过的特征对。Generalization:为sparse特征学习低维的dense embeddings来捕获特征相关性，学习到的embeddings本身带有一定的语义信息a(l+1)=f(W(l)a(l)+b(l))a^{(l+1)} = f(W^{(l)}a^{(l)} + b^{(l)}

2020-05-12 14:12:03 1242

原创机器学习项目（五）电影推荐系统（六）FM FFM

FM&FFM特征类型1.连续性特征：统计特征、用户对商品的偏好分、搜索词和文本相似度等2.离散型特征：用户ID、性别、省份、商品ID、品牌ID、品类ID等连续性特征离散化1.连续性特征离散化优点：离散化后的特征对异常数据有很强的鲁棒性特征离散化后，模型会更稳定2.连续性特征离散化的方法：分桶法：等宽分桶、等频分桶树模型分桶：借助树模型分桶离散型特征：one-hot编码：hash trickMF(Matrix Factorization)min⁡p,qL(p,q)=∑(

2020-05-09 16:31:29 1001

原创机器学习项目（五）电影推荐系统（五）Criteo Ctr

criteo ctr推荐和搜索搜索的目的性很强但是涉及到的商品范围较窄搜索产品的转换率比推荐产品高原因就是搜索的目的性强推荐多品牌多品类计算广告追求利益的最大化搜索推荐计算广告的区别搜索和推荐需要考虑用户的体验、品牌等广告在满足一定条件下，追求的是平台利益的最大化，不考虑用户体验CTR预估是搜索、推荐、计算广告的基础按点击收费(CPC) = 点击率(CTR)价格通过单次曝光的收益，决定展示哪个商品CPS(实际安装并收费成本) = 转化率价格转化率：用户看到商品

2020-05-08 20:38:34 849

原创机器学习项目（五）电影推荐系统（四）

五、协同过滤种类基于记忆：基于物品基于用户集成：Combine the Model-based&Memory-based基于模型：矩阵分解深度学习基于用户基于模型不同算法特征值和特征向量AX=λXAX = \lambda XAX=λXX就是特征向量$\lambda $就是特征值A=wλw−1A = w \lambda w^{-1}A=wλw−1SV...

2020-04-27 22:31:56 1642

原创机器学习项目（五）电影推荐系统（三）

四、基于内容推荐协同过滤：基于内容基于用户找到用户或内容之间的相似性进行推荐基于内容推荐简介基于标的物相关信息、用户相关信息及用户对标的物操作行为来构建推荐算法模型，为用户提供推荐服务。基于内容推荐核心步骤基于用户特征和标的物特征实现为用户推荐相似的标的物1.基于用户历史行为记录做推荐：先计算标的物之间的相似性，然后利用用户历史记录中与标的物相似的物品进行推荐(余弦相似...

2020-04-25 14:04:48 2041

原创机器学习项目（五）电影推荐系统（二）

三、IMDb评分IMDb简介互联网电影数据库（英语：Internet Movie Database，简称IMDb）是一个关于电影演员、电影、电视节目、电视艺人、电子游戏和电影制作小组的在线数据库。IMDb开办于1990年10月17日，从1998年开始成为亚马逊公司旗下的网站，在2020年是IMDb成立30周年。IMDb的资料中包含了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电...

2020-04-21 10:28:18 1569

原创机器学习项目（五）电影推荐系统（一）

电影推荐系统1.推荐系统简介2.电影数据处理3.简单电影推荐4.基于内容电影推荐5.协同过滤6.总结一、推荐系统简介推荐系统的商业应用推荐系统能找到你喜欢的帮助你决策然后发现新的事物从商家的角度来说推荐系统可以提供个性化的服务提高用户的信任度对推出商品的粘性进而增加商家的营收推荐系统就是联系用户和信息之间的关系一方面帮助用户发现对自己有价值的信息另一方面可以让...

2020-04-20 19:19:28 5864

原创 LeetCode72. 编辑距离

72. 编辑距离原题链接给你两个单词 word1 和 word2，请你计算出将 word1 转换成 word2 所使用的最少操作数。你可以对一个单词进行如下三种操作：插入一个字符删除一个字符替换一个字符示例 1：输入：word1 = “horse”, word2 = “ros”输出：3解释：horse -> rorse (将 ‘h’ 替换为 ‘r’)rorse -&...

2020-04-17 19:32:31 114

原创 LeetCode4. 寻找两个有序数组的中位数

4. 寻找两个有序数组的中位数原题链接给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数，并且要求算法的时间复杂度为 O(log(m + n))。你可以假设 nums1 和 nums2 不会同时为空。示例 1:nums1 = [1, 3]nums2 = [2]则中位数是 2.0示例 2:nums1 = [1, 2]nums2 =...

2020-04-16 20:26:06 104

原创网易2020校招笔试- 算法平台工程师（正式批）——练习

原题链接1以下哪个可能会产生编译错误？#include<iostream>class Foo{public: Foo(int v) :m_value(v) { } //1 void print() { std::cout << m_value; } ~Foo() {} private: F...

2020-04-09 11:16:42 1110 1

原创 LeetCode540. 有序数组中的单一元素

540. 有序数组中的单一元素给定一个只包含整数的有序数组，每个元素都会出现两次，唯有一个数只会出现一次，找出这个数。示例 1:输入: [1,1,2,3,3,4,4,8,8]输出: 2示例 2:输入: [3,3,7,7,10,11,11]输出: 10class Solution: def singleNonDuplicate(self,nums): for ...

2020-04-07 13:40:42 161

原创 LeetCode826.安排工作以达到最大收益

826. 安排工作以达到最大收益原题链接有一些工作：difficulty[i] 表示第i个工作的难度，profit[i]表示第i个工作的收益。现在我们有一些工人。worker[i]是第i个工人的能力，即该工人只能完成难度小于等于worker[i]的工作。每一个工人都最多只能安排一个工作，但是一个工作可以完成多次。举个例子，如果3个工人都尝试完成一份报酬为1的同样工作，那么总收益为 $3。...

2020-04-05 14:24:25 167

原创机器学习项目（二）人工智能辅助信息抽取（十一）

信息抽取深度学习综述SurveyA Survey on Deep Learning for Name Entity RecognitionFlair EmbeddingContextual String Embeddings for Sequence Labeling基于字符的language modelIDCNN-CRF膨胀卷积Fast and Accurate Entity...

2020-04-04 15:37:19 947

原创机器学习项目（二）人工智能辅助信息抽取（十）

预训练模型1.图像领域预训练模型ImageNet2009年由李飞飞团队邓家等人提出，并迅速发展成为CV领域最知名的比赛ILSVRC，从2010年举办第一届，到2017年李飞飞宣布最后一届，前后总共举办8年，这八年间先后在这个比赛中涌现了一大批推动AI领域尤其是CV领域发展的算法和模型ILSVRC2012年Hinton团队提出了AlexNet,超过当时第二名效果41%，一下子引爆了AI领域...

2020-04-03 18:15:05 511

原创 LeetCode86. 分隔链表

86. 分隔链表原题链接给定一个链表和一个特定值 x，对链表进行分隔，使得所有小于 x 的节点都在大于或等于 x 的节点之前。你应当保留两个分区中每个节点的初始相对位置。示例:输入: head = 1->4->3->2->5->2, x = 3输出: 1->2->2->4->3->5class Solution: d...

2020-04-02 15:03:50 124

原创 LeetCode3. 无重复字符的最长子串

3. 无重复字符的最长子串原题链接给定一个字符串，请你找出其中不含有重复字符的最长子串的长度。示例 1:输入: “abcabcbb”输出: 3解释: 因为无重复字符的最长子串是 “abc”，所以其长度为 3。示例 2:输入: “bbbbb”输出: 1解释: 因为无重复字符的最长子串是 “b”，所以其长度为 1。示例 3:输入: “pwwkew”输出: 3解释: 因为...

2020-04-01 16:26:58 62

原创 LeetCode45. 跳跃游戏 II

45. 跳跃游戏 II给定一个非负整数数组，你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。你的目标是使用最少的跳跃次数到达数组的最后一个位置。示例:输入: [2,3,1,1,4]输出: 2解释: 跳到最后一个位置的最小跳跃数是 2。从下标为 0 跳到下标为 1 的位置，跳 1 步，然后跳 3 步到达数组的最后一个位置。说明:假设你总是可以到达数组...

2020-03-31 13:03:48 126

原创 LeetCode23. 合并K个排序链表

23. 合并K个排序链表合并 k 个排序链表，返回合并后的排序链表。请分析和描述算法的复杂度。示例:输入:[1->4->5,1->3->4,2->6]输出: 1->1->2->3->4->4->5->6原题链接# 23. 合并K个排序链表class ListNode: def __init__(...

2020-03-30 19:39:04 109

原创 LeetCode54. 螺旋矩阵

54. 螺旋矩阵给定一个包含 m x n 个元素的矩阵（m 行, n 列），请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例 1:输入:[[ 1, 2, 3 ],[ 4, 5, 6 ],[ 7, 8, 9 ]]输出: [1,2,3,6,9,8,7,4,5]示例 2:输入:[[1, 2, 3, 4],[5, 6, 7, 8],[9,10,11,12]]输出: [1,...

2020-03-29 20:46:38 76

原创 LeetCode763. 划分字母区间

763. 划分字母区间字符串 S 由小写字母组成。我们要把这个字符串划分为尽可能多的片段，同一个字母只会出现在其中的一个片段。返回一个表示每个字符串片段的长度的列表。示例 1:输入: S = “ababcbacadefegdehijhklij”输出: [9,7,8]解释:划分结果为 “ababcbaca”, “defegde”, “hijhklij”。每个字母最多出现在一个片段中。...

2020-03-29 18:27:37 164

原创 PyTorch学习笔记（33）RNN

RNNRNN 循环神经网络-处理不定长输入的模型-常用于NLP及时间序列任务(输入数据具有前后关系)RNN网络结构xt:时刻t的输入,shape = (1,57)st:时刻t的状态值,shape = (1,128)ot:时刻t的输出值,shape = (1,57)U:linear层的权重参数,shape = (128,57)W:linear层的权重参数,shape = (128...

2020-03-28 22:38:40 161

原创 LeetCode269. 火星词典

269. 火星词典原题链接现有一种使用字母的全新语言，这门语言的字母顺序与英语顺序不同。假设，您并不知道其中字母之间的先后顺序。但是，会收到词典中获得一个不为空的单词列表。因为是从词典中获得的，所以该单词列表内的单词已经按这门新语言的字母顺序进行了排序。您需要根据这个输入的列表，还原出此语言中已知的字母顺序。示例 1：输入:[“wrt”,“wrf”,“er”,“ett”...

2020-03-28 18:39:22 615

原创机器学习项目（四）疫情期间网民情绪识别（二）

文本情感分类问题机器学习方法 TFIDF+机器学习分类算法深度学习方法 TextCNN TextRNN 预训练的模型预训练的模型有哪些？bert输入有三个序列 Token(字符的序列把文本转化成字符的编码进行输入)Segment(段序列用于区分是句子A 还是句子B (如果是A就设为0 B就设为1) 用于文本分类可以全部设成0)Position(位置向量由于tr...

2020-03-27 22:28:27 5582 21

原创机器学习项目（四）疫情期间网民情绪识别（一）

疫情期间网民情绪识别赛题背景2019新型冠状病毒（2019-nCoV）感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响，并引发国内舆论的广泛关注，众多网民参与疫情相关话题的讨论。为了帮助政府掌握真实社会舆论情况，科学高效地做好防控宣传和舆情引导工作，本赛题针对疫情相关话题开展网民情绪识别的任务。数据介绍训练集 10万条无标记样本90万条测试集1万条数据集依据与“新冠肺炎”相关...

2020-03-27 19:09:11 8486 25

原创 LeetCode121. 买卖股票的最佳时机

买卖股票的最佳时机给定一个数组，它的第 i 个元素是一支给定股票第 i 天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票一次），设计一个算法来计算你所能获取的最大利润。注意：你不能在买入股票前卖出股票。示例 1:输入: [7,1,5,3,6,4]输出: 5解释: 在第 2 天（股票价格 = 1）的时候买入，在第 5 天（股票价格 = 6）的时候卖出，最大利润 = 6-1 ...

2020-03-27 17:00:26 71

原创 LeetCode88. 合并两个有序数组

LeetCode88. 合并两个有序数组给你两个有序整数数组 nums1 和 nums2，请你将 nums2 合并到 nums1 中，使 num1 成为一个有序数组。说明:初始化 nums1 和 nums2 的元素数量分别为 m 和 n 。你可以假设 nums1 有足够的空间（空间大小大于或等于 m + n）来保存 nums2 中的元素。示例:输入:nums1 = [1,2,3,0,...

2020-03-26 20:18:28 67

原创 LeetCode.1116打印零与奇偶数

原题：https://leetcode-cn.com/problems/print-zero-even-odd/假设有这么一个类：class ZeroEvenOdd {public ZeroEvenOdd(int n) { … } // 构造函数public void zero(printNumber) { … } // 仅打印出 0public void even(prin...

2020-03-26 17:38:03 235

原创算法强化 —— 反向传播

反向传播使用反向传播是为了防止路径的重复计算。为了方便，我们将之前的一个前向传播的过程复制过来：Z1=W1X+b1Z_1 = W_1X+b_1Z1=W1X+b1H1=RELU(Z1)H_1 = RELU(Z_1)H1=RELU(Z1)Z2=W2H1+b2Z_2 = W_2H_1 + b_2Z2=W2H1+b2H2=RELU(Z2)H_2 = RELU(Z_2)H2=...

2020-03-26 00:07:40 195

原创算法强化 —— 前向神经网络

网络图和激活函数import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import make_circles准备数据def load_data(): # 训练样本有300个测试样本有100个 train_X,train_Y = make_circles(n_samples=300...

2020-03-25 16:06:06 169

原创算法强化 —— XGBoost(三)

缺失值处理真实场景中，有很多可能导致产生稀疏。如：数据缺失、某个特征上出现很多0项、人工进行one-hot编码导致大量的0理论上，数据缺失和数值0的含义是不同的，数值0是有效的实际上，数值0的处理方式类似缺失值的处理方式，都视为稀疏特征在xgboost中，数值0的处理方式和缺失值的处理方式是同一的。这只是一个计算上的优化，用于加速稀疏特征的处理速度对于稀疏特征，只需要对有效值进行处理，无...

2020-03-25 10:19:36 217

原创算法强化 —— XGBoost(二)

分裂点贪心算法对现有的叶节点加入一个分裂，然后考虑分裂之后目标函数降低多少，如果目标函数下降，则说明可以分裂，如果目标函数不下降，则说明该叶节点不宜分裂对于一个叶节点，加入给定其分裂点，定义划分到左子节点的样本的集合为mathbbIL={i∣q(x→i)=L}\\mathbb{I}_{L}=\left\{i | q\left(\overrightarrow{\mathbf{x}}_{i}\ri...

2020-03-24 21:43:02 104

原创算法强化 —— XGBoost

XGBoostxgboost也是使用提升树相同的前向分步算法。其区别在于：xgboost通过结构风险极小化来确定下一个决策参数Θm{\Theta}_{m}ΘmΘ^m=arg⁡min⁡Θm∑i=1NL(y~i,fm(x→i))+Ω(hm(x→))\hat{\Theta}_{m}=\arg \min _{\Theta_{m}} \sum_{i=1}^{N} L\left(\tilde{y}_{i...

2020-03-24 15:26:41 146

原创算法强化 —— 提升树算法(四)

多分类问题对于多分类问题，与二分类问题类似，仅在损失函数部分有所区别，对于多分类问题，原论文中选择的是交叉熵损失函数L({yk,Fk(x)}1K)=−∑k=1Kyklog⁡pk(x)L\left(\left\{y_{k}, F_{k}(x)\right\}_{1}^{K}\right)=-\sum_{k=1}^{K} y_{k} \log p_{k}(x)L({yk,Fk(x)}1K)=...

2020-03-24 10:57:57 113

原创算法强化 —— 提升树算法(三)

二分类问题对于二分类问题，原论文中使用的对数损失函数：L(y,F)=log(1+exp(−2yF)),y∈−1,1L(y,F) = log(1+exp(-2yF)),y \in -1,1L(y,F)=log(1+exp(−2yF)),y∈−1,1其中F(x)=12log[Pr(y=1∣x)Pr(y=−1∣x)]F(x) = \frac{1}{2}log \left[\frac{Pr(y=1...

2020-03-23 22:58:56 143

原创算法强化 —— 提升树算法(二)

梯度提升树梯度提升树，是利用损失函数的负梯度在当前模型的值作为残差的一个近似值，进行拟合回归树，这样只要可以求梯度的函数，我们都可以进行求解。为了简便去掉求和符号和下标，改用向量化表示，则损失函数为：loss=L(y,fm(x))=L(y−fm−1(x)−hm(x;am))\text {loss}=L\left(y_, f_{m}\left(x\right)\right)=L \left(y...

2020-03-23 16:59:03 167

空空如也

空空如也