自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(82)
  • 收藏
  • 关注

原创 中文NER-基于网格LSTM的中文命名实体识别Chinese NER Using Lattice LSTM

基于网格LSTM的中文命名实体识别细节一:融合字符与词级别特征LatticeLSTM细节二:从LSTM到LatticeLSTMBasicLSTMLatticeLSTM字粒度输入词粒度输入字词融入实验本文idea提出原因中文命名实体识别的实体边界划分特别难。基于字符级别:无分词错误,缺少词的边界信息,利用不了已有词典基于词级别:有分词错误,因为只能有一种分词深度学习一定程度上解决了对词典的依赖如何利用现有词典,引入所有可能词的边界信息?研究成果:>动态引入所有可能的词信息>克服了基于词模型

2021-09-16 16:37:14 725

原创 斯坦福课程Knowledge Graphs-What is a Knowledge Graph?

斯坦福课程Knowledge Graphs-What is a Knowledge Graph?1. Introduction2. Knowledge Graph Definition3. Recent Applications of Knowledge Graphs3.1 Knowledge Graphs for organizing Knowledge over the Internet3.2 Knowledge Graphs for Data Integration in Enterprises4.

2021-09-02 10:07:28 1445

原创 多模态学习研究进展综述

一、引言模态是指人接受信息的特定方式。由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习已逐渐发展为多媒体内容分析与理解的主要手段,国内外研究者也逐步在多模态学习领域取得了显著的研究成果。鉴于多模态学习的重要性,本文将重点介绍近年来多模态学习领域的主要研究方向、相关研究进展和未来研究趋势。二、主要研究方向及研究进展多模态学习主要包括以下几个研究方向:多模态表示学习:主要研究如何将多个模态数据所蕴含的语义信息数值化为实值向量。模态

2021-09-02 09:26:18 2406

原创 基于深度学习的跨模态检索方法

基于深度学习的跨模态检索方法基本思想利用深度学习的特征抽取能力,在底层提取不同模态的有效表示,在高层建立不同模态的语义关联。两个阶段首先,对不同模态学习单独的表示,然后利用高层网络最大化不同模态表示的相关性。文献Ngia[17] 等提出了基于深度网络的跨模态学习方法。该模型考虑了多模态融合学习、跨模态学习和共享表示学习,通过视频、语音识别证实了方法的有效性。考虑到跨模态数据的关联重点在不同模态的语义相关性,Srivastava[18] 等提出了深度玻尔兹曼机。该方法先对不同模态分别学习底层表示

2021-08-31 19:04:43 1425

原创 解决样本不均衡问题

label_id_level_1 = int(example.label_level_1) label_id_level_2 = int(example.label_level_2) samp_weight = math.sqrt(1 /label2freq_level_2[label_list_level_2[label_id_level_2]]) sample_weights.append(samp_weight)Pytorch中使用weightedRandomSampler进行样本出现概率.

2021-08-31 18:37:44 269

原创 2021-07-09 python爬取百度百科属性框

python爬取百度百科属性框from bs4 import BeautifulSoupimport requestsimport csv #用到的写入csv文件的包#初始化一个存放待爬取关键词的列表keywordlist = []#打开文件with open('qita.txt','r',encoding = 'UTF-8') as f:#逐行读取要爬取的实体名 for keyword in f.readlines(): keyword = keyword.str

2021-08-31 10:58:54 132

原创 知识图谱的抽取与构建(二)

知识图谱的抽取与构建(二)知识抽取——概念抽取知识抽取——事件识别与抽取知识抽取——概念抽取知识抽取——事件识别与抽取

2021-08-31 10:56:34 452

原创 自然语言处理:基于预训练模型的方法(一)

自然语言处理:基于预训练模型的方法1.2 自然语言处理的难点1.3 自然语言处理任务体系1.2 自然语言处理的难点1.2.1 抽象性语言是由抽象符号构成的,每个符号背后都对应着现实世界或人们头脑中的复杂概念,如“车”表示各种交通工具——汽车、火车、自行车等,它们都具有共同的属性,有轮子、能载人或物等。1.2.2 组合性每种语言的基本符号单元都是有限的,如英文仅有26个字母,中国国家标准GB2312《信息交换用汉字编码字符集·基本集》共收录6,763个汉字,即便是常用的单词,英文和中文也不过

2021-08-16 16:53:39 948

原创 自然语言处理中的预训练模型

这里写目录标题预训练模型分类体系典型模型BertSpanBertStructBertXLNetT5GPT-3预训练模型的扩展Knowledge-Enriched PTMsMultilingual and Language-Specific PTMsCross-Lingual Language Understanding(XLU)Cross-Lingual Language Generation(XLG)Language-Specific PTMsVL-BertVideoBert模型压缩迁移到下游任务选择适当

2021-08-16 15:45:08 1167

原创 知识图谱的抽取与构建

知识图谱的抽取与构建知识抽取——实体识别与分类HMMEM维特比CRFBiLSTM+CRF知识抽取——关系抽取与属性补全知识抽取——实体识别与分类HMMEM维特比CRFBiLSTM+CRF实体识别仍面临着标签分布不平衡,实体嵌套等问题,制约了现实应用;Ø中文的实体识别面临一些特有的问题,例如:中文没有自然分词、用字变化多、简化表达现象严重等等;Ø实体识别是语义理解和构建知识图谱的重要一环,也是进一步抽取三元组和 关系分类的前提基础。知识抽取——关

2021-06-26 14:51:55 914 1

原创 知识图谱的存储与查询

知识图谱的存储与查询基于关系型数据库的知识图谱存储基于原生图数据库的知识图谱存储原生图数据库实现原理浅析基于关系型数据库的知识图谱存储基于原生图数据库的知识图谱存储原生图数据库实现原理浅析知识图谱存储方式的选择需要综合考虑性能、动态扩展、实施成本等多方面综合因素。Ø区分原生图存储和非原生图存储:原生图存储在复杂关联查询和图计算方 面有性能优势,非原生图存储兼容已有工具集通常学习和协调成本会低。Ø区分RDF图存储和属性图存储:RDF存储一般支持推理,属性图存

2021-06-25 17:55:30 933 1

原创 知识图谱的表示

知识图谱的表示一级目录二级目录三级目录一级目录二级目录三级目录

2021-06-25 14:14:18 1707 1

原创 知识图谱概论

知识图谱概论前言一、知识是什么?二、使用步骤1.引入库2.读入数据总结前言 一、知识是什么?二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')import sslssl._create_default_https

2021-06-24 23:25:42 120 2

原创 2021-06-10-推送系统流程

推送系统流程三、推送系统流程四、数据准备五、消息创建六、消息审核八、消息发送九、消息路由十、数据分析三、推送系统流程一般来说,消息推送有2种发送方式,一种方式为运营活动批量定时投放,需提供系统功能方便运营筛选用户,然后编辑文案,经审核通过后进行发送。另一种是需要实时触发的消息,比如支付成功通知、验证码获取、满足某种条件触发的营销活动等消息,这类时效性要求较高且每个用户发送的消息内容中涉及到差异化的参数,需要业务应用实时触发。触发的消息需经过一定的过滤与拦截规则,针对于短期内已经覆盖过用户进行过滤,

2021-06-10 17:47:33 646

原创 2021-06-10-APP PUSH推送机制

APP PUSH推送机制一、APP PUSH定义与价值二、APP推送分类三. PUSH流程四、底层通道说明五、下发推送六、数据上报七、PUSH特点八、触达率的提升一、APP PUSH定义与价值APP PUSH的定义为在手机终端锁屏状态下通知栏展示或在操作前台顶端弹出的消息通知,点击后可唤起对应的APP,并在APP内跳转到指定页面。push消息是通知用户,引导用户进行参与活动、购买产品的重要手段,而且PUSH消息也可以引导用户查看消息,唤起APP提高日活,是一块重要的流量。二、APP推送分类从应用的

2021-06-10 17:35:17 661 1

原创 2021-06-05 推荐系统技术演进趋势:召回->排序->重排

推荐系统技术演进趋势:召回->排序->重排 实际的工业推荐系统,如果粗分的化,经常讲的有两个阶段。首先是召回,主要根据用户部分特征,从海量的物品库里,快速找回一小部分用户潜在感兴趣的物品,然后交给排序环节,排序环节可以融入较多特征,使用复杂模型,来精准地做个性化推荐。召回强调快,排序强调准。当然,这是传统角度看推荐这个事情。但是,如果我们更细致地看实用的推荐系统,一般会有四个环节,如下图所示:四个环节分别是:召回、粗排、精排和重排。召回目的如上所述;有时候因为每个用户召回环节返回的物品

2021-06-05 23:48:53 422 1

原创 Design Google Drive

Design Google Drive1. Gathering System Requirements2. Coming Up With A Plan3. Storing Entity Info4. Storing File Data5. Entity Info Structure6. Garbage Collection7. End To End API Flow8. System DiagramDesign Google DriveMany systems design questions are

2021-03-10 05:42:35 282

原创 Design Facebook News Feed

Design Facebook News Feed1. Gathering System Requirements2. Coming Up With A Plan3. CreatePost API4. Post Storage5. GetNewsFeed API6. Feed Creation And Storage7. Wiring Updates Into Feed Creation8. Cross-Region Strategy9. System DiagramDesign Facebook New

2021-03-10 03:27:37 670

原创 system design- algo

system design- algoQuestion 1Question 2Question 3Question 4Question 5Question 61. Gathering System Requirements2. Coming Up With A Plan3. Static UI Content4. Main Clusters And Load Balancing5. Static API Content6. Caching7. Access Control8. User Data Stora

2021-03-10 01:59:26 202

原创 Tap-News project

Tap-News projectMajor User Cases:1. Front-end2. Create a new config_service to config all the modules and services.3. Apply machine learning to display personalized news list.4.Add a complete Logging, and use a suitable5. Continuous deployment pipeline and

2021-03-09 06:24:56 276

原创 A step by step guide

A step by step guideStep 1: Requirements clarificationsStep 2: Back-of-the-envelope estimationStep 3: System interface definitionStep 4: Defining data modelStep 5: High-level designStep 6: Detailed designStep 7: Identifying and resolving bottlenecksSummary

2021-03-09 06:07:28 356

原创 Glossary of System Design Basics

Glossary of System Design BasicsLoad BalancingBenefits of Load BalancingLoad Balancing AlgorithmsRedundant Load BalancersCachingApplication server cacheContent Delivery (or Distribution) Network (CDN)Cache InvalidationCache eviction policiesData Partitioni

2021-03-09 05:58:21 305

原创 System Design Basics

System Design BasicsKey Characteristics of Distributed SystemsScalabilityReliabilityAvailabilityEfficiencyServiceability or ManageabilitySystem Design BasicsWhenever we are designing a large system, we need to consider a few things:What are the differen

2021-03-09 04:51:08 170

原创 系统设计框架1-Design A Code-Deployment System

系统设计框架-Design A Code-Deployment SystemQuestionesQuestion 1Question 2Question 3Question 4Question 5Question 6Question 7Question 8SoulutionGathering System RequirementsComing Up With A PlanBuild System -- General OverviewBuild System -- Job QueueBuild System

2021-03-09 03:00:11 443

原创 系统设计(二)

系统设计(二)HashingRelational databasesKey-Value StoresSpecialized Storage ParadigmsReplication And ShardingLeader ElectionPeer-To-Peer NetworksPolling And StreamingConfigurationRate LimitingLogging And MonitoringPublish/Subscribe PatternMapReduceSecurity And H

2021-03-09 02:47:06 89

原创 OA

import itertoolsfrom collections import dequedef buildOffice(height, width, n): arr = [] for i in range(height): for j in range(width): arr.append((i,j,0)) ans = float("inf") for points in itertools.combinations(arr,n

2021-03-05 12:03:32 79

原创 nlp3

我们知道,Word2vec 本质上是一个语言模型,它的输出节点数是 V 个,对应了 V 个词语,也是一个多分类问题,但实际当中,词语的个数非常非常多,直接softmax来计算会给计算造成很大困难,所以需要用技巧来加速训练,下面就介绍word2vec对应的两个加速技巧hierarchical softmax和negative sampling。注意:这两个技巧只是加速训练的技巧Negative Sampling第二种加速策略是Negative Sampling(简写NEG,负采样),这是Noise-Con

2021-02-27 03:27:13 118

原创 Design a Library Management System

Use case diagramWe have three main actors in our system:Librarian: Mainly responsible for adding and modifying books, bookitems, and users. The Librarian can also issue, reserve, and returnbook items.Member: All members can search the catalog, as we

2021-02-24 06:46:29 857

原创 Learn Object-Oriented Programming in Python

Learn Object-Oriented Programming in Python Implementing Properties in a ClassAccessing Properties and Assigning ValuesInitializing ObjectsClass and Instance VariablesImplementing Methods in a Class#include<iostream>using namespace std;int add(in

2021-02-24 03:46:48 206

原创 project-python

Project Exercise with Python and MySQL:$ pip install mysql-connector-pythonimport mysql.connectorcon = mysql.connector.connect(user = "ardit700_student",password = "ardit700_student",host = "108.167.140.122",database = "ardit700_pm1database").

2021-02-24 01:44:08 141

原创 2021-01-26

deep learning noteslecture 1lecture 1Fitting (nonlinear regression). Map between a set of inputs and a corresponding set of targets. (e.g., estimate home prices from taxrate, estimate emission levels from fuel consumption and speed,predict bod

2021-02-24 01:43:20 91

原创 DeepFM处理特征交叉

DeepFM处理特征交叉在训练资源有限,调参时间有限的现实情况下,MLP 对于特征交叉的处理其实还比较低效。因为 MLP 是通过 concatenate 层把所有特征连接在一起成为一个特征向量的,这里面没有特征交叉,两两特征之间没有发生任何关系。这个时候,在我们有先验知识的情况下,人为地加入一些负责特征交叉的模型结构,其实对提升模型效果会非常有帮助...

2021-02-24 01:41:52 314

原创 实物类OOD

• Vending machine• Jukebox• CD Player• Coffee maker• KindleATMVending machine

2021-02-24 01:41:01 68

原创 预定类面向对象设计

预定类面向对象设计CORE OBJECTCASESUSE CASERestaurant reservation system•Searchcriteria-How to know if a table is open for reservation for a timeslot?如何知道对于一张Table:Cancel reservationHotel reservation systemmanagement RESTAURANTCORE OBJECTCASES•Restaurant-Find

2021-02-17 04:39:15 261

原创 python面向对象三大特征

面向对象三大特征python面向对象三大特征1.封装:根据职责将属性和方法封装到一个抽象的类中2.继承:实现代码的重用,相同的代码不需要重复的写3.多态:以封装和继承为前提,不同的子类对象调用相同的方法,产生不同的执行结果一、封装什么是封装:1.封装是面向对象编程的一大特点2.面向对象编程的第一步 将属性和方法封装到一个抽象的类中(为什么说是抽象的,因为类不能直接使用)3.外界使用类创建对象,然后让对象调用方法4.对象方法的细节都被封装在类的内部例:需求:小明爱跑步1.小明体重75.

2021-02-16 05:26:33 257 1

原创 面向对象三大特征

面向对象三大特征封装继承interface(里面是abstract function)多态exception枚举变量封装classobject class Animal{} Animal a = new Animal();将attribute,function加入classprivate/public/protected/defaultclass Employee{private String name;public void printName();public String

2021-02-16 05:23:44 127

原创 管理类面向对象设计

hivvtc

2021-02-16 02:13:40 117

原创 OOD-ELEVATOR CASE STUDY

OODSingle responsibility principle 单一责任原则Open close principle 开放封闭原则Liskov substitution principle 里氏替换原则Interface segregation principle 接口分离原则Dependency inversion principle 依赖反转原则ClarifyCore objectsCasesClassesCorrectness 说人话:检查自己的设计,是否满足关键点• S – Single r

2021-02-14 11:43:01 156

原创 map-reduce流程图

分布式处理之MapreduceMapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。但如果你要我再通俗点介绍,那么,说白了,Mapreduce的原理就是一个归并排序。适用范围:数据量大,但是数据种类小可以放入内存基本原理及要点:将数据交给不同的机器去处理,数据划分,结果归约。问题实例:The canonical example appli

2021-02-14 10:48:05 275

原创 系统设计

系统设计Client—Server ModelNetwork ProtocolsStorageClient—Server ModelA client is a thing that talks to servers. A server is a thing that talks to clients. The client—server model is a thing made up of a bunch of clients and servers talking to one another.

2021-02-14 05:08:49 1095 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除