- 博客(11)
- 资源 (13)
- 收藏
- 关注
原创 知识图谱存储
一、表示与存储概述图论基础知识图谱的逻辑表示知识图谱的物理存储二、知识图谱基本操作三、知识图谱存储1.基于云平台的分布式存储基于Hadoop基于其它云平台具有成熟的任务处理模式、数据分布存储方式SHARD:以三元组为单位,存储在HDFS上S2DF:spark SQL的接口,将表间的连接接口序列化到关系数据库Trinity:并行计算系统,大批量计算,异步同步,支持事务2. 基于数据划分的分布式存储图划分的定义:(1)子图与子图的.
2020-10-28 16:04:20 1058
原创 知识图谱的一些文章
一、知识图谱的相关理论1.《肖仰华: 知识图谱下半场-机遇与挑战》:肖仰华教授1万2千字长文带您深度剖析知识图谱的发展进程,系统整理知识图谱上半场的主要成果,分析知识图谱下半场的挑战与机遇。主要讲了知识图谱的理论发展、当前成果、未来的挑战和机遇。https://mp.weixin.qq.com/s/xAvRl6FK9ZJjpuU_odBEPw2.《知识图谱:方法、实践与应用-王昊奋 & 漆桂林 & 等》这本书梳理了知识图谱中涉及的知识点,如知识工程、 自然语言处理、.
2020-07-12 10:07:02 262
原创 图数据库-neo4j使用记录
重点:官方文档很全面,基本的配置都可以查官方文档。neo4j文档《neo4j权威指南》这本书很不错。一、简介Neo4j分社区版(开源)和企业版,简单的最大的区别是社区版不支持分布式,企业版可以试用一个月,功能全很多,详情请看文档1.1 下载与安装neo4j下载地址windows 可以下载desktop,类似neo4j客户端,界面化操作。linux 下载安装包,解压后,配置万即可...
2019-12-24 19:14:31 561
原创 机器学习分类问题评价指标(一):auc/ks
前面分类问题一般围绕错误率展开,即错分样本占据的比例。而分类算法可以给出预测概率,那么通过设置不同的阈值,来获得更好的结果,此时混淆矩阵就是分类问题评价指标的基础。混淆矩阵假设二分类问题,P代表正类,N代表负类。正类负类正类TP(真正类)FP(假正类)负类FN(假负类)TN (真负类)TP:正类被预测为正类的数量FP:正类被预测为负类的数量TN...
2019-10-29 09:11:09 974
原创 一次用户贷款风险预测比赛记录
数据包括:申请人信息、申请件信息、历史信贷、社交圈四个表格。好久没做过这种表格类的比赛,pandas好多操作都忘了。时间是将近13天,这类比赛还是用到xgb,lgb,之类的树模型比较多,深度模型最近有人通过GraphEmbedding对用户进行编码,将得到的向量表示,入模或是直接预测。我还没试过。拿到数据以后首先看一下每一张表的数据量,表与表之间的关联关系(主键和外键),缺失值都还好,...
2019-10-27 20:52:27 689 1
原创 达观比赛-学习大佬方案
达观老大和算法负责人的分享分享的技术很贴近业务,感觉蛮实际,等待PPT。其实说到了这次比赛不算一个单纯的ner,因为同一类的实体,从数据类型上面来说并不是同一类。清华大学李涓子教授关于知识工程的演讲今天参加了线下达观比赛的会议,会议邀请了清华大学李涓子教授做演讲,具体关于知识表示,李老师先介绍了知识工程的定义、发展趋势、应用等等;举了一个很有趣的例子, 空调卖的好-(常识知识)>天...
2019-09-21 23:24:22 181
原创 Ensemble-boosting(三)
写在前面上面整理的前向分布算法、adaboost、提升树算法、GBDT&GBRT。这篇整理XGBoostXGBoost VS GBDT天奇大佬,分享了PPT和论文,超级棒。大佬从理论,尤其是工程方面实现了对GBDT的一次极大改进,不仅是预测精度而且训练速度加快很多。全称:Extreme Gradient boosting我以为: X Gradient boosting 类似于...
2019-09-12 08:27:07 172
原创 Ensemble-boosting(二)
写在前面上一篇讲的是前向分布算法和adaboost,其实前向分布算法是一种加法思想,基模型可以任意,通过加权求和多个基模型来得到更好的结果。提升树算法小知识点:下面三个说法实际上是同一个意思,Gradient tree boosting = Gradient boosting machine = Gradient boosting regression tree,来自陈天奇大佬的论文。《...
2019-09-06 22:23:01 192
原创 Ensemble-boosting(一)
本周想要整理的算法包括,前向分布算法、adaboost、提升树算法、GBDT/GBRT、Xgboost、lightgbm…写在前面写这篇笔记是因为组内分享的内容,分享的对象有很多是跨专业的同学,普遍反映理论推导枯燥而且似乎没有用处。在和小伙伴讨论之后,今天一直在思考理论学习的意义,抄袭一下陈天奇大佬的观点。首先,对理论的学习让我们在工作学习中知道自己在做什么;其次理论推导有利于工程实现。当然,...
2019-09-06 00:10:02 412
原创 2019 Datagrand ner 达观杯 整理
2019 datagrand 达观杯 整理(一)写在前面写在前面个人情况:对nlp领域仅限于听说过word2vec、n-gram等名词。对deep nn 仅限于三层神经网络的理论知识。比赛全称:“达观杯”文本智能信息抽取挑战赛地址:https://www.biendata.com/competition/datagrand/比赛基本情况:1、数据:其每一个字和标点符号映射一个唯一的索引...
2019-09-01 10:08:17 846
ArangoDB vs. OrientDB Comparison.pdf
2019-11-16
ArangoDB vs. JanusGraph vs. Neo4j vs. OrientDB vs. TigerGraph Comparison.pdf
2019-11-12
如何计算神经网络的梯度.pdf
2019-11-12
deep learning 深度学习
2017-09-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人