自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

u010955999的博客

原创一文读懂数据仓库

数据仓库数据仓库（Data Warehouse DW）是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的大型数据库，它的数据基于事务型的关系数据库。数据仓库中的数据是相对稳定的、集成的、面向主题的、反映历史变化的，以分析需求为目的数据集合。数据集市数据集市是数据仓库的一个逻辑子集。(1) 特定用户群体所需的信息，通常是一个部门或者一个特定组织的用户。(2) 访问相对稳定的业务信息。（以预定的时间间隔进行更新，不受数据库系统中的更新的影响。）(3)来自于组织里.

2021-10-14 09:27:15 250

转载 2021-02-22

基于Bert-NER构建特定领域中文信息抽取框架导语：知识图谱（Knowledge Graph）主要由实体、关系和属性构成，而信息抽取（Information Extraction）作为构建知识图谱最重要的一个环节，目的就是从文本当中抽取出三元组信息，包括“实体-关系-实体”以及“实体-属性-实体”两类。然后将抽取后的多个三元组信息储存到关系型数据库（neo4j）中，便可得到一个简单的知识图谱。本文通过多个实验的对比发现，结合Bert-NER和特定的分词、词性标注等中文语言处理方式，获得更高的准确率和更

2021-02-22 17:18:28 741

转载 2021-02-22

自然语言处理技术之知识图谱进阶自然语言处理技术知识图谱技术是人工智能技术的重要组成部分，其建立的具有语义处理能力与开放互联网能力的知识库，可在智能搜索，智能问答，个体化推荐等职能信息服务中产生应用价值。前文干货|自然语言处理技术之知识图谱简介中小修以互联网金融为例子介绍了一些应用场景，该文近一步阐述知识图谱定义，架构的基础上，综述知识图谱中的知识抽取，知识表示，知识融合，知识推理四大核心技术的研究进展以及一些典型应用。1知识图谱的定义知识图谱，是结构化的语义知识库，用于以符号形式描.

2021-02-22 17:12:37 672

转载 kubeadm 快速安装K8S 1.14.2

前言Kubernetes作为容器编排工具，简化容器管理，提升工作效率而颇受青睐。很多新手部署Kubernetes由于“科学上网”问题举步维艰，本文以实战经验详解kubeadm不用“科学上网”部署Kubernetes的最简方法。一、Kubernetes简介Kubernetes（简称K8S）是开源的容器集群管理系统，可以实现容器集群的自动化部署、自动扩缩容、维护等功能。它既是一款容器编排工...

2019-08-06 14:29:02 515

转载机器学习入门大全

最近有不少童鞋给李杰克留言，说自己对机器学习很感兴趣却无从下手，想知道我的学习路径，也希望我可以分享一些适合入门的学习资源给到大家。在踩过坑、撞过墙、走过弯路之后，我这个本科学渣、非计算机专业、不懂编程的前互联网产品经理，也积累了些干货可以跟大家share，而且因为有段时间没更新了，李杰克决定好好补偿一下大家，所以把能够写七八篇专题的干货都融入到了这篇文章，总计1万+字……但是，各位童鞋，...

2019-08-06 08:35:14 527

转载 Scrum敏捷开发

什么是Scrum敏捷开发Scrum是敏捷开发的一种，是一种以人为本，迭代式增量软件开发的过程，以英式橄榄球争球队形（Scrum）为名，因此可以想象，整个团队是高效而富有激情的。以人为本，即Scrum开发特别强调沟通，要求团队所有人员都坐着一起工作，通过高效的沟通解决问题。为什么要敏捷开发传统的软件公司大都是使用瀑布开发模式，流程是以下这样的：瀑布开发模式瀑布开发模式一般都需...

2019-04-12 16:38:50 418

转载 UCSC Genome Browser Docker Image

UCSC Genome Browser Docker ImageA minimal UCSC Genome Browser mirror.http://genome.ucsc.edu/LicenseThis is a Dockerized version of the UCSC Genome Browser source code. The license is the same ...

2019-01-21 17:14:56 469 2

转载 Kafka connect 构建ETL方案

一.背景介绍Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能.大家都知道现在数据的ETL过程经常会选择kafka作为消息中间件应用在离线和实时的使用场景中,而kafka的数据上游和下游一直没有一个无缝衔接的pipeline来实现统一,比如会选择flume或者logs...

2019-01-21 09:10:54 1965

转载 pyspark链接mongodb数据操作

如何导入数据数据可能有各种格式，虽然常见的是HDFS，但是因为在Python爬虫中数据库用的比较多的是MongoDB，所以这里会重点说说如何用spark导入MongoDB中的数据。当然，首先你需要在自己电脑上安装spark环境，简单说下，在这里下载spark，同时需要配置好JAVA，Scala环境。这里建议使用Jupyter notebook，会比较方便，在环境变量中这样设置PY...

2018-12-25 13:14:28 4186 3

转载 BLAST教程

Basic local alignment search tool (BLAST)包括：blastn, blastp, blastx, tblastn, tblastx等. 使用conda安装即可。conda install -c bioconda blast# blast安装perl模块的方法conda isntall perl-digest-md5BLAST的主要理念S...

2018-11-22 09:31:17 2092

转载关于Palantir——第二部分：本体（Ontology）

第二部分：本体（Ontology）牛津英语字典（OED）关于本体（ontology）的定义是“ the branch of metaphysics dealing with the nature of being ” （处理存在本质的形而上学的分支）。因此，本体论学者将会对实体的存在以及这些实体如何分组的问题进行探讨；他可能会通过层次结构、相似或不同来进行划分。近年来，人工智能研究和从业人员已...

2018-11-22 09:19:43 1183

转载关于Palantir——第一部分

第一部分JRR Tolkien在写“指环王”的时候，写到了Palantirs（水晶球）：这是能洞察一切的石头，可以让石头拥有者与另一遥远的石头拥有者进行沟通; 一些能量特别强大的人甚至能够通过“水晶球”来洞察世界上任何地方。在过去两年中，我一直在使用Palantir Gotham软件产品，我想是时候在这里写一些关于它的东西了。关于Palantir公司，《商业周刊》、《身份》、《连线》等已经...

2018-11-22 09:18:13 1365

转载事件抽取

事件抽取综述一.基本概念1.1 事件 1.定义作为信息的一种表现形式，其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。一般是句子级的。在TDT ( Topic Detection Tracking) 中，事件是指关于某一主题的一组相关描述，这个主题可以是由分类或聚类形成的。 2.组成元素组成事件的各元素包括: 触发词、事件类型、论元及论元角色。...

2018-11-09 16:29:23 6230

转载 NLP文本相似度(TF-IDF)

我们在比较事物时，往往会用到“不同”，“一样”，“相似”等词语，这些词语背后都涉及到一个动作——双方的比较。只有通过比较才能得出结论，究竟是相同还是不同。但是万物真的有这么极端的区分吗？在我看来不是的，生活中通过“相似度”这词来描述可能会更加准确。比如男人和女人，虽然生理器官和可能思想有些不同，但也有相同的地方，那就是都是人，就是说相似度不为0；比如石头与小草，它们对于虚拟类都是一种实体类，相似...

2018-09-28 14:04:46 2480

转载哈工大赛尔 | 事理图谱：事件演化的规律和模式

引言事件是人类社会的核心概念之一，人们的社会活动往往是事件驱动的。事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识。然而，当前无论是知识图谱还是语义网络等知识库的研究对象都不是事件。为了揭示事件的演化规律和发展逻辑，本文提出了事理图谱的概念，作为对人类行为活动的直接刻画。在图结构上，与马尔科夫逻辑网络（无向图）、贝叶斯网络（有向无环图）不同，事理图谱是一个有向有环图。现实世界中事...

2018-09-27 09:43:29 2649

转载知识抽取-实体及关系抽取(一)

知识抽取涉及的“知识”通常是清楚的、事实性的信息，这些信息来自不同的来源和结构，而对不同数据源进行的知识抽取的方法各有不同，从结构化数据中获取知识用 D2R，其难点在于复杂表数据的处理，包括嵌套表、多列、外键关联等，从链接数据中获取知识用图映射，难点在于数据对齐，从半结构化数据中获取知识用包装器，难点在于 wrapper 的自动生成、更新和维护，这一篇主要讲从文本中获取知识，也就是我们广义上说的...

2018-09-27 09:28:34 37131 3

转载微服务实战（一）：微服务架构的优势与不足

这篇文章作者是Chris Richardson，他是早期基于Java的Amazonite EC2 PaaS平台CloudFoundry.com的创始人。现在他为企业提供如何开发和部署应用的咨询服务。他也经常在http://microservices.io上发表有关微服务的文章。　　微服务正在博客、社交媒体讨论组和会议演讲中获得越来越多的关注，在Gartner的2014 Hype Cycle上它...

2018-09-06 15:03:39 249

转载 ETL概念

ETL概念 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计E...

2018-09-05 17:13:42 700 1

原创颜色代码值

1.色值代码红色 #FF0000 橙色 #FF7F00黄色 #FFFF00 绿色 #00FF00 青色 #00FFFF 蓝色 #0000FF紫色 #8B00FF2.RGB色值赤 255,0,0橙 255,128,0黄 255,255,0绿 0,255,0青 0,255,255蓝 0,0,255紫 128,0,2553.CMYK色值赤 C0 M100 Y100 K0橙C10 M6...

2018-08-30 10:02:57 24739

转载一个故事看懂“区块链”

一个故事看懂“区块链”区块链是比特币的底层技术和基础架构，本质上是一个去中心化的数据库。区块链是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一次比特币网络交易的信息，用于验证其信息的有效性（防伪）并生成下一个区块。狭义来讲，区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构，并以密码学方式保证的不可篡改和不可伪造的分布式账本。　　以上定义摘自百...

2018-08-23 09:48:27 277

转载微信小程序

目录一.微信小程序申请二.服务器设置（申请、部署、域名） 1.申请服务器2.部署服务器3.域名申请和配置三.小程序发布1.下载DEMO2.下载开发工具并安装3.配置参数4.发布四.小程序体验1.微信（版本：6.5.3及以上支持小程序）-发现-小程序下载 2.DEMO下载微信小程序实例汇总完整项目源代码下载...

2018-08-21 09:48:28 199

转载中文分词工具大全调研

一．中文分词分词服务接口列表二．准确率评测：THULAC：与代表性分词软件的性能对比我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境，根据第二届国际汉语分词测评（The SecondInternational Chinese Word Segm...

2018-08-15 16:50:13 1810 1

转载 Spark计算模型

Part 11. Spark计算模型1.1 Spark程序模型首先通过一个简单的实例了解Spark的程序模型。1）SparkContext中的textFile函数从HDFS读取日志文件，输出变量file。valfile=sc.textFile("hdfs://xxx")2）RDD中的filter函数过滤带“ERROR”的行，输出errors（errors也是一个RDD）。...

2018-08-15 10:59:45 6004 1

转载 pyltp Demo

#coding: utf-8import osfrom pyltp import SentenceSplitterfrom pyltp import Segmentorfrom pyltp import Postaggerfrom pyltp import NamedEntityRecognizerfrom pyltp import Parserfrom pyltp import ...

2018-08-14 16:12:00 399

转载一、知识图谱商业应用

一、知识图谱商业应用01 唯品金融大数据使用的是OrientDB，Orientdb提供了大量的接口，其中最常用的就是Gremlin和sql。Gremlin是Apache TinkerPop 框架下的图遍历语言。Gremlin是一种函数式数据流语言，可以使得用户使用简洁的方式表述复杂的图的遍历或查询，大部分图数据库都支持Gremlin。示例图总共拥有12个节点（Vertex） 11条边...

2018-08-14 09:46:24 6168

转载图形数据库Neo4J简介

图形数据库Neo4J简介　　最近我在用图形数据库来完成对一个初创项目的支持。在使用过程中觉得这种图形数据库实际上挺有意思的。因此在这里给大家做一个简单的介绍。NoSQL数据库相信大家都听说过。它们常常可以用来处理传统的关系型数据库所难以解决的一系列问题。通常情况下，这些NoSQL数据库分为Graph，Document，Column Family以及Key-Value Store等四种。这四...

2018-08-14 09:09:07 360

转载比较有用的IT工具集

技术站点Hacker News：非常棒的针对编程的链接聚合网站 Programming reddit：同上 MSDN：微软相关的官方技术集中地，主要是文档类 infoq：企业级应用，关注软件开发领域 OSChina：开源技术社区，开源方面做的不错哦 cnblogs，51cto，csdn：常见的技术社区，各有专长 stackoverflow：IT技术问答网站 GitHub：全球最大...

2018-08-13 10:03:43 1653

转载 centos7下安装python3、单机spark、jupyter

centos安装使用的是CentOS-7-x86_64-DVD-1708.iso root登录ssh 设置开机自动联网配置linux环境更改openjdk为java jdk 卸载openjdk 安装java jdk 安装python 配置python环境变量安装Jupyter 安装单机spark 将pyspark与jupyter连接使用jupyter...

2018-08-10 15:05:19 728

转载 Python Jupyter Notebook 中的错误异常与代码调试

Python Jupyter Notebook 中的错误异常与代码调试首先我们定义两个函数，以便够造成一些错误和异常，方便来进行对于 Jupyter Notebook 的错误异常相关知识的学习：In [1]:def func1(a, b): return a / bdef func2(x): a = x b = x - 1 return fu...

2018-08-10 15:00:19 1539

转载前端框架

前端Js框架汇总概述：　　有些日子没有正襟危坐写博客了，互联网飞速发展的时代，技术更新迭代的速度也在加快。看着Java、Js、Swift在各领域心花路放，也是煞是羡慕。寻了寻.net的消息，也是振奋人心，.net core 1，mono，xamarin等等，但大多都还在狂吼的阶段。其实一直以来对技术的理解是技术服务于业务和产品，产品又在不同程度的推进着技术的演进。　　Web、无线...

2018-08-03 15:09:49 207

原创 centos7下git服务器搭建

git的安装：yum 源仓库里的 Git 版本更新不及时，最新版本的 Git 是 1.8.3.1，但是官方最新版本已经到了 2.9.2。想要安装最新版本的的 Git，只能下载源码进行安装。1. 查看 yum 源仓库的 Git 信息： 1 # yum info git 可以看出，截至目前，yum 源仓库中最新的 Git 版本才 1.8.3....

2018-07-27 09:58:07 214

原创在CentOS 7中搭建Git服务器

在CentOS 7中搭建Git服务器2017年12月12日 12:34:43环境说明 - CentOS 7.x 最小安装 - 配置网络连接1. 安装Git及创建用户# 安装Git$ yum install git# 创建一个git用户组和用户，用来运行git服务$ groupadd git$ adduser git -g git禁止git用户登录:修改/e...

2018-07-26 15:28:59 190

转载 python分布式架构celery

Celery 官网：http://www.celeryproject.org/Celery 官方文档英文版：http://docs.celeryproject.org/en/latest/index.htmlCelery 官方文档中文版：http://docs.jinkan.org/docs/celery/celery配置：http://docs.jinkan.org/docs/cel...

2018-07-24 16:04:48 901

转载 Jenkins+Docker+gitlab自动化集成环境

最近使用docker+jenkins+gitlab搭建了持续集成环境，原理如下图所示（没有画图，引用了http://www.jianshu.com/p/358bfb64e3a6的图）：随着DevOps理念和敏捷理念的发展，我们希望通过自动化技术，加快项目的迭代。尤其是当使用微服务方案后，面临在大量的项目构建和部署工作，借助于jenkins的持续集成，可以快速把应用打包成docker镜像，实现自...

2018-07-24 15:50:44 7339 1

原创 kubernetes DNS配置

DNS (domain name system),提供域名解析服务，解决了难于记忆的IP地址问题，以更人性可读可记忆可标识的方式映射对应IP地址。Cluster DNS扩展插件用于支持k8s集群系统中各服务之间发现与调用。　　组件：　　•SkyDNS 提供DNS解析服务　　•Etcd 存储DNS信息　　•Kube2sky 监听kubernetes，当有Service创建时，生成相...

2018-07-24 10:48:59 891

转载 pyspark系列--日期函数

日期函数 1. 获取当前日期 2. 获取当前日期和时间 3. 日期格式转换 4. 字符转日期 5. 获取日期中的年月日 6. 获取时分秒 7. 获取日期对应的季度 8. 日期加减 9. 月份加减 10. 日期差,月份差 11. 计算下一个日子的日期 12. 本月的最后一个日期1. 获取当前日期from pyspark.sql.functions import...

2018-07-19 11:46:35 7286

转载 pyspark系列--字符串函数

字符串函数1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数1. 字符串拼接from pyspark.sql.functions import concat, concat_wsdf = spark.createDataFrame([('abcd','123')], ['s', ...

2018-07-19 11:45:21 6536

转载 spark 函数（python）

RDD的概念 RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。　　...

2018-07-19 10:27:54 595

原创爬虫iframe blocked解决

pyspider爬虫遇到iframe blocked的时候;需要绕过iframe跨域问题，直接爬取iframe框架url：上边为iframe框架封的数据，我们找到iframe框架内的url，直接爬取该url数据：爬取该url数据：解决iframe的问题，不介意直接攻克，正面刚很复杂，跳过iframe去解决问题...

2018-07-06 14:35:18 3798 2

原创带cookie验证解决方法

示例：不带cookie：带cookie结果;分析cookie：示例无论是什么设备，第一次访问该站，都会弹出一个521的错误状态码，与此同时还会返回一个Cookie。浏览器接受到状态码与Cookie，会再次进行一次请求，因为接收到了Set-Cookie，所以第二次的Request Headers会附上之前接收到cookie这样的请求才是成功的。这个防爬虫的方法非常基础，利用了普通爬虫与浏览器对于St...

2018-07-06 14:18:03 3090

spark快速大数据分析

spark入门学习资料，经典文献。Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法

2018-07-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

打个大西瓜77 CSDN认证博客专家 CSDN认证企业博客

码龄11年

IP 属地：四川省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

16: 原创

14万+: 周排名

83万+: 总排名

22万+: 访问

: 等级

1957: 积分

59: 粉丝

36: 获赞

39: 评论

254: 收藏

私信

关注

热门文章

分类专栏

大数据 1篇
运维 14篇
爬虫 3篇
cookie 1篇
iframe blocked 1篇
spark 4篇
q 1篇
a 1篇
web
前端 2篇
科普 3篇
图形数据库Neo4J简介 1篇
图数据库 2篇
中文分词 1篇
文本预处理 2篇
命名实体识别 1篇
c 1篇
g' 1篇
ETL 1篇
微服务 1篇
TF-IDF 1篇
事件抽取 1篇
palantir 2篇
scrum 1篇
AI 1篇

最新评论

中文分词工具大全调研
m0_74882637: 博主“在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score”这个脚本怎么用哇
UCSC Genome Browser Docker Image
??ah: 要怎么把数据传上去呢救命救命
UCSC Genome Browser Docker Image
??ah: 有更详细的配置教程吗
知识抽取-实体及关系抽取(一)
weixin_42001089: 一些简单的实体NER抽取方法：https://mp.weixin.qq.com/s/dLTR8EetnnPSFc3jwdQ7CA
kubernetes可视化搭建集群，web界面一键操作
静谧之心: 前排支持一下,可以的话来我博客看看吧

最新文章

提示

确定要删除当前文章？

取消删除