7 打个大西瓜77

尚未进行身份认证

python大数据开发,致力于大数据知识图谱学习与研究

等级
TA的排名 7w+

kubeadm 快速安装K8S 1.14.2

前言Kubernetes作为容器编排工具,简化容器管理,提升工作效率而颇受青睐。很多新手部署Kubernetes由于“科学上网”问题举步维艰,本文以实战经验详解kubeadm不用“科学上网”部署Kubernetes的最简方法。一、Kubernetes简介Kubernetes(简称K8S)是开源的容器集群管理系统,可以实现容器集群的自动化部署、自动扩缩容、维护等功能。它既是一款容器编排工...

2019-08-06 14:29:02

机器学习入门大全

最近有不少童鞋给李杰克留言,说自己对机器学习很感兴趣却无从下手,想知道我的学习路径,也希望我可以分享一些适合入门的学习资源给到大家。在踩过坑、撞过墙、走过弯路之后,我这个本科学渣、非计算机专业、不懂编程的前互联网产品经理,也积累了些干货可以跟大家share,而且因为有段时间没更新了,李杰克决定好好补偿一下大家,所以把能够写七八篇专题的干货都融入到了这篇文章,总计1万+字……但是,各位童鞋,...

2019-08-06 08:35:14

Scrum敏捷开发

什么是Scrum敏捷开发Scrum是敏捷开发的一种,是一种以人为本,迭代式增量软件开发的过程,以英式橄榄球争球队形(Scrum)为名,因此可以想象,整个团队是高效而富有激情的。以人为本,即Scrum开发特别强调沟通,要求团队所有人员都坐着一起工作,通过高效的沟通解决问题。为什么要敏捷开发传统的软件公司大都是使用瀑布开发模式,流程是以下这样的:瀑布开发模式瀑布开发模式一般都需...

2019-04-12 16:38:50

UCSC Genome Browser Docker Image

UCSC Genome Browser Docker ImageA minimal UCSC Genome Browser mirror.http://genome.ucsc.edu/LicenseThis is a Dockerized version of the UCSC Genome Browser source code. The license is the same ...

2019-01-21 17:14:56

Kafka connect 构建ETL方案

一.背景介绍Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能.大家都知道现在数据的ETL过程经常会选择kafka作为消息中间件应用在离线和实时的使用场景中,而kafka的数据上游和下游一直没有一个无缝衔接的pipeline来实现统一,比如会选择flume或者logs...

2019-01-21 09:10:54

pyspark链接mongodb数据操作

如何导入数据数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中的数据。当然,首先你需要在自己电脑上安装spark环境,简单说下,在这里下载spark,同时需要配置好JAVA,Scala环境。这里建议使用Jupyter notebook,会比较方便,在环境变量中这样设置PY...

2018-12-25 13:14:28

BLAST教程

Basic local alignment search tool (BLAST)包括:blastn, blastp, blastx, tblastn, tblastx等. 使用conda安装即可。conda install -c bioconda blast# blast安装perl模块的方法conda isntall perl-digest-md5BLAST的主要理念S...

2018-11-22 09:31:17

关于Palantir——第二部分:本体(Ontology)

第二部分:本体(Ontology)牛津英语字典(OED)关于本体(ontology)的定义是“ the branch of metaphysics dealing with the nature of being ” (处理存在本质的形而上学的分支)。因此,本体论学者将会对实体的存在以及这些实体如何分组的问题进行探讨;他可能会通过层次结构、相似或不同来进行划分。近年来,人工智能研究和从业人员已...

2018-11-22 09:19:43

关于Palantir——第一部分

第一部分JRR Tolkien在写“指环王”的时候,写到了Palantirs(水晶球):这是能洞察一切的石头,可以让石头拥有者与另一遥远的石头拥有者进行沟通; 一些能量特别强大的人甚至能够通过“水晶球”来洞察世界上任何地方。在过去两年中,我一直在使用Palantir Gotham软件产品,我想是时候在这里写一些关于它的东西了。关于Palantir公司,《商业周刊》、《身份》、《连线》等已经...

2018-11-22 09:18:13

事件抽取

事件抽取综述一.基本概念1.1 事件  1.定义        作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。一般是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。 2.组成元素     组成事件的各元素包括: 触发词、事件类型、论元及论元角色。...

2018-11-09 16:29:23

NLP文本相似度(TF-IDF)

 我们在比较事物时,往往会用到“不同”,“一样”,“相似”等词语,这些词语背后都涉及到一个动作——双方的比较。只有通过比较才能得出结论,究竟是相同还是不同。但是万物真的有这么极端的区分吗?在我看来不是的,生活中通过“相似度”这词来描述可能会更加准确。比如男人和女人,虽然生理器官和可能思想有些不同,但也有相同的地方,那就是都是人,就是说相似度不为0;比如石头与小草,它们对于虚拟类都是一种实体类,相似...

2018-09-28 14:04:46

哈工大赛尔 | 事理图谱:事件演化的规律和模式

引言事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识。然而,当前无论是知识图谱还是语义网络等知识库的研究对象都不是事件。为了揭示事件的演化规律和发展逻辑,本文提出了事理图谱的概念,作为对人类行为活动的直接刻画。在图结构上,与马尔科夫逻辑网络(无向图)、贝叶斯网络(有向无环图)不同,事理图谱是一个有向有环图。现实世界中事...

2018-09-27 09:43:29

知识抽取-实体及关系抽取(一)

知识抽取涉及的“知识”通常是 清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等,从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于wrapper的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是我们广义上说的...

2018-09-27 09:28:34

微服务实战(一):微服务架构的优势与不足

这篇文章作者是Chris Richardson,他是早期基于Java的Amazonite EC2 PaaS平台CloudFoundry.com的创始人。现在他为企业提供如何开发和部署应用的咨询服务。他也经常在http://microservices.io上发表有关微服务的文章。  微服务正在博客、社交媒体讨论组和会议演讲中获得越来越多的关注,在Gartner的2014 Hype Cycle上它...

2018-09-06 15:03:39

ETL概念

ETL概念 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。         ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计E...

2018-09-05 17:13:42

颜色代码值

1.色值代码红色 #FF0000 橙色 #FF7F00黄色 #FFFF00 绿色 #00FF00 青色 #00FFFF 蓝色 #0000FF紫色 #8B00FF2.RGB色值赤 255,0,0橙 255,128,0黄 255,255,0绿 0,255,0青 0,255,255蓝 0,0,255紫 128,0,2553.CMYK色值赤 C0 M100 Y100 K0橙C10 M6...

2018-08-30 10:02:57

一个故事看懂“区块链”

一个故事看懂“区块链”区块链是比特币的底层技术和基础架构,本质上是一个去中心化的数据库。区块链是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一次比特币网络交易的信息,用于验证其信息的有效性(防伪)并生成下一个区块。狭义来讲,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本。  以上定义摘自百...

2018-08-23 09:48:27

微信小程序

 目录 一.微信小程序申请二.服务器设置(申请、部署、域名)  1.申请服务器2.部署服务器3.域名申请和配置三.小程序发布1.下载DEMO2.下载开发工具并安装3.配置参数4.发布四.小程序体验1.微信(版本:6.5.3及以上支持小程序)-发现-小程序   下载 2.DEMO下载    微信小程序 实例汇总 完整项目源代码下载...

2018-08-21 09:48:28

中文分词工具大全调研

一.中文分词分词服务接口列表 二.准确率评测:THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segm...

2018-08-15 16:50:13

Spark计算模型

Part 11. Spark计算模型1.1 Spark程序模型首先通过一个简单的实例了解Spark的程序模型。1)SparkContext中的textFile函数从HDFS读取日志文件,输出变量file。valfile=sc.textFile("hdfs://xxx")2)RDD中的filter函数过滤带“ERROR”的行,输出errors(errors也是一个RDD)。...

2018-08-15 10:59:45

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!