10 zhao_rock_2016

尚未进行身份认证

暂无相关描述

等级
TA的排名 10w+

SQLServer数据库文件mdf和ldf的导入及导出

通常导出SQLServer数据库的方式有两种:1.以SQL文件的方式导出2.以mdf和ldf数据库文件的方式导出 SQL文件的导出方式,通常需要自定义列与列之间的分隔符,因为默认的分隔符",",很可能出现在列的值中下面介绍一下导出和导入mdf和ldf的方式在sqlservermanagementstudio进行如下操作1.导出数据库  1.1脱机,(选择的数据库

2016-10-15 21:29:39

Spark将RDD转换成DataFrame的两种方式

介绍一下Spark将RDD转换成DataFrame的两种方式。1.通过是使用caseclass的方式,不过在scala2.10中最大支持22个字段的caseclass,这点需要注意2.是通过spark内部的StructType方式,将普通的RDD转换成DataFrame装换成DataFrame后,就可以使用SparkSQL来进行数据筛选过滤等操作下面直接代码说话packag

2016-10-15 21:29:33

机器学习工程师需要了解的十种算法

记录一下,有时间的时候研究,挺感兴趣的http://www.iteye.com/news/31803

2016-10-15 21:29:28

Spark之RDD基础

RDD概念:RDD是只读的,分区记录的集合RDD支持基于工作集的应用,同时具有数据流模型的特点:自动容错位置感知性调度可伸缩性速度快的原因:RDD允许用户在执行多个查询时显式的将工作集缓存在内存中,后续的查询能够重用工作集RDD的5个主要属性1.一组分片(Partition),数据集的基本组成单位. 每个Partition都会被逻辑映射成BlockManager的一个Bl

2016-10-15 21:29:22

Flume-ng 1.6启动过程源码分析(二)

阅读Flume源码后发现,Flume有两个顶级的接口:1.ConfigurationProvider接口,提供了getConfiguration()方法,用于获取不同组件的配置。2.LifecycleAware接口,提供了三个方法,start()stop()和getLifecycleState(),分别用于组件的启动停止以及组件在生命周期中处的状态,可以说这个接口贯穿于整个Flume

2016-10-15 21:29:16

Flume-ng 1.6启动过程源码分析(一)

启动部分主要分为四块 命令行参数的载入,这部分用的commoncli实现对于可选的zk配置的加载对于flume-ng配置的加载,这里利用EventBus实现配置文件动态加载组件的启动简单介绍下EventBus,它是Guava提供的消息发布-订阅类库,机制与观察者模式类似。 下面主要介绍上面提到的第3和4部分。首先flume-

2016-10-15 21:29:10

flume使用hdfs sink时需要注意的几点

最近接触了flume,这个日志收集器在扩展性方面确实很便捷,相信这与其架构的设计有密切的关系。书归正传,这次用到了hdfssink在使用时还是有几点需要注意的,在此和大家分享一下。 第一部分windows下搭建单机的hdfs如果你和我一样没有linux的测试环境,想在windows搭建hdfs,可以参考下面的链接,笔者就是参照这篇文章进行部署的http://blog.csdn.n

2016-10-15 21:29:04

基于flume-ng抓取mysql数据到kafka

flume是一个日志收集器,更多详细的介绍可以参照官网:http://flume.apache.org/ 在apacheflume的官网上没有找到sql数据源数据抓取的source,可以利用github上的plugin插件:https://github.com/keedio/flume-ng-sql-source,1.4.3版本基于hibernate实现,已可以适配所有的关系型数据库

2016-10-15 21:28:58

利用scala的trait特性实现简单AOP

最近开始系统的研究下scala trait字面意思是特质或者特征,这里翻译成特征比较合适。scala中trait的意义和java中接口很类似,但是trait支持实现,也就是说在scala的trait中方法可以是抽象方法,也可以是带实现的非抽象方法。另一个重要的与javainterface的不同点,scala可以在一个class实例化的时候通过with关键字混合进一个trait。wit

2016-10-15 21:28:52

自然语言处理之分词器ansj和hanlp介绍

1.ansjansj是ictclas(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)文件读取分词每秒钟大约30万字准确率能达到96%以上目前实现了:1.中文分词2.中文姓名识别3.用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高

2016-10-15 21:28:47

基于自然语言关键词的打分器

最近在做自然语言处理,当句子中有多个关键字时,就无法简单的通过关键字进行分类,需要筛选出句子的核心关键字,基于这个思想,自己开发了一个打分器,得分多高的关键词,即为该句的核心关键词 该打分器主要是为自然句子中的关键字进行打分,通过分数的高低选举出关键字的重要度下面通过简单的例子说明,如句子:电脑异响,怀疑是硬盘有问题,查为风扇的故障,更换风扇后正常.其中筛选出和电脑相关的词汇设置

2016-10-15 21:28:41

常用git命令积累汇总

以下是最近用gitcmd常用到的命令项目目录:cdProject_Dir #初始化gitgitinit #添加要提交的文件如README.md,'.'代表当前目录的所有文件gitaddREADME.mdgitadd. #git提交代码带上注释gitcommit-m"updatereadme.mdcommit" #git从服务的maste

2016-10-15 21:28:36

zookeeper注册服务与netty的简单结合应用

简单介绍一下zookeeper和nettyNetty:流行的NIOSocket通信框架,很多开源软件如hadooptachyonspark都使用Netty作为底层通信框架Zookeeper:分布式的,开放源码的分布式应用程序协调服务,hadoophbase等开源分布式系统的重要组件 应用场景描述:利用Zookeeper的服务注册与发现功能,实现Netty通信集群的简单高可用。 

2016-10-15 21:28:30

开启google人工智能学习Tensorflow之旅(一)

简介TensorFlowTensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,这和当前很多主流机器学习框架类似,如spark,。TensorFlow为张量从图象的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统,目前

2016-10-15 21:28:24

Spark1.6新特性简介及个人的理解

新的Spark1.6版本发布了,之前使用Spark1.4版本的SparkSQL,这次发布后主要关注了1.6版本的SparkSQL特性参阅了官方的ReleaseNote和jiraissuedetail以及之前在使用1.4.0中的经验,跟大家分享一下Spark1.6部分新加的几个特性。 1.DatasetAPI目前Spark有两大类API:RDDAPI(SparkCore),Da

2016-10-15 21:28:18

Maven构建SpringMVC项目详解

Eclipse版本: EclipseJavaEEIDEforWebDevelopers. Version:KeplerServiceRelease2   上述版本的Eclipse中已经包含了基本的maven插件,如果你使用的eclipse中没有,可以通过下面的地址在EclipseHelp->InstallNewSoftware中安装:

2016-10-15 21:28:13

CXF集成Spring

最近调研了对webservice实现比较好的框架,觉得Apache的CXF不错.做了一个简单的技术预研,其中主要包括2方面:1.与Spring的集成,2.安全性方面即WS-Security首先与Spring的集成可以通过ContextLoaderListener去装配bean在WS-Security方面可以与WSS4J集成WSS4J支持多种模式:XMLSecurity:1.XMLSignatu

2016-10-15 21:28:07

记一次Spark集群查询速度变慢的问题调查

现象:针对某张表(下文中用A表代替)的查询速度慢了6s   简单介绍一下系统的架构:Spark+Tachyon+glusterfs+mesos,其中glusterfs负责tachyon数据的持久化,Spark从tachyon上加载数据,mesos负责Spark任务调度 通过对比分析Spark:4040页面提供的任务执行信息发现,A表的Spark任务中,出现了Loca

2016-10-15 21:28:01

SparkSQL Driver ClassNotFoundException的解决方案

在使用SparkSQL连接关系型数据库时,需要通过JDBC来加载对应数据库的驱动,如SQLServerJDBC连接用到的sqljdbc4.jar,处理时经常会遇到sparksql抛出jdbc的驱动程序ClassNotFoundException,类似下面的错误提示      Exceptioninthread"main"java.lang.ClassNotFoundException:

2016-10-15 21:27:55

SparkSQL操作sqlserver和postgresql示例

defmain(agrs:Array[String]){//configurationandnewSparkContextvalconf=newSparkConf().setAppName("SparkSQL_Select_Table").set("spark.driver.allowMultipleContexts","tru

2016-10-15 21:27:50

查看更多

勋章 我的勋章
    暂无奖章