10 stark_summer

尚未进行身份认证

我要认证

专注于开发分布式任务调度框架、分布式同步RPC、异步MQ消息队列、分布式日志检索框架、hadoop、spark、scala。 写博客很辛苦的,如果我的写的文章能对您有帮助,请您能给点捐助(支付宝账号:stark_summer@qq.com)

等级
TA的排名 923

mac OS X10.11.5安装scikit-learn后运行出现ValueError: numpy.dtype has the wrong size的错误

安装机器学习类库 通过pip命令安装机器学习类库 numpy,scipy,scikit-learn sudo pip install numpy scipy scikit-learn 但是安装后,运行机器学习算法,报错如下:Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Library/Py

2016-07-21 11:18:14

机器学习简史

最近学习的重点不在机器学习上面,但是现代的学科就是这么奇妙,错综复杂,玩着玩着,你发现又回到了人工智能这一块。所以干脆好好整理下当下令很多人如痴如醉,但又不容易入门的机器学习。一来给大多数还没有入门的人一点宏观概念,二来让我自己以后找解决办法的时候更有头绪。故此文不是给想快速上手的工程师的菜单,更像一篇娓娓道来的武侠小说,看看人工智能世界的先驱们是如何开宗创派的。一、从人工智能说起

2015-12-20 16:30:02

机器学习概念整理

伯努利分布: https://zh.wikipedia.org/wiki/%E4%BC%AF%E5%8A%AA%E5%88%A9%E5%88%86%E5%B8%83主成分分析: https://zh.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90均方差: https://zh.wikipedia.org/wi

2015-12-10 15:01:53

那些年我们对Spark RDD的理解

这篇文章想从spark当初设计时为何提出RDD概念,相对于hadoop,RDD真的能给spark带来何等优势。之前本想开篇是想总体介绍spark,以及环境搭建过程,但个人感觉RDD更为重要铺垫 在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数

2015-12-09 15:57:31

机器学习疑问整理

回答一: 感觉logistic模型的优点有如下: 1. logistic是线性模型,在相同的条件下线性模型的稳定要优于非线性模型; 2. logistic模型的效果评价除了验证数据集外,还有统计学的验证,感觉更严谨; 3. logistic是基于统计学原理的,更容易让统计和数学背景的人接受; 4. 模型参数的解释更科学,比如某变量的影响直接用发生比就能解释; 5.

2015-12-09 14:53:30

kafka性能参数和压力测试揭秘

上一篇文章介绍了Kafka在设计上是如何来保证高时效、大吞吐量的,主要的内容集中在底层原理和架构上,属于理论知识范畴。这次我们站在应用和运维的角度,聊一聊集群到位后要怎么才能最好的配置参数和进行测试性能。Kafka的配置详尽且复杂,想要进行全面的性能调优需要掌握大量信息,我也只是通过工作中的一些实战经验来筛选出对集群性能影响最大的几个要点,接下来要阐述的观点也仅限于我所描述的环境下,请大家根据自己

2015-12-07 10:45:21

kafka 高吞吐量性能揭秘

此文章来自于我司高磊童靴kafka作为时下最流行的开源消息系统,被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于RocketMQ等其他常见消息系统,Kafka在保障了大部分功能特性的同时,还提供了超一流的读写性能。本文将针对Kafka性能方面进行简单分析,首先简单介绍一下Kafka的架构和涉及到的名词:1. Topic:用于划分Message的逻辑概念,

2015-12-02 10:18:17

机器学习算法实现的演化

下面将会对机器学习算法的不同的实现范式进行讲解,既有来自文献中的,也有来自开源社区里的。首先,这里列出了目前可用的三代机器学习工具。传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。它们可以对大数据进行我称

2015-11-14 11:33:19

spark-sql与elasticsearch整合&测试

1. 前置条件spark是1.4.1版本 elasticsearch是1.7版本 java是1.7版本2. 依赖jar包需要使用elasticsearch-hadoop 下载地址:http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-hadoop/2.2.0-m13. 配置将下载的elasticsearch-hado

2015-11-09 19:49:04

认识每一个“你”:微博中的用户模型

社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率。身处社交媒体中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。在社交媒体背景下,用户生产、传播和接收信息更加便捷,使得之前相对集中的用户兴趣和行为变得更加碎片化和离散,因此社交媒体中的用户模型的构建和应用也发生了巨大的变化。微博经历了6年的发展,

2015-11-09 14:01:15

通过spark-redshift工具包读取redshift上的表

spark数据源API在spark1.2以后,开始提供插件诗的机制,并与各种结构化数据源整合。spark 用户可以读取各种各样数据源的数据,比如Hive表、JSON文件、列式的Parquet表、以及其他表。通过spark包可以获取第三方数据源。 而这篇文章主要讨论spark 新的数据源,通过spark-redshift包,去访问Amazon Redshift服务。 spark-redshift

2015-11-07 18:02:55

既然有了elasticsearch为什么还要用hadoop和spark呢?good question

最近更多的时间投入到工作,而其余时间在学习elasticsearch & 机器学习 看到这篇文章,感觉有收获~ https://www.quora.com/Why-do-people-use-Hadoop-or-Spark-when-there-is-ElasticSearch

2015-11-04 13:31:23

hbase数据迁移方式

之前要hbase数据迁移,我使用Export/Import方式,感觉很棒,链接如下: http://blog.csdn.net/stark_summer/article/details/49078471,后来发现还有其他两种方式,so就全部整理下吧。copytable方式bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.ad

2015-10-21 15:25:32

Task not serializable:java.io.NotSerializableExceptionon

异常信息这里关于调用外部的closure时出现了一些错误,当函数是一个对象时一切正常,当函数是一个类时则出现如下报错:Task not serializable: java.io.NotSerializableException: testing下面是能正常工作的代码示例: object working extends App { val list = List(1,2,3) val

2015-10-21 15:12:50

大数据社区研讨会 (第一届)

时间:2015年10月22日(星期四)下午,13:00PM - 17:30PM地点:北京市海淀区清华科技园创新大厦A座2楼技术报告:13:00-13:30 签到13:30-13:35 开场 - 冯雷(FENG, Ray), Pivotal中国研发中心GM13:35-14:15 Apache HAWQ介绍 - 常雷(CHANG, Lei), HAWQ创始人, 研发总监, Pivotal14:15-1

2015-10-20 10:26:34

spark streaming的NetworkWordCount实例理解

NetworkWordCount代码/** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the NOTICE file distributed with* this work for additional information r

2015-10-19 16:30:39

每日三个笑话-201510117

电线杆子?是你媳妇? 一次堂哥喝多在大街上睡着了,堂嫂给他拿个席铺上就走了!第二天堂哥发疯的要打堂嫂:你个心狠的娘们儿,你就不怕我冻死!没想到堂嫂更生气:你个不认窝的爷们,非说大街是你家,电线杆子是你媳妇,我拉不走也扛不走…奔跑吧。小胖子???真实老同学么? 昨天一N年没见的同学突然给我发了一个链接,让我给他孩子投什么票?说他孩子现在第三名,我毫不犹豫的点进去,默默给了第四名一票!

2015-10-18 20:41:03

2015-10-17在北京第四届Elasticsearch中国大会--资料整理

活动安排演讲者ppt资料链接: http://pan.baidu.com/s/1bnHjrWV 密码: acau直播视频http://www.quklive.com/q3/l/4445059076382165合影留恋招聘午餐作者:stark_summer 出处:

2015-10-18 14:25:12

每日三个笑话-201510116

男朋友学驴叫 妹子最近谈了个男友,可老妈各种不同意,电脑给我关掉,手机也没收,软禁我在家……。 由于我的失联,男友真急眼啦,半夜,就来到我们家楼下学动物叫,希望能引起我的注意,也好取得联系,结果,惹的楼上楼下,骂声一片……。 气的我妈指着我鼻子数落:“听听,听听,你这是找了个啥玩意儿?,人家都学个小猫、小狗啥的,他到好,大半夜学驴叫……”。一个充满活力的家 有一天,小明问他爸爸:"为什么我一

2015-10-18 12:01:32

每日三个笑话-20151015

好吧,你们城里人最会玩 跟朋友去下馆子,在酸菜鱼里看见了只苍蝇,哥们欲叫服务员,我说等下,然后掏出个硬币藏到盘中,然后叫来服务员,服务员道歉说给换一盆,一会儿服务员就又端了一盆来,然后我们当着服务员面开始翻,当我们翻出一枚硬币服务员傻了!然后大堂经理来了忙道歉说这顿我买单……#又涨姿势了##(滑稽) #(滑稽)教练让我别来了 这哥哥怎么能这样呢?表妹考上外省一大学,火车站送她。拉着她的小肥手,

2015-10-16 12:05:17

查看更多

勋章 我的勋章
    暂无奖章