自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令(三)

咱们来看看对特别大的文件统计,整个过程是如何分拆的。大家想想词频统计的过程,如果是单机完成,我们需要做的事情是维护一个计数器字典,对每次出现的词,词频+1.但是当数据量非常大的时候,没办法在内存中维护这么大的一个字典,我们就要换一种思路来完成这个任务了,也就是我们所谓的map-reduce过程。大体的过程画成图是下面这个样子:大概是分成下面几个环节:map阶段主要完成key-valu...

2019-02-27 17:21:20 180

翻译 HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令(二)

1、Namenode Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表, 接收用户的操作请求。 文件包括: ①fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。 ②edits:操作日志文件。 ③fstime:保存最近一次checkpoint的时间 以上这些文件是保存在linux的文件系统中...

2019-02-27 17:13:52 235

原创 python基础学习一

condition=1while condition < 10: print(condition) condition = condition +1 print(condition)while循环for 循环example_list = [1,2,3,4,5,6,7,12,534,657,875]for i in example_list: ...

2018-10-15 20:43:15 177

原创 大数据集群之——storm原理、基础知识

Storm基本知识   https://www.cnblogs.com/wuxiang/p/5629138.html1、一个Storm集群的基本组件storm的集群表面上看和hadoop的集群非常像。但是在Hadoop上面你运行的是MapReduce的Job, 而在Storm上面你运行的是Topology。它们是非常不一样的 — 一个关键的区别是: 一个MapReduce Job最终会结束...

2018-09-05 17:25:23 449

原创 链表栈队列——算法基础一

合理运用算法,能够获得更高的效率 时间复杂度优先 空间复杂度优先 时间复杂度和空间复杂度的折中一、系统的“数数”系统的遍历——不漏不重: 深度优先搜索、广度优先搜索 前序遍历、中序遍历、后序遍历 思考:给定N个数和某定值sum,从N个数中取若干个数,要求它们的和是sum,输出所有的取法。 子集和数问题:给定一个集合,子集再求和例子:机智:“战平即可出线”足球比赛,一个小组有8支球队进...

2018-05-16 11:06:05 221 1

原创 用NLTK进行文本分析

句子放进去就是字符串;一、英文分词:利用空格;中文分词:启发式分词,用长度优先的方式,最长的在字典中出现的词;机器学习分词法:HMM、CRF结巴分词的GitHub主页:https://github.com/fxsjy/jieba基于python的中文分词的实现及应用:http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html对pyth...

2018-05-14 09:58:15 1276 1

原创 量化交易实战——互联网金融之四

传统的交易系统策略——是人工定义的。现在的机器学习——规则不是程序员制定的,而是自己学出来的,规则是计算机从数据中挖掘出来的。识别手写模型用的SVM,有很强的鲁棒性;监督模型:分类、回归。非监督模型:没有Y的信息,从X里面能不能自己发现规律;聚类、降维。X是300*1的点,每个时间点有300个指标,用聚类的方法,这些时间序列归一类,另一些时间序列归另一类;300维能不能降到20维,300维某些列是...

2018-05-06 07:45:45 586 2

原创 搭量化数据库——互联网金融之三

一、数据的获得与存储http://tushare.org/index.htmlhttp://finance.yahoo.comhttps://www.google.com/financehttps://www.quantquote.com二、搭自己的数据库创建库、创建表三、Python同数据库连接数据导入、可视化四、时间序列分析实战建立本地金融数据库的意义建模:模型建立、模型评估、模型回测、风险控...

2018-05-02 14:01:45 687

原创 量化交易系统综述——互联网金融之二

一、CAPM modelprotfolio:资产的组合,如果不考虑融券,各种资产占总资产的比重;maket profolio:市场股指选定10个板块,每个板块挑出来比较重要的股票,每个股票的市值乘以权重,加权求和,代表了市场的指标,类似于GDP代表国家经济状态的指标。股指的波动不代表某个股票的波动。ts时刻,某只股票的回报等于这个市场的回报剩以系数加上股票残差。平均下来,理论上来说,在完美世界中,...

2018-04-28 10:43:40 1412

原创 自动化交易综述——互联网金融

互联网金融我们需要三方面的知识:机器学习、金融知识、编程知识。算法交易综述:利用自动化平台,执行预先设置的一系列规则完成交易行为。量化交易:交易的原因由数学模型指导交易行为。算法交易流程:提出假设;建立模型;回测验证;执行交易。交易策略的来源:1、市场微观结构研究;2、基金结构套利;3、机器学习、人工智能。机器学习四大流派:连接主义:神经网络符号主义:随机森林,可解释性较好平面主义:贝叶斯学派机器...

2018-04-26 21:17:10 825

原创 图灵机器人——VQA模型的介绍

VQA的起源图灵测试:如果强AI,使你分辨不出是人还是计算机,完成了图灵测试。Eugene Goostman算法:模仿了乌克兰13岁小男孩,无法判断对方是人还是机器人,完成了首个可以pass 图灵测试。1、13岁2、乌克兰人3、英语可能也不好是不是有更好的测试,所以就有了新图灵测试的探讨:既然说图灵测试可以用作弊的方式解决,在这种情形下,产生了VQA:http://www.visualqa.org...

2018-04-22 22:42:31 1608

原创 聊天机器人——chatBot知识框架

Generative-Based:IT语料库加电影对白语料库,通过简单的案例,把IT所有知识,强AI形式,目前还没有被攻克,不错的paper:ACL会议,主题是使用了一堆词条,假设可以涵盖了社会的方方面面的知识,维基百科,词条的形式进行分析,你问题都以维基百科的知识回答;Retrieval-Based:闭合的场景,所有的问题基本都能想得到,Rules-Based,工业界很感兴趣,加入知识图谱中的动...

2018-04-22 20:59:42 1932

原创 NLP之一nltk,nltk的安装步骤,使用简介

聊天机器人现在这么火,但是基础离不开NLP,Python自带的nltk就是自然语言处理的一大利器。今天就为大家介绍下nltk。一、nltk的安装Windows版本:首先安装个Python,最好需要3.4及以上版本顺便也安装个numpy吧安装NLTK,NLTK:http://pypi.python.org/pypi/nltk测试安装是否成功:输入Python,进入Python环境;然后import ...

2018-04-22 10:43:21 1278

原创 HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令(一)

一、HDFS全称Hadoop DISTRIBUTED FILE SYSTEM,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性,而且提供了高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。在最初,HADOOP是作为Apache Nutch搜索引擎项目的基础架构而开发的,后来由于它...

2018-03-07 16:27:52 248

原创 Python数据分析之二seaborn(常用方法)

%matplotlib inlineimport matplotlib as mplfrom matplotlib import pyplot as pltimport seaborn as snsimport numpy as npx = np.random.normal(size=100)sns.distplot(x, kde=True)#.分布的集中趋势,反映数据向其中心值靠拢...

2018-03-05 10:03:07 2541 1

原创 Python数据分析之可视化一matplotlib(常用方法)

data = sns.load_dataset("iris")data.head()# 萼片长度,萼片宽度,花瓣长度,花瓣宽度,种类# your code%matplotlib inlineimport matplotlibfrom matplotlib import pyplot as pltimport seaborn as snsimport pandas as pddata....

2018-02-28 16:09:37 1178 3

原创 pandas常用方法总结

首先安装pandas模块from matplotlib import pyplot as pltimport numpy as npimport pandas as pdfrom numpy import nan as NAfrom pandas import DataFrame, Series%matplotlib inline一、pandas导入# DataFrame# 本质上就...

2018-02-11 14:28:26 689 1

原创 selenium的几个简单应用和实例一

from selenium import webdriveroptions = webdriver.ChromeOptions()options.add_argument('--headless')options.add_argument('--disable-gpu')driver = webdriver.Chrome(chrome_options=options)driver.g

2018-02-02 22:16:12 12267 1

转载 requests常用方法

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

2018-01-30 13:59:34 267 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除