siyuchen1-CSDN博客

原创 HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令（三）

咱们来看看对特别大的文件统计，整个过程是如何分拆的。大家想想词频统计的过程，如果是单机完成，我们需要做的事情是维护一个计数器字典，对每次出现的词，词频+1.但是当数据量非常大的时候，没办法在内存中维护这么大的一个字典，我们就要换一种思路来完成这个任务了，也就是我们所谓的map-reduce过程。大体的过程画成图是下面这个样子：大概是分成下面几个环节：map阶段主要完成key-valu...

2019-02-27 17:21:20 180

翻译 HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令（二）

1、Namenode Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表, 接收用户的操作请求。文件包括： ①fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。 ②edits:操作日志文件。 ③fstime:保存最近一次checkpoint的时间以上这些文件是保存在linux的文件系统中...

2019-02-27 17:13:52 235

原创 python基础学习一

condition=1while condition < 10: print(condition) condition = condition +1 print(condition)while循环for 循环example_list = [1,2,3,4,5,6,7,12,534,657,875]for i in example_list: ...

2018-10-15 20:43:15 177

原创大数据集群之——storm原理、基础知识

Storm基本知识 https://www.cnblogs.com/wuxiang/p/5629138.html1、一个Storm集群的基本组件storm的集群表面上看和hadoop的集群非常像。但是在Hadoop上面你运行的是MapReduce的Job, 而在Storm上面你运行的是Topology。它们是非常不一样的 — 一个关键的区别是：一个MapReduce Job最终会结束...

2018-09-05 17:25:23 449

合理运用算法，能够获得更高的效率 时间复杂度优先 空间复杂度优先 时间复杂度和空间复杂度的折中一、系统的“数数”系统的遍历——不漏不重： 深度优先搜索、广度优先搜索 前序遍历、中序遍历、后序遍历 思考：给定N个数和某定值sum，从N个数中取若干个数，要求它们的和是sum，输出所有的取法。 子集和数问题：给定一个集合，子集再求和例子：机智：“战平即可出线”足球比赛，一个小组有8支球队进...

2018-05-16 11:06:05 221 1

原创用NLTK进行文本分析

句子放进去就是字符串；一、英文分词：利用空格；中文分词：启发式分词，用长度优先的方式，最长的在字典中出现的词；机器学习分词法：HMM、CRF结巴分词的GitHub主页：https://github.com/fxsjy/jieba基于python的中文分词的实现及应用：http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html对pyth...

2018-05-14 09:58:15 1276 1

原创量化交易实战——互联网金融之四

传统的交易系统策略——是人工定义的。现在的机器学习——规则不是程序员制定的，而是自己学出来的，规则是计算机从数据中挖掘出来的。识别手写模型用的SVM，有很强的鲁棒性；监督模型：分类、回归。非监督模型：没有Y的信息，从X里面能不能自己发现规律；聚类、降维。X是300*1的点，每个时间点有300个指标，用聚类的方法，这些时间序列归一类，另一些时间序列归另一类；300维能不能降到20维，300维某些列是...

2018-05-06 07:45:45 586 2

原创搭量化数据库——互联网金融之三

一、数据的获得与存储http://tushare.org/index.htmlhttp://finance.yahoo.comhttps://www.google.com/financehttps://www.quantquote.com二、搭自己的数据库创建库、创建表三、Python同数据库连接数据导入、可视化四、时间序列分析实战建立本地金融数据库的意义建模：模型建立、模型评估、模型回测、风险控...

2018-05-02 14:01:45 687

原创量化交易系统综述——互联网金融之二

一、CAPM modelprotfolio:资产的组合，如果不考虑融券，各种资产占总资产的比重；maket profolio:市场股指选定10个板块，每个板块挑出来比较重要的股票，每个股票的市值乘以权重，加权求和，代表了市场的指标，类似于GDP代表国家经济状态的指标。股指的波动不代表某个股票的波动。ts时刻，某只股票的回报等于这个市场的回报剩以系数加上股票残差。平均下来，理论上来说，在完美世界中，...

2018-04-28 10:43:40 1412

原创自动化交易综述——互联网金融

互联网金融我们需要三方面的知识：机器学习、金融知识、编程知识。算法交易综述：利用自动化平台，执行预先设置的一系列规则完成交易行为。量化交易：交易的原因由数学模型指导交易行为。算法交易流程：提出假设；建立模型；回测验证；执行交易。交易策略的来源：1、市场微观结构研究；2、基金结构套利；3、机器学习、人工智能。机器学习四大流派：连接主义：神经网络符号主义：随机森林，可解释性较好平面主义：贝叶斯学派机器...

2018-04-26 21:17:10 825

原创图灵机器人——VQA模型的介绍

VQA的起源图灵测试：如果强AI，使你分辨不出是人还是计算机，完成了图灵测试。Eugene Goostman算法：模仿了乌克兰13岁小男孩，无法判断对方是人还是机器人，完成了首个可以pass 图灵测试。1、13岁2、乌克兰人3、英语可能也不好是不是有更好的测试，所以就有了新图灵测试的探讨：既然说图灵测试可以用作弊的方式解决，在这种情形下，产生了VQA：http://www.visualqa.org...

2018-04-22 22:42:31 1608

原创聊天机器人——chatBot知识框架

Generative-Based:IT语料库加电影对白语料库，通过简单的案例，把IT所有知识，强AI形式，目前还没有被攻克，不错的paper：ACL会议，主题是使用了一堆词条，假设可以涵盖了社会的方方面面的知识，维基百科，词条的形式进行分析，你问题都以维基百科的知识回答；Retrieval-Based:闭合的场景，所有的问题基本都能想得到，Rules-Based,工业界很感兴趣，加入知识图谱中的动...

2018-04-22 20:59:42 1932

原创 NLP之一nltk，nltk的安装步骤，使用简介

聊天机器人现在这么火，但是基础离不开NLP，Python自带的nltk就是自然语言处理的一大利器。今天就为大家介绍下nltk。一、nltk的安装Windows版本：首先安装个Python，最好需要3.4及以上版本顺便也安装个numpy吧安装NLTK，NLTK：http://pypi.python.org/pypi/nltk测试安装是否成功：输入Python，进入Python环境；然后import ...

2018-04-22 10:43:21 1278

原创 HDFS、MapReduce设计概念、基础架构、Python代码实现、常用命令（一）

一、HDFS全称Hadoop DISTRIBUTED FILE SYSTEM，简称HDFS，是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性，而且提供了高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。在最初，HADOOP是作为Apache Nutch搜索引擎项目的基础架构而开发的，后来由于它...

2018-03-07 16:27:52 248

原创 Python数据分析之二seaborn（常用方法）

%matplotlib inlineimport matplotlib as mplfrom matplotlib import pyplot as pltimport seaborn as snsimport numpy as npx = np.random.normal(size=100)sns.distplot(x, kde=True)#.分布的集中趋势，反映数据向其中心值靠拢...

2018-03-05 10:03:07 2541 1

原创 Python数据分析之可视化一matplotlib(常用方法)

data = sns.load_dataset("iris")data.head()# 萼片长度，萼片宽度，花瓣长度，花瓣宽度，种类# your code%matplotlib inlineimport matplotlibfrom matplotlib import pyplot as pltimport seaborn as snsimport pandas as pddata....

2018-02-28 16:09:37 1178 3

原创 pandas常用方法总结

首先安装pandas模块from matplotlib import pyplot as pltimport numpy as npimport pandas as pdfrom numpy import nan as NAfrom pandas import DataFrame, Series%matplotlib inline一、pandas导入# DataFrame# 本质上就...

2018-02-11 14:28:26 689 1

原创 selenium的几个简单应用和实例一

from selenium import webdriveroptions = webdriver.ChromeOptions()options.add_argument('--headless')options.add_argument('--disable-gpu')driver = webdriver.Chrome(chrome_options=options)driver.g

2018-02-02 22:16:12 12267 1

转载 requests常用方法

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

2018-01-30 13:59:34 267 1

siyuchen的博客