A专业猎头2008-CSDN博客

原创 C++面向对象复习笔记暨备忘录

C++11引入新的关键字nullptr, 充当单独的空指针常量。调用f(NULL)将会调用f(int* x)如果有重载函数void f(int *x)和void f(int x)那么，f(NULL)将会调用f(int x),这肯定不是程序员的原意。

2023-11-28 16:41:47 563 1

1，技术成长，模块的上下游都可以解除，接触面广。1、计算机相关专业，5年以上开发工作经验，3年以上存储开发工作经验，有监控平台（例如Prometheus等）开发经验更佳；4、熟悉Linux操作系统，熟练使用LVM、Parted、Systemd等工具，了解文件系统、Cache等子模块；7、自我学习能力强，分析解决问题能力强，善于沟通交流，有责任感，有团队协作精神，对新技术敏感。6、理解系统架构，有产品核心特性架构设计经验，有较好的设计思维，能够灵活运用设计方法；微信 ltzf202301。

2024-01-15 17:23:06 400

原创【猎头职位】蚂蚁集团-隐私计算调度框架研发GO/C++/Java招聘

工作内容："打造数据协同的隐私计算调度框架，解决跨机构分布式计算场景下的资源管理，任务调度，网络通讯等问题，让隐私计算调度框架成为未来跨机构数据协同的基础能力。（3）有分布式系统经验者，熟悉Hadoop/Spark/Flink/Storm/HBase等大数据技术或有相关开发经验。（2）有业界主流分布式中间件使用经历（如：etcd、redis、prometheus等），并了解其原理和实现细节；"1、熟练掌握Go/C/C++/Java语言中的一种；3、良好的学习和沟通能力，有责任心，有钻研精神；

2024-01-15 17:13:28 450

原创通用计算芯片架构师招聘-北京/上海/深圳

你有机会和业界一流的芯片团队一起开发通用计算芯片, 使用最先进的设计平台和工艺, 成长为业界稀缺的芯片设计师。1. 计算芯片的架构, 微架构和流水线设计, 包括SOC, 高性能计算和处理器模块.2. 芯片前沿领域技术的研究和实现, 以提高芯片的计算力和内存吞吐量.3. 全局产品化的关键技术(RAS, 安全, 虚拟化等)4. 对一个和多个SOC/CPU模块架构有深度的理解.3. 熟悉Linux Kernel和系统软件.通用计算芯片架构师-北京/上海/深圳。微信 ltzf202301。

2024-01-15 16:41:48 394

原创机器学习平台架构师招聘（ZJ）

2、从机器学习系统架构、云原生架构、公有云架构，等多个层面，进行技术探索和攻坚，帮助客户实现高性能、高资源利用率的高性能计算平台。1、负责机器学习平台的设计和开发工作，打造国内领先的聚焦AI开发者体验的机器学习平台；1、计算机科学、人工智能、数据科学、数学或相关专业的硕士以上学历，具有扎实的算法基础；3、具有较强的代码实现能力和逻辑分析能力，能够进行算法设计、数据处理和模型训练；1、C9、985、211、国内外计算机专业强校优先看。2、普通一本结合公司背景、业务背景看。微信 ltzf202301。

2024-01-15 16:40:16 366

原创 Python踩坑记录（持续更新）

在函数中不能任意修改全局变量，如果确实需要修改，需要增加global关键字。否则Python解释器会默认该变量是局部变量，但发现没有声明，将会报错。

2024-01-09 17:43:41 357

原创 C++ STL

【代码】C++ STL。

2024-01-06 14:49:19 345

原创 C++并发编程（持续更新）

【代码】C++并发编程（持续更新）

2024-01-04 11:27:40 330

原创期货交易策略模拟测试-基于CLBISO01策略-2023.12.22

采取与昨天同样的策略进行盘中模拟测试，今天行情还可以，挺“顺溜”。

2023-12-22 10:04:59 374

原创期货交易策略模拟测试-基于CLBISO01策略

测试了一下CLBISO01策略，日内交易，不隔夜，下午收盘前肯定平仓。很久没体验这种淋漓尽致的感觉了。

2023-12-21 15:25:02 342

原创玩期货，千万要注意不同软件的设置啊

参加某公司的期货交易模拟选拔，用的是博易大师，结果这个软件的止损线巨坑，当天下午设置的止损线，在收盘之后软件关闭的情况下就自动作废了，到了晚上夜盘如果价格超相反方向走了，那可能导致巨亏。

2023-12-15 15:28:12 354

原创 C++模板编程浅析

return 0;T c = a;a = b;b = c;

2023-12-14 18:35:07 353

原创 C++静态成员数据

对象，并访问了静态变量和静态函数。由于静态变量是类级别的，因此我们使用类名来访问它。同样地，我们使用类名来调用静态函数。在上面的例子中，我们声明了一个名为。我们还定义了一个普通的成员函数。的类，其中包含一个静态变量。函数中，我们创建了一个。

2023-12-13 14:53:38 442 2

原创 C++拷贝构造函数的参数必须带有const吗？

在这种情况下，拷贝构造函数的参数是一个非const引用。这种形式可能会导致在拷贝构造函数中修改传入的对象，但这并不是一个好的实践。因为在拷贝构造函数中修改传入的对象可能会导致未定义的行为或意外的副作用。因此，通常推荐使用带有const修饰符的拷贝构造函数参数。在C++中，拷贝构造函数的参数并不必须带有const修饰符。拷贝构造函数用于创建一个新对象，并将其初始化为另一个已存在的对象的副本。这种形式通常更为常见，因为它可以确保在拷贝构造函数中不会修改传入的对象。在这个例子中，拷贝构造函数的参数是。

2023-12-12 18:06:49 439

原创 C++面向对象：列表初始化示例（备忘）

【代码】C++面向对象：列表初始化示例（备忘）

2023-12-12 17:23:42 322

原创 C++ string类使用示例（备忘录）

【代码】C++ string类使用示例（备忘录）

2023-12-12 13:30:57 307

原创 C++动态内存分配：检查分配成功的方法

1、当new操作成功时，返回申请到的堆空间的一个地址。如果不成功，则返回一个空指针。因此，动态空间是否申请成功可以通过检查new操作的返回值来实现。2、也可以利用C++的assert()宏来确定new操作是否成功。当检测到new操作不成功时，直接退出程序。C++使用new进行动态内存分配，可以使用如下两种方法，检查是否分配成功。

2023-11-28 17:49:43 473

原创 C++：通过指针遍历数组的多种方式

C++数组名保存的是数组的首地址，也就是说数组名就是一个指针。而且它是一个指针常量，它的值不能变。

2023-11-28 17:16:53 823

原创 DBZQ03策略回测-螺纹钢

2023-11-27 13:16:54 339

原创 DBZQ02策略回测-螺纹钢-换个策略，怕您了OK？

换了个策略进行复盘测试，持续盈利目前无法做到？持续亏损还是可以做到的……

2023-11-27 12:39:08 337

原创 DBZQ01策略复盘测试-甲醇-20230201-20230203

后面回撤不少，看来策略还是有继续改进的空间。

2023-11-27 09:45:02 333

原创日内策略回测记录-甲醇-20230111/20230212

使用策略：DBZQ01策略。

2023-11-24 10:29:15 361

原创日内策略回测记录-螺纹钢-20180108

策略：突破。

2023-11-24 09:41:17 327

原创指针与常量限定符const：指向const对象的指针和const指针

【代码】const指针备忘录。

2023-11-22 14:07:21 325

原创 C++贪心算法示例

例子改编自翁惠玉C++教材（第三版）贪心算法一节。

2023-11-22 10:13:12 368

原创 C++ static_cast使用示例

注意，代码中的5必须有小括号。

2023-11-21 15:15:11 21

原创 C++11 变量初始化，auto, typeid, decltype使用示例

【代码】C++11 变量初始化，auto, typeid, decltype使用示例。

2023-11-21 13:36:23 31

原创期货策略测试-模拟盘

多周期共振策略测试。

2023-11-02 21:29:20 32

原创期货日内策略-模拟盘测试

基于均线的趋势策略，发出开仓信号，介入，等下午收盘看看效果吧。目前看起来走势还可以。

2023-11-02 10:43:25 34

原创期货波段交易-模拟盘测试

全线飘红的感觉还是不错的。可惜只是模拟盘，用于测试交易策略。

2023-11-01 14:40:07 35

原创 C++命名空间

命名空间定义#include <iostream>using namespace std;namespace mynsps{ void radios(){ cout << "----radios----" << endl; }}int main() { int i = 10; int j = 20; cout << "Hello, World!" << endl;

2022-05-09 13:00:23 277 1

原创 scrapy中pipeline获取settings参数的方法

1、在scrapy的pipeline中，获取settings参数，可使用如下方式：def open_spider(self, spider): settings = spider.settings web_dir_dict = settings.get('WEB_DIR_DICT', {})也可以采用如下方式：from scrapy.utils.project import get_project_settings###中间代码略def open_spider(sel

2022-03-09 17:17:40 1177

原创局部变量及全局变量

#include<iostream>#include<string>using namespace std;int test_i = 0;void foo(){ cout << test_i << endl;}int main(){ int test_i; foo(); test_i = 1; cout << test_i << endl; foo(); ret.

2022-01-31 20:47:53 344

原创 C++ this用法

#include <iostream>using namespace std;class Node{ public: void set_x(int x); void set_y(int y); public: int x; int y;};void Node::set_x(int x){ this->x = x;};void Node::set_y(int y){ thi.

2021-12-08 09:52:42 364

原创 C++用Vector实现栈的功能小试牛刀

#include <iostream>#include <vector>using namespace std;int main(){ vector<char> stack(0); char tmp; do{ cin>>tmp; if(tmp != '#'){ stack.push_back(tmp); }else{ stac.

2021-12-04 18:06:32 1299

原创 C++面向对象之虚函数

#include <iostream>using namespace std;class Human{ public: virtual void buyTicket(){ cout<<"Human buy ticket"<< endl; }};class Teacher: public Human{ public: virtual void buyTicket(){.

2021-12-02 10:40:04 465

原创 C++拷贝构造函数应用示例

#include <iostream>#include <string>#include <fstream>#include <assert.h>using namespace std;struct Keyboard{ string m_strModel;};class Computer{ private: Keyboard *m_pKeyboard; string m_strModel;.

2021-12-01 15:15:29 325

原创类型转换构造函数示例

#include <iostream>#include <string>#include <fstream>using namespace std;class Complex{ public: double real, imag; Complex(int i){ cout << "IntConstructor called" << endl; re.

2021-11-29 13:19:51 289

原创复制构造函数被调用的情况示例

#include <iostream>#include <string>#include <fstream>using namespace std;class A{ public: A(){}; A(A &a){ cout << "Copy constructor called" << endl; }};void Func(A a){}i.

2021-11-29 10:59:04 174

原创 C++的string类

#include <iostream>#include <string>using namespace std;int main(){ int n(20); cout << n << endl; string a = "dog"; string b =a + ", cat"; cout << b << endl; string c = a + "dog" + "cat";.

2021-11-26 16:50:41 286

Python+Spark 2.0+Hadoop机器学习与大数据实战_林大贵(著) 清华大学出版社(完整高清带书签)

第1章 Python Spark机器学习与Hadoop大数据 1 1.1 机器学习的介绍 2 1.2 Spark的介绍 5 1.3 Spark数据处理 RDD、DataFrame、Spark SQL 7 1.4 使用Python开发 Spark机器学习与大数据应用 8 1.5 Python Spark 机器学习 9 1.6 Spark ML Pipeline机器学习流程介绍 10 1.7 Spark 2.0的介绍 12 1.8 大数据定义 13 1.9 Hadoop 简介 14 1.10 Hadoop HDFS分布式文件系统 14 1.11 Hadoop MapReduce的介绍 17 1.12 结论 18 第2章 VirtualBox虚拟机软件的安装 19 2.1 VirtualBox的下载和安装 20 2.2 设置VirtualBox存储文件夹 23 2.3 在VirtualBox创建虚拟机 25 2.4 结论 29 第3章 Ubuntu Linux 操作系统的安装 30 3.1 Ubuntu Linux 操作系统的安装 31 3.2 在Virtual设置Ubuntu虚拟光盘文件 33 3.3 开始安装Ubuntu 35 3.4 启动Ubuntu 40 3.5 安装增强功能 41 3.6 设置默认输入法 45 3.7 设置“终端”程序 48 3.8 设置“终端”程序为白底黑字 49 3.9 设置共享剪贴板 50 3.10 设置最佳下载服务器 52 3.11 结论 56 第4章 Hadoop Single Node Cluster的安装 57 4.1 安装JDK 58 4.2 设置SSH无密码登录 61 4.3 下载安装Hadoop 64 4.4 设置Hadoop环境变量 67 4.5 修改Hadoop配置设置文件 69 4.6 创建并格式化HDFS目录 73 4.7 启动Hadoop 74 4.8 打开HadoopResource-Manager Web界面 76 4.9 NameNode HDFS Web界面 78 4.10 结论 79 第5章 Hadoop Multi Node Cluster的安装 80 5.1 把Single NodeCluster复制到data1 83 5.2 设置VirtualBox网卡 84 5.3 设置data1服务器 87 5.4 复制data1服务器到data2、data3、master 94 5.5 设置data2服务器 97 5.6 设置data3服务器 100 5.7 设置master服务器 102 5.8 master连接到data1、data2、data3 创建HDFS目录 107 5.9 创建并格式化NameNodeHDFS目录 110 5.10 启动Hadoop Multi Node Cluster 112 5.11 打开Hadoop ResourceManager Web界面 114 5.12 打开NameNode Web界面 115 5.13 停止Hadoop Multi Node Cluster 116 5.14 结论 116 第 6 章 Hadoop HDFS命令 117 6.1 启动HadoopMulti-Node Cluster 118 6.2 创建与查看HDFS目录 120 6.3 从本地计算机复制文件到HDFS 122 6.4 将HDFS上的文件复制到本地计算机 127 6.5 复制与删除HDFS文件 129 6.6 在Hadoop HDFSWeb用户界面浏览HDFS 131 6.7 结论 134 第7章 Hadoop MapReduce 135 7.1 简单介绍WordCount.java 136 7.2 编辑WordCount.java 137 7.3 编译WordCount.java 141 7.4 创建测试文本文件 143 7.5 运行WordCount.java 145 7.6 查看运行结果 146 7.7 结论 147 第8章 Python Spark的介绍与安装 148 8.1 Scala的介绍与安装 150 8.2 安装Spark 153 8.3 启动pyspark交互式界面 156 8.4 设置pyspark显示信息 157 8.5 创建测试用的文本文件 159 8.6 本地运行pyspark程序 161 8.7 在Hadoop YARN运行pyspark 163 8.8 构建SparkStandalone Cluster运行环境 165 8.9 在SparkStandalone运行pyspark 171 8.10 Spark Web UI界面 173 8.11 结论 175 第9章在 IPythonNotebook 运行 Python Spark 程序 176 9.1 安装Anaconda 177 9.2 在IPythonNotebook使用Spark 180 9.3 打开IPythonNotebook笔记本 184 9.4 插入程序单元格 185 9.5 加入注释与设置程序代码说明标题 186 9.6 关闭IPythonNotebook 188 9.7 使用IPythonNotebook在Hadoop YARN-client模式运行 189 9.8 使用IPythonNotebook在Spark Stand Alone模式运行 192 9.9 整理在不同的模式运行IPythonNotebook的命令 194 9.9.1 在 Local 启动 IPython Notebook 195 9.9.2 在Hadoop YARN-client 模式启动 IPython Notebook 195 9.9.3 在Spark Stand Alone 模式启动 IPython Notebook 195 9.10 结论 196 第10章 Python Spark RDD 197 10.1 RDD的特性 198 10.2 开启IPython Notebook 199 10.3 基本RDD“转换”运算 201 10.4 多个RDD“转换”运算 206 10.5 基本“动作”运算 208 10.6 RDD Key-Value 基本“转换”运算 209 10.7 多个RDD Key-Value“转换”运算 212 10.8 Key-Value“动作”运算 215 10.9 Broadcast 广播变量 217 10.10 accumulator累加器 220 10.11 RDD Persistence持久化 221 10.12 使用Spark创建WordCount 223 10.13 Spark WordCount详细解说 226 10.14 结论 228 第11章 Python Spark的集成开发环境 229 11.1 下载与安装eclipse Scala IDE 232 11.2 安装PyDev 235 11.3 设置字符串替代变量 240 11.4 PyDev 设置 Python 链接库 243 11.5 PyDev设置anaconda2链接库路径 245 11.6 PyDev设置Spark Python链接库 247 11.7 PyDev设置环境变量 248 11.8 新建PyDev项目 251 11.9 加入WordCount.py程序 253 11.10 输入WordCount.py程序 254 11.11 创建测试文件并上传至HDFS目录 257 11.12 使用spark-submit执行WordCount程序 259 11.13 在Hadoop YARN-client上运行WordCount程序 261 11.14 在Spark Standalone Cluster上运行WordCount程序 264 11.15 在eclipse外部工具运行Python Spark程序 267 11.16 在eclipse运行spark-submit YARN-client 273 11.17 在eclipse运行spark-submit Standalone 277 11.18 结论 280 第12章 Python Spark创建推荐引擎 281 12.1 推荐算法介绍 282 12.2 “推荐引擎”大数据分析使用场景 282 12.3 ALS推荐算法的介绍 283 12.4 如何搜索数据 285 12.5 启动IPython Notebook 289 12.6 如何准备数据 290 12.7 如何训练模型 294 12.8 如何使用模型进行推荐 295 12.9 显示推荐的电影名称 297 12.10 创建Recommend项目 299 12.11 运行RecommendTrain.py 推荐程序代码 302 12.12 创建Recommend.py推荐程序代码 304 12.13 在eclipse运行Recommend.py 307 12.14 结论 310 第13章 Python Spark MLlib决策树二元分类 311 13.1 决策树介绍 312 13.2 “StumbleUpon Evergreen”大数据问题 313 13.2.1 Kaggle网站介绍 313 13.2.2 “StumbleUpon Evergreen”大数据问题场景分析 313 13.3 决策树二元分类机器学习 314 13.4 如何搜集数据 315 13.4.1 StumbleUpon数据内容 315 13.4.2 下载 StumbleUpon 数据 316 13.4.3 用LibreOffice Calc 电子表格查看train.tsv 319 13.4.4 复制到项目目录 322 13.5 使用IPython Notebook示范 323 13.6 如何进行数据准备 324 13.6.1 导入并转换数据 324 13.6.2 提取 feature 特征字段 327 13.6.3 提取分类特征字段 328 13.6.4 提取数值特征字段 331 13.6.5 返回特征字段 331 13.6.6 提取 label 标签字段 331 13.6.7 建立训练评估所需的数据 332 13.6.8 以随机方式将数据分为 3 部分并返回 333 13.6.9 编写 PrepareData(sc) 函数 333 13.7 如何训练模型 334 13.8 如何使用模型进行预测 335 13.9 如何评估模型的准确率 338 13.9.1 使用 AUC 评估二元分类模型 338 13.9.2 计算 AUC 339 13.10 模型的训练参数如何影响准确率 341 13.10.1 建立 trainEvaluateModel 341 13.10.2 评估impurity参数 343 13.10.3 训练评估的结果以图表显示 344 13.10.4 编写 evalParameter 347 13.10.5 使用 evalParameter 评估 maxDepth 参数 347 13.10.6 使用 evalParameter 评估 maxBins 参数 348 13.11 如何找出准确率最高的参数组合 349 13.12 如何确认是否过度训练 352 13.13 编写RunDecisionTreeBinary.py程序 352 13.14 开始输入RunDecisionTreeBinary.py程序 353 13.15 运行RunDecisionTreeBinary.py 355 13.15.1 执行参数评估 355 13.15.2 所有参数训练评估找出最好的参数组合 355 13.15.3 运行 RunDecisionTreeBinary.py 不要输入参数 357 13.16 查看DecisionTree的分类规则 358 13.17 结论 360 第14章 Python Spark MLlib 逻辑回归二元分类 361 14.1 逻辑回归分析介绍 362 14.2 RunLogisticRegression WithSGDBinary.py程序说明 363 14.3 运行RunLogisticRegression WithSGDBinary.py进行参数评估 367 14.4 找出最佳参数组合 370 14.5 修改程序使用参数进行预测 370 14.6 结论 372 第15章 Python Spark MLlib支持向量机SVM二元分类 373 15.1 支持向量机SVM算法的基本概念 374 15.2 运行SVMWithSGD.py进行参数评估 376 15.3 运行SVMWithSGD.py 训练评估参数并找出最佳参数组合 378 15.4 运行SVMWithSGD.py 使用最佳参数进行预测 379 15.5 结论 381 第16章 Python Spark MLlib朴素贝叶斯二元分类 382 16.1 朴素贝叶斯分析原理的介绍 383 16.2 RunNaiveBayesBinary.py程序说明 384 16.3 运行NaiveBayes.py进行参数评估 386 16.4 运行训练评估并找出最好的参数组合 387 16.5 修改RunNaiveBayesBinary.py 直接使用最佳参数进行预测 388 16.6 结论 390 第17章 Python Spark MLlib决策树多元分类 391 17.1 “森林覆盖植被”大数据问题分析场景 392 17.2 UCI Covertype数据集介绍 393 17.3 下载与查看数据 394 17.4 修改PrepareData() 数据准备 396 17.5 修改trainModel 训练模型程序 398 17.6 使用训练完成的模型预测数据 399 17.7 运行RunDecisionTreeMulti.py 进行参数评估 401 17.8 运行RunDecisionTreeMulti.py 训练评估参数并找出最好的参数组合 403 17.9 运行RunDecisionTreeMulti.py 不进行训练评估 404 17.10 结论 406 第18章 Python Spark MLlib决策树回归分析 407 18.1 Bike Sharing大数据问题分析 408 18.2 Bike Sharing数据集 409 18.3 下载与查看数据 409 18.4 修改 PrepareData() 数据准备 412 18.5 修改DecisionTree.trainRegressor训练模型 415 18.6 以 RMSE 评估模型准确率 416 18.7 训练评估找出最好的参数组合 417 18.8 使用训练完成的模型预测数据 417 18.9 运行RunDecisionTreeMulti.py进行参数评估 419 18.10 运行RunDecisionTreeMulti.py训练评估参数并找出最好的参数组合 421 18.11 运行RunDecisionTreeMulti.py 不进行训练评估 422 18.12 结论 424 第19章 Python Spark SQL、DataFrame、RDD数据统计与可视化 425 19.1 RDD、DataFrame、Spark SQL 比较 426 19.2 创建RDD、DataFrame与Spark SQL 427 19.2.1 在 local 模式运行 IPython Notebook 427 19.2.2 创建RDD 427 19.2.3 创建DataFrame 428 19.2.4 设置 IPython Notebook 字体 430 19.2.5 为DataFrame 创建别名 431 19.2.6 开始使用 Spark SQL 431 19.3 SELECT显示部分字段 434 19.3.1 使用 RDD 选取显示部分字段 434 19.3.2 使用 DataFrames 选取显示字段 434 19.3.3 使用 Spark SQL 选取显示字段 435 19.4 增加计算字段 436 19.4.1 使用 RDD 增加计算字段 436 19.4.2 使用 DataFrames 增加计算字段 436 19.4.3 使用 Spark SQL 增加计算字段 437 19.5 筛选数据 438 19.5.1 使用 RDD 筛选数据 438 19.5.2 使用 DataFrames 筛选数据 438 19.5.3 使用 Spark SQL 筛选数据 439 19.6 按单个字段给数据排序 439 19.6.1 RDD 按单个字段给数据排序 439 19.6.2 使用 Spark SQL排序 440 19.6.3 使用 DataFrames按升序给数据排序 441 19.6.4 使用 DataFrames按降序给数据排序 442 19.7 按多个字段给数据排序 442 19.7.1 RDD 按多个字段给数据排序 442 19.7.2 Spark SQL 按多个字段给数据排序 443 19.7.3 DataFrames 按多个字段给数据排序 443 19.8 显示不重复的数据 444 19.8.1 RDD 显示不重复的数据 444 19.8.2 Spark SQL 显示不重复的数据 445 19.8.3 Dataframes显示不重复的数据 445 19.9 分组统计数据 446 19.9.1 RDD 分组统计数据 446 19.9.2 Spark SQL分组统计数据 447 19.9.3 Dataframes分组统计数据 448 19.10 Join 联接数据 450 19.10.1 创建 ZipCode 450 19.10.2 创建 zipcode_tab 452 19.10.3 Spark SQL 联接 zipcode_table 数据表 454 19.10.4 DataFrame user_df 联接 zipcode_df 455 19.11 使用 Pandas DataFrames 绘图 457 19.11.1 按照不同的州统计并以直方图显示 457 19.11.2 按照不同的职业统计人数并以圆饼图显示 459 19.12 结论 461 第20章 Spark ML Pipeline 机器学习流程二元分类 462 20.1 数据准备 464 20.1.1 在 local 模式执行 IPython Notebook 464 20.1.2 编写 DataFrames UDF 用户自定义函数 466 20.1.3 将数据分成 train_df 与 test_df 468 20.2 机器学习pipeline流程的组件 468 20.2.1 StringIndexer 468 20.2.2 OneHotEncoder 470 20.2.3 VectorAssembler 472 20.2.4 使用 DecisionTreeClassi?er 二元分类 474 20.3 建立机器学习pipeline流程 475 20.4 使用pipeline进行数据处理与训练 476 20.5 使用pipelineModel 进行预测 477 20.6 评估模型的准确率 478 20.7 使用TrainValidation进行训练验证找出最佳模型 479 20.8 使用crossValidation交叉验证找出最佳模型 481 20.9 使用随机森林 RandomForestClassi?er分类器 483 20.10 结论 485 第21章 Spark ML Pipeline 机器学习流程多元分类 486 21.1 数据准备 487 21.1.1 读取文本文件 488 21.1.2 创建 DataFrame 489 21.1.3 转换为 double 490 21.2 建立机器学习pipeline流程 492 21.3 使用dt_pipeline进行数据处理与训练 493 21.4 使用pipelineModel 进行预测 493 21.5 评估模型的准确率 495 21.4 使用TrainValidation进行训练验证找出最佳模型 496 21.7 结论 498 第22章 Spark ML Pipeline 机器学习流程回归分析 499 22.1 数据准备 501 22.1.1 在local 模式执行 IPython Notebook 501 22.1.2 将数据分成 train_df 与 test_df 504 22.2 建立机器学习pipeline流程 504 22.3 使用dt_pipeline进行数据处理与训练 506 22.4 使用pipelineModel 进行预测 506 22.5 评估模型的准确率 507 22.6 使用TrainValidation进行训练验证找出最佳模型 508 22.7 使用crossValidation进行交叉验证找出最佳模型 510 22.8 使用GBT Regression 511 22.9 结论 513 附录A 本书范例程序下载与安装说明 514 A.1 下载范例程序 515 A.2 打开本书IPythonNotebook范例程序 516 A.3 打开 eclipsePythonProject 范例程序 518

2018-08-08

精通数据科学_从线性回归到深度学习_试读样章

本书是全面讲解了数据科学的相关知识，从数学统计学，讲到机器学习、深度学习中用到的算法及模型，借鉴经济学视角给出模型的相关解释，深入探讨模型的可用性，并结合大量的实际案例和代码帮助读者学以致用，将具体的应用场景和现有的模型相结合，从而更好地发现模型的潜在应用场景。版权内容提要序一序二前言资源与支持第1章　数据科学概述第2章　Python安装指南与简介：告别空谈第3章　数学基础：恼人但又不可或缺的知识第4章　线性回归：模型之母第5章　逻辑回归：隐藏因子第6章　工程实现：计算机是怎么算的第7章　计量经济学的启示：他山之石第8章　监督式学习：目标明确第9章　生成式模型：量化信息的价值第10章　非监督式学习：聚类与降维第11章　分布式机器学习：集体力量第12章　神经网络：模拟人的大脑第13章　深度学习：继续探索

2018-05-09

全栈应用开发精益实践（完整版带书签）

内容简介 · · · · · · 这不是一本深入前端、后台、运维、设计、分析等各个领域的书籍。《全栈应用开发：精益实践》以实践的方式，将这一系列的领域及理论知识结合到一起，来帮助读者构建全栈Web开发的知识体系，并辅以精益及敏捷的思想，来一步步开发Web应用：从创建一个UI原型到编写出静态的前端页面；从静态的前端页面到带后台的应用，并部署应用；从Web后台开发API到开发移动Web应用。在这个过程中，我们还将介绍一些相辅相成的步骤：使用构建系统来加速Web应用的开发；为应用添加数据分析工具来改进产品；使用分析工具来改善应用的性能；通过自动化部署来加快上线流程；从而帮助读者开发出一个真正可用的全栈Web应用。同时，我们也将帮助读者把这些步骤应用到现有的系统上，改进现有系统的开发流程。目录 · · · · · · 第 0章绪论： Web应用开发周期 1 0.1 Web应用的生命周期 2 0.2 遗留系统与新架构 3 0.3 技术选型与验证 4 0.4 搭建构建系统 5 0.5 迭代 6 0.6 Web应用开发步骤 7 0.7 小结 9 第 1部分准备阶段第 1章基础知识 12 1.1 搭建开发环境 13 1.1.1 基本要素 13 1.1.2 常用效率工具及其在不同操作系统下的安装 14 1.1.3 搭建开发环境 22 1.1.4 开发工具 23 1.2 版本控制 27 1.2.1 Git初入 28 1.2.2 Git工作流 30 1.3 任务拆分 32 1.3.1 一本书的任务拆分 32 1.3.2 一个功能的任务拆分 33 1.4 小结. 35 第 2章最小可行化应用36 2.1 最小可行化产品 37 2.2 最小可行化 Web应用 41 2.2.1 使用 Bootstrap模板 41 2.2.2 完善原型 46 2.2.3 简单上线 47 2.3 精益与敏捷软件开发 52 2.3.1 敏捷软件开发 52 2.3.2 精益 56 2.4 小结. 58 第 3章技术选型与业务59 3.1 技术选型 61 3.1.1 后端选型 63 3.1.2 数据持久化 67 3.1.3 前端选型： UI框架 71 3.2 Django 72 3.2.1 Django简介 72 3.2.2 安装 Django 74 3.2.3 创建项目 77 3.3 从真实世界到代码 83 3.3.1 模型、领域、抽象 84 3.3.2 前后端分离 88 3.4 小结. 90 第 4章构建系统及其工作流 92 4.1 构建流 93 4.1.1 搭建开发环境 96 4.1.2 准备生产环境 98 4.2 打造后端构建系统 100 4.2.1 使用 Fabric搭建构建系统 101 4.2.2 软件包管理 107 4.3 小结109 第 2部分编码到上线第 5章编码 112 5.1 创建首页应用114 5.1.1 生成首页应用 115 5.1.2 编写第一个测试 122 5.1.3 使用 Selenium进行功能测试124 5.1.4 如何编写测试 128 5.2 创建博客应用134 5.2.1 创建应用与博客管理134 5.2.2 在页面上显示博客141 5.3 数据与 Web应用开发150 5.3.1 管理数据151 5.3.2 显示数据151 5.4 小结152 第 6章上线 155 6.1 手动部署 156 6.1.1 操作系统与服务器软件 157 6.1.2 第一次部署应用 162 6.1.3 配置管理176 6.2 自动化部署178 6.2.1 使用 Fabric自动化部署 179 6.2.2 探索更优雅的方案185 6.3 隔离与运行环境 187 6.4 小结199 第 7章数据分析和性能优化 200 7.1 网站监测与分析 203 7.1.1 Google Analytics203 7.1.2 自建监测和分析服务212 7.2 性能分析及优化 214 7.2.1 前端优化：用 PageSpeed工具分析和优化 215 7.2.2 后台优化：使用应用性能管理工具223 7.2.3 使用 New Relic进行优化225 7.2.4 缓存初入230 7.3 小结234 第 8章持续集成与持续交付 236 8.1 持续集成与 Jenkins237 8.1.1 工具选择与 Pipeline设计 239 8.1.2 Jenkins搭建持续集成 244 8.1.3 使用 Jenkinsfile简化流程 252 8.2 持续交付与持续部署初探255 8.2.1 持续交付256 8.2.2 持续部署初探 260 8.3 小结261 第 9章移动 Web与混合应用263 9.1 移动 Web与单页面应用 264 9.1.1 单页面应用入门 266 9.1.2 API设计与框架选型272 9.2 创建移动应用277 9.2.1 使用 Ionic 2创建应用 278 9.2.2 更新首页293 9.3 实现博客应用开发 297 9.3.1 创建博客 API297 9.3.2 创建详情页和列表页302 9.4 用户登录与博客创建 309 9.4.1 使用 JWT实现登录 310 9.4.2 测试和发布应用 323 9.5 小结325 第 3部分增量性优化第 10章遗留代码与重构 328 10.1遗留系统 330 10.1.1 什么是遗留系统 330 10.1.2 遗留系统改造334 10.2易读的代码与重构336 10.2.1 命名337 10.2.2 一次只做一件事 339 10.2.3 减少重复代码340 10.2.3 排版342 10.2.4 重构343 10.3小结346 第 11章增长与新架构348 11.1增长350 11.1.1增长：回顾与改变 350 11.1.2增长：技能学习与构建索引354 11.2设计新架构 357 11.3小结363 附录附录 A如何学习新的技术 366 附录 B 安装 Piwik 372

2018-04-19

大数据技术原理与应用:概念、存储、处理、分析与应用(第2版)

编辑推荐 1.作者建设了国内高校首个大数据课程教师培训交流基地，打造了中国高校大数据教学知名品牌，已经在国内高校形成了广泛的影响力。 2.作者建设了国内高校首个大数据课程公共服务平台，为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、实验指南、技术资料、授课视频等，资源丰富。作者简介林子雨,北大博士，厦门大学计算机科学系老师，中国高校首个"数字教师"的提出者和建设者。在数据库、数据仓库、数据挖掘、大数据、云计算和物联网等领域有着十多年的知识积累，对各个领域知识都有比较深入的了解，有比较宽泛的视野。目录第一篇大数据基础第1章大数据概述 2 1.1 大数据时代 2 1.1.1 第三次信息化浪潮 2 1.1.2 信息科技为大数据时代提供技术支撑 3 1.1.3 数据产生方式的变革促成大数据时代的来临 5 1.1.4 大数据的发展历程 6 1.2 大数据的概念 7 1.2.1 数据量大 7 1.2.2 数据类型繁多 8 1.2.3 处理速度快 9 1.2.4 价值密度低 9 1.3 大数据的影响 9 1.3.1 大数据对科学研究的影响 10 1.3.2 大数据对思维方式的影响 11 1.3.3 大数据对社会发展的影响 11 1.3.4 大数据对就业市场的影响 12 1.3.5 大数据对人才培养的影响 13 1.4 大数据的应用 14 1.5 大数据关键技术 14 1.6 大数据计算模式 15 1.6.1 批处理计算 16 1.6.2 流计算 16 1.6.3 图计算 16 1.6.4 查询分析计算 17 1.7 大数据产业 17 1.8 大数据与云计算、物联网 18 1.8.1 云计算 18 1.8.2 物联网 21 1.8.3 大数据与云计算、物联网的关系 25 1.9 本章小结 26 1.10 习题 26 第2章大数据处理架构Hadoop 28 2.1 概述 28 2.1.1 Hadoop简介 28 2.1.2 Hadoop的发展简史 28 2.1.3 Hadoop的特性 29 2.1.4 Hadoop的应用现状 29 2.1.5 Hadoop的版本 30 2.2 Hadoop生态系统 30 2.2.1 HDFS 31 2.2.2 HBase 31 2.2.3 MapReduce 31 2.2.4 Hive 32 2.2.5 Pig 32 2.2.6 Mahout 32 2.2.7 Zookeeper 32 2.2.8 Flume 32 2.2.9 Sqoop 32 2.2.10 Ambari 33 2.3 Hadoop的安装与使用 33 2.3.1 创建Hadoop用户 33 2.3.2 Java的安装 34 2.3.3 SSH登录权限设置 34 2.3.4 安装单机Hadoop 34 2.3.5 Hadoop伪分布式安装 35 2.4 本章小结 37 2.5 习题 38 实验1 安装Hadoop 38 第二篇大数据存储与管理第3章分布式文件系统HDFS 42 3.1 分布式文件系统 42 3.1.1 计算机集群结构 42 3.1.2 分布式文件系统的结构 43 3.1.3 分布式文件系统的设计需求 44 3.2 HDFS简介 44 3.3 HDFS的相关概念 45 3.3.1 块 45 3.3.2 名称节点和数据节点 46 3.3.3 第二名称节点 47 3.4 HDFS体系结构 48 3.4.1 概述 48 3.4.2 HDFS命名空间管理 49 3.4.3 通信协议 49 3.4.4 客户端 50 3.4.5 HDFS体系结构的局限性 50 3.5 HDFS的存储原理 50 3.5.1 数据的冗余存储 50 3.5.2 数据存取策略 51 3.5.3 数据错误与恢复 52 3.6 HDFS的数据读写过程 53 3.6.1 读数据的过程 53 3.6.2 写数据的过程 54 3.7 HDFS编程实践 55 3.7.1 HDFS常用命令 55 3.7.2 HDFS的Web界面 56 3.7.3 HDFS常用JavaAPI及应用实例 57 3.8 本章小结 60 3.9 习题 61 实验2 熟悉常用的HDFS操作 61 第4章分布式数据库HBase 63 4.1 概述 63 4.1.1 从BigTable说起 63 4.1.2 HBase简介 63 4.1.3 HBase与传统关系数据库的对比分析 64 4.2 HBase访问接口 65 4.3 HBase数据模型 66 4.3.1 数据模型概述 66 4.3.2 数据模型的相关概念 66 4.3.3 数据坐标 67 4.3.4 概念视图 68 4.3.5 物理视图 69 4.3.6 面向列的存储 69 4.4 HBase的实现原理 71 4.4.1 HBase的功能组件 71 4.4.2 表和Region 71 4.4.3 Region的定位 72 4.5 HBase运行机制 74 4.5.1 HBase系统架构 74 4.5.2 Region服务器的工作原理 76 4.5.3 Store的工作原理 77 4.5.4 HLog的工作原理 77 4.6 HBase编程实践 78 4.6.1 HBase常用的Shell命令 78 4.6.2 HBase常用的JavaAPI及应用实例 80 4.7 本章小结 90 4.8 习题 90 实验3 熟悉常用的HBase操作 91 第5章 NoSQL数据库 94 5.1 NoSQL简介 94 5.2 NoSQL兴起的原因 95 5.2.1 关系数据库无法满足Web 2.0的需求 95 5.2.2 关系数据库的关键特性在Web2.0时代成为“鸡肋” 96 5.3 NoSQL与关系数据库的比较 97 5.4 NoSQL的四大类型 98 5.4.1 键值数据库 99 5.4.2 列族数据库 100 5.4.3 文档数据库 100 5.4.4 图数据库 101 5.5 NoSQL的三大基石 101 5.5.1 CAP 101 5.5.2 BASE 103 5.5.3 最终一致性 104 5.6 从NoSQL到NewSQL数据库 105 5.7 本章小结 107 5.8 习题 107 第6章云数据库 108 6.1 云数据库概述 108 6.1.1 云计算是云数据库兴起的基础 108 6.1.2 云数据库的概念 109 6.1.3 云数据库的特性 110 6.1.4 云数据库是个性化数据存储需求的理想选择 111 6.1.5 云数据库与其他数据库的关系 112 6.2 云数据库产品 113 6.2.1 云数据库厂商概述 113 6.2.2 Amazon的云数据库产品 113 6.2.3 Google的云数据库产品 114 6.2.4 微软的云数据库产品 114 6.2.5 其他云数据库产品 115 6.3 云数据库系统架构 115 6.3.1 UMP系统概述 115 6.3.2 UMP系统架构 116 6.3.3 UMP系统功能 118 6.4 云数据库实践 121 6.4.1 阿里云RDS简介 121 6.4.2 RDS中的概念 121 6.4.3 购买和使用RDS数据库 122 6.4.4 将本地数据库迁移到云端RDS数据库 126 6.5 本章小结 127 6.6 习题 127 实验4 熟练使用RDSforMySQL数据库 128 第三篇大数据处理与分析第7章 MapReduce 132 7.1 概述 132 7.1.1 分布式并行编程 132 7.1.2 MapReduce模型简介 133 7.1.3 Map和Reduce函数 133 7.2 MapReduce的工作流程 134 7.2.1 工作流程概述 134 7.2.2 MapReduce的各个执行阶段 135 7.2.3 Shuffle过程详解 136 7.3 实例分析：WordCount 139 7.3.1 WordCount的程序任务 139 7.3.2 WordCount的设计思路 139 7.3.3 WordCount的具体执行过程 140 7.3.4 一个WordCount执行过程的实例 141 7.4 MapReduce的具体应用 142 7.4.1 MapReduce在关系代数运算中的应用 142 7.4.2 分组与聚合运算 144 7.4.3 矩阵—向量乘法 144 7.4.4 矩阵乘法 144 7.5 MapReduce编程实践 145 7.5.1 任务要求 145 7.5.2 编写Map处理逻辑 146 7.5.3 编写Reduce处理逻辑 147 7.5.4 编写main方法 147 7.5.5 编译打包代码以及运行程序 148 7.6 本章小结 150 7.7 习题 151 实验5 MapReduce编程初级实践 152 第8章 Hadoop再探讨 155 8.1 Hadoop的优化与发展 155 8.1.1 Hadoop的局限与不足 155 8.1.2 针对Hadoop的改进与提升 156 8.2 HDFS2.0的新特性 156 8.2.1 HDFSHA 157 8.2.2 HDFS联邦 158 8.3 新一代资源管理调度框架YARN 159 8.3.1 MapReduce1.0的缺陷 159 8.3.2 YARN设计思路 160 8.3.3 YARN体系结构 161 8.3.4 YARN工作流程 163 8.3.5 YARN框架与MapReduce1.0框架的对比分析 164 8.3.6 YARN的发展目标 165 8.4 Hadoop生态系统中具有代表性的功能组件 166 8.4.1 Pig 166 8.4.2 Tez 167 8.4.3 Kafka 169 8.5 本章小结 170 8.6 习题 170 第9章 Spark 172 9.1 概述 172 9.1.1 Spark简介 172 9.1.2 Scala简介 173 9.1.3 Spark与Hadoop的对比 174 9.2 Spark生态系统 175 9.3 Spark运行架构 177 9.3.1 基本概念 177 9.3.2 架构设计 177 9.3.3 Spark运行基本流程 178 9.3.4 RDD的设计与运行原理 179 9.4 Spark的部署和应用方式 184 9.4.1 Spark三种部署方式 184 9.4.2 从“Hadoop+Storm”架构转向Spark架构 185 9.4.3 Hadoop和Spark的统一部署 186 9.5 Spark编程实践 186 9.5.1 启动SparkShell 187 9.5.2 SparkRDD基本操作 187 9.5.3 Spark应用程序 189 9.6 本章小结 192 9.7 习题 193 第10章流计算 194 10.1 流计算概述 194 10.1.1 静态数据和流数据 194 10.1.2 批量计算和实时计算 195 10.1.3 流计算的概念 196 10.1.4 流计算与Hadoop 196 10.1.5 流计算框架 197 10.2 流计算的处理流程 197 10.2.1 概述 197 10.2.2 数据实时采集 198 10.2.3 数据实时计算 198 10.2.4 实时查询服务 199 10.3 流计算的应用 199 10.3.1 应用场景1：实时分析 199 10.3.2 应用场景2：实时交通 200 10.4 开源流计算框架Storm 200 10.4.1 Storm简介 201 10.4.2 Storm的特点 201 10.4.3 Storm的设计思想 202 10.4.4 Storm的框架设计 203 10.4.5 Storm实例 204 10.5 SparkStreaming 206 10.5.1 SparkStreaming设计 206 10.5.2 SparkStreaming与Storm的对比 207 10.6 本章小结 208 10.7 习题 208 第11章图计算 210 11.1 图计算简介 210 11.1.1 传统图计算解决方案的不足之处 210 11.1.2 图计算通用软件 211 11.2 Pregel简介 211 11.3 Pregel图计算模型 212 11.3.1 有向图和顶点 212 11.3.2 顶点之间的消息传递 212 11.3.3 Pregel的计算过程 213 11.3.4 实例 214 11.4 Pregel的C++API 216 11.4.1 消息传递机制 217 11.4.2 Combiner 217 11.4.3 Aggregator 218 11.4.4 拓扑改变 218 11.4.5 输入和输出 218 11.5 Pregel的体系结构 219 11.5.1 Pregel的执行过程 219 11.5.2 容错性 220 11.5.3 Worker 221 11.5.4 Master 221 11.5.5 Aggregator 222 11.6 Pregel的应用实例 222 11.6.1 单源最短路径 222 11.6.2 二分匹配 223 11.7 Pregel和MapReduce实现PageRank算法的对比 224 11.7.1 PageRank算法 224 11.7.2 PageRank算法在Pregel中的实现 225 11.7.3 PageRank算法在MapReduce中的实现 225 11.7.4 PageRank算法在Pregel和MapReduce中实现的比较 228 11.8 本章小结 228 11.9 习题 228 …… 第12章数据可视化 230 第四篇大数据应用第13章大数据在互联网领域的应用 242 第14章大数据在生物医学领域的应用 252 第15章大数据的其他应用 262 参考文献 285

2018-01-15

Spark最佳实践

本书是Spark实战指南，全书共分8章。前4章介绍Spark的部署、工作机制和内核，后4章分别通过实战项目介绍Spark SQL、Spark Streaming、Spark GraphX和Spark MLib功能模块。此外，本书详细介绍了常见的实战问题，比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本，更能为初学者提供很大帮助。

2017-12-17

MySQL技术内幕 SQL编程.姜承尧.扫描版

本书是畅销书《MySQL技术内幕：InnoDB存储引擎》的姊妹篇，深刻揭示了MySQL中SQL编程的精髓与奥秘，能为开发者和DBA们利用SQL语言解决各种与开发和管理相关的MySQL难题提供很好的指导和帮助。全书一共10章，全面探讨了MySQL中SQL编程的各种方法、技巧与最佳实践。第1章首先介绍了SQL编程的概念、数据库的应用类型以及SQL查询分析器，然后介绍了SQL编程的三个阶段，希望读者通过本书的学习能达到最后的融合阶段。第2章全面讲解了MySQL中的各种数据类型和与之相对应的各种编程问题。第3章深入探讨了逻辑查询与物理查询的原理与方法。第4章的主题是子查询，不仅讲解了各种常用的子查询方法及其优化，而且还讲解了MariaDB对子查询的优化。第5章首先详细地分析了MySQL中的各种联接及其内部的实现算法，以及MariaDB数据库中引入的Hash Join，然后针对关于集合的各种操作给出了解决方案。第6章分享了聚合和旋转操作的方法与技巧，并对一些经典的常见问题给出了解决方案。第7章深入阐述了游标的使用，重点在于如何通过正确地使用游标来提高SQL编程的效率。第8章讲解了关于事务的各种编程技巧，同时对事务的分类进行了详细阐述。第9章详细分析了各种索引的内部实现，探讨了如何使用索引来提升查询效率。第10章介绍了分区的方法与技巧，阐明了如何通过分区来进行SQL编程。无论你是开发人员还是DBA，无论你是需要一本SQL查询手册还是希望系统深入地学习SQL编程，本书都会是不错的选择。

2017-12-09

MySQL技术内幕 InnoDB存储引擎第2版.pdf

《MySQL技术内幕:InnoDB存储引擎(第2版)》由国内资深MySQL专家亲自执笔，国内外多位数据库专家联袂推荐。作为国内唯一一本关于InnoDB的专著，《MySQL技术内幕:InnoDB存储引擎(第2版)》的第1版广受好评，第2版不仅针对最新的MySQL 5.6对相关内容进行了全面的补充，还根据广大读者的反馈意见对第1版中存在的不足进行了完善，《MySQL技术内幕:InnoDB存储引擎(第2版)》大约重写了50％的内容。《MySQL技术内幕:InnoDB存储引擎(第2版)》从源代码的角度深度解析了InnoDB的体系结构、实现原理、工作机制，并给出了大量最佳实践，能帮助你系统而深入地掌握InnoDB，更重要的是，它能为你设计管理高性能、高可用的数据库系统提供绝佳的指导。《MySQL技术内幕:InnoDB存储引擎(第2版)》一共10章，首先宏观地介绍了MySQL的体系结构和各种常见的存储引擎以及它们之间的比较；接着以InnoDB的内部实现为切入点，逐一详细讲解了InnoDB存储引擎内部的各个功能模块的实现原理，包括InnoDB存储引擎的体系结构、内存中的数据结构、基于InnoDB存储引擎的表和页的物理存储、索引与算法、文件、锁、事务、备份与恢复，以及InnoDB的性能调优等重要的知识；最后对InnoDB存储引擎源代码的编译和调试做了介绍，对大家阅读和理解InnoDB的源代码有重要的指导意义。《MySQL技术内幕:InnoDB存储引擎(第2版)》适合所有希望构建和管理高性能、高可用性的MySQL数据库系统的开发者和DBA阅读。

2017-12-09

集体智慧编程_13705871_（美）TobySegaran著_2015.03.pdf

《集体智慧编程》以机器学习与计算统计为主题背景，专门讲述如何挖掘和分析Web 上的数据和资源，如何分析用户体验、市场营销、个人品味等诸多信息，并得出有用的结论，通过复杂的算法来从Web 网站获取、收集并分析用户的数据和反馈信息，以便创造新的用户价值和商业价值。全书内容翔实，包括协作过滤技术（实现关联产品推荐功能）、集群数据分析（在大规模数据集中发掘相似的数据子集）、搜索引擎核心技术（爬虫、索引、查询引擎、PageRank算法等）、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术（垃圾邮件过滤、文本过滤）、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。《集体智慧编程》是Web 开发者、架构师、应用工程师等的绝佳选择。

2017-12-09

实用机器学习

大数据时代为机器学习的应用提供了广阔的空间，各行各业涉及数据分析的工作都需要使用机器学习算法。本书围绕实际数据分析的流程展开，着重介绍数据探索、数据预处理和常用的机器学习算法模型。本书从解决实际问题的角度出发，介绍回归算法、分类算法、推荐算法、排序算法和集成学习算法。在介绍每种机器学习算法模型时，书中不但阐述基本原理，而且讨论模型的评价与选择。为方便读者学习各种算法，本书介绍了R语言中相应的软件包并给出了示例程序。, 本书的最大特色就是贴近工程实践。首先，本书仅侧重介绍当前工业界最常用的机器学习算法，而不追求知识内容的覆盖面；其次，本书在介绍每类机器学习算法时，力求通俗易懂地阐述算法思想，而不追求理论的深度，让读者借助代码获得直观的体验。, 本书适合需要应用机器学习算法解决实际问题的工程技术人员阅读，也可作为相关专业高年级本科生或研究生的入门教材或课外读物。

2017-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Python+Spark 2.0+Hadoop机器学习与大数据实战_林大贵(著) 清华大学出版社(完整高清 带书签)

精通数据科学_从线性回归到深度学习_试读样章

全栈应用开发 精益实践（完整版带书签）

大数据技术原理与应用:概念、存储、处理、分析与应用(第2版)

Spark最佳实践

MySQL技术内幕 SQL编程.姜承尧.扫描版

MySQL技术内幕 InnoDB存储引擎 第2版.pdf

集体智慧编程_13705871_（美）TobySegaran著_2015.03.pdf

实用机器学习

空空如也

Python+Spark 2.0+Hadoop机器学习与大数据实战_林大贵(著) 清华大学出版社(完整高清带书签)

全栈应用开发精益实践（完整版带书签）

MySQL技术内幕 InnoDB存储引擎第2版.pdf