诺亚废船-CSDN博客

原创 Hive notes

hive commond:1.hive -e “select * from mytable limit 3; 2.hive -S -e “select * from mytable limit 3” > /tmp/myquery (no useless information like “OK Time taken:xxx seconds”) 3.hive -S -e ‘set’ | gre

2017-12-17 23:25:49 284

成为一名合格的开发工程师不是一件简单的事情，需要掌握从开发到调试到优化等一系列能力，这些能力中的每一项掌握起来都需要足够的努力和经验。而要成为一名合格的机器学习算法工程师（以下简称算法工程师）更是难上加难，因为在掌握工程师的通用技能以外，还需要掌握一张不算小的机器学习算法知识网络。下面我们就将成为一名合格的算法工程师所需的技能进行拆分，一起来看一下究竟需要掌握哪些技能才能算是一名合格的算法工程师。图

2017-12-11 23:05:14 284

原创 SparkLearning_Day1

MovieLens数据集Movielens数据集内主要文件有三个：1.u.user 介绍用户的信息 2.u.item 介绍电影元数据 3.u.data 介绍用户对电影的评分数据1.u.user的主要字段有：用户ID（user ID），年龄(age) ，性别（gender），职业（occupation），邮编（ZIPcode）五个属性。2.u.item的主要字段有：电影id（movie id），电

2017-12-05 21:22:29 510

原创 Scrapy开启

命令行基本操作通过pip3 install scrapy安装完scrapy后，在命令行输入scrapy可以看到scrapy的相关命令。

2017-11-09 21:57:30 456

原创 Scrapy框架

Scrapy基本流程1.首先说一下框架的概念。之前一直故步自封与一个requests+bs4以及一些Selenium+Phantomjs零零散散的一些爬虫流程。从招聘网站上看到python爬虫的工作都需要掌握Scrapy框架以及Selenium技术才恍然大悟，一个成型的框架首先搭建好了一个完整的爬虫逻辑，各个功能也相对封装的很棒，对于大规模数据爬取，只要将对主要爬虫细节进行设计（每个网页的结构特点不

2017-11-09 21:52:38 3106

原创 Python爬虫总结

主要网站采集对象的分析：1.完全静态的网站；例如百度百科，所要采集的信息主要集中html中，可以通过对html的分析使用requests+BeautifulSoup进行采集或者通过正则表达式对数据进行采集。2.通过异步加载的方式（ajax），在网页内部通过向后台服务器发送一个请求，来获得类似Json的数据。同样可以用过requests+beautifulsoup通过chrome来找到对应的接口，向接

2017-11-05 12:51:46 333

原创 Mysql数据库知识整理

近期想要做的事情1.将数据库知识进行整理，包括创建数据库，创建数据表，增删改查，数据表的连接join操作，视图，触发器，事务等。包括爬虫中跟数据库连接并存储数据，也就是所谓的ETL（数据获取，数据清洗，数据载入）。2.将Python与R的简单数据分析流程进行学习与整理。包括数据的载入，数据清洗，数据的初步统计描述，数据的建模分析。3.使用Python实践机器学习的几个重要算法，其中也包括数据的ETL

2017-10-29 21:09:55 536

转载 Python全局变量与局部变量的区别

1、函数内部的变量名如果第一次出现，且出现在=前面，即被视为定义一个局部变量，不管全局域中有没有用到该变量名，函数中使用的将是局部变量，例如：num = 100 def func(): num = 123 print(num)func() 输出：123说明函数中定义的num是一个局部变量，会将全局变量覆盖。再例如：num = 100 def func(): num

2017-10-14 22:33:38 532

原创 Selenium+Chrome(PhantomJs) Python爬虫

Ubuntu上搭建Selenium+ChromeSelenium的搭建：直接通过Pip进行安装sudo pip install seleniumChrome浏览器需要安装ChromeDriver驱动来做web的自动化处理。1.首先需要根据需要安装Chrome浏览器，根据浏览器的版本信息，下载对应的chromedrver。浏览器的版本信息在setting中about chrome可以查询。http

2017-10-14 14:46:19 332

原创 Ubuntu 16.04 Spark安装

Spark安装步骤：1：需要安装jdk，并配置环境变量2：安装Scala，并配置环境变量3：安装Spark，配置所要用的Python版本1.安装JDK首先来安装JDK：sudo mkdir /usr/lib/jdk在/usr/lib/目录下创建jdk文件夹，我们计划讲jdk安装在/usr/lib/jdk目录下。切换至jdk-8u144-linux-x64.tar.gz的目录下sudo tar

2017-10-09 12:30:53 2168 3

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-10-09 11:43:26 158

转载 stata14中文乱码问题

unicode analyze * unicode encoding set gb18030unicode translate *

2017-09-22 19:43:12 6649 1

转载 Mysql安装教程

MySQL 5.7以上版本的配置和以前有所不同，在这里与大家分享一下经验。工具/原料MySQL 5.7及以上版本压缩包windows 7及更高版本方法/步骤1解压缩将下载到的文件解压缩到自己喜欢的位置，例如我自己的位置是D:\Program Files\mysql-5.7.10-winx642添加环境变量右键计算机->属性->高级系统设置->环境变量；在系统变量里添加MYSQL_HO

2017-09-22 18:55:55 205

原创 Mysql学习总结

数据库的创建create database database_name;show databases; ##查看数据库##数据表的创建use database_name;create table db_table( id int(11) primary key, name varchar(25), dep_id int(11),

2017-09-15 18:44:07 208

原创文章标题

Python Requests库Selenium+Phantomjs的使用Python爬虫的Requests库主要应用于requests.get()和requests.post()的使用。GET请求从服务器后端获得网页相关信息。POST请求主要通过发送表单给服务器，例如登陆密码。POST之后会返回一定的信息，例如一个新网站或者相关数据。其中的参数包括：headers头部信息（包括浏览器的相关信

2017-09-15 10:24:50 240

转载对面板数据模型中的一些理解

一、我对几种面板数据模型的理解1 混合效应模型 pooled model 就是所有的省份，都是相同，即同一个方程，截距项和斜率项都相同yit=c+bxit+ᵋit c 与b 都是常数2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份，既有相同的部分，即斜率项都

2017-09-02 12:02:11 37672 2

原创机器学习——决策树与随机森林

机器学习——决策树与随机森林1.决策树的主要元素：根节点、内部节点、叶节点。其中根节点聚集了所有的样本，内部节点表示根据某个特征进行分类，叶节点根据节点内样本数最多的那一类作为输出。2.决策树的主要处理方式：根据信息增益、信息增益率或者基尼系数这三个指标来选取局部最优的分类特征。3.决策树由于是递归过程，所以会出现过拟合现象。需要通过剪枝来使得模型的泛化能力增强。4.决策树主要形式有分类决策树、回归

2017-08-28 15:55:41 1179

原创文章标题

卡方检验、相关分析、线性回归无序分类变量的统计推断——卡方检验对于各组所在总体定量变量的平均水平，可以使用t检验和方差分析方式进行比较。秩和检验则用于比较各组所在总体有序分类变量的分布情况是否相同。卡方检验主要用于无序分类变量的统计推断。卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致。检验某两个分类变量是否相互独立。如吸烟（二分类变量：是、否）是否与呼吸道疾病(二分

2017-08-26 13:34:20 237

原创 SPSS数据分析中出现的常见问题总结

总结最近数据分析过程中遇到的一些问题的思考1.问卷中多选题的录入与分析 2.数据分析流程的第一步：对所分析的样本数据本身的特征结构进行预分析 3.根据数据中的某个因素的几个水平来分析数据总体的差异性。 4.根据数据中的变量之间的相关性，了解数据的内部关系，并建立模型。 5.数据的降维处理。 6.结构方程模型的运用。 7.时间序列的分析，主要运用在经济模型中。 8.面板数据的处理。* 在

2017-08-24 10:34:32 43744 1

转载 Mongodb常用命令

本文列出了MongoDB初学者都应该学习的十个最常用的命令。1. 登陆MongoDB下面这个命令用于登录MongoDB数据库。请确保在数据库dbname中存在对应用户的凭据（比如，用户名和密码）。mongo -u -p --authenticationDatabase 2. 显示所有的数据库一旦用户以适当的角色登录到数据库后，例如 userAdmin 或者

2017-08-24 09:58:58 273

原创 SPSS数据分析流程经验总结

最近几日忙于在淘宝上接单做数据分析，从接单的情况来看，数据分析主要的对象是在校大学生和部分在职公职人员。分析的主要问题包括对问卷的数据分析与简单的模型建立。SPSS对于问卷的数据分析：1.数据的录入：需要将问卷的选项编码成数字，主要存在的问题包括问卷的答案可能是A B C D你需要通过重新编码为不同变量，包括将数值型变量通过重新编码为不同变量，转换为分类型变量，如22岁的孩子被

2017-08-22 14:05:11 11848

原创 SPSS--独立样本t检验与配对样本t检验

基础回顾用软件分析之前，得很清楚什么是T检验？用来做什么？回顾T检验理论基础：抽样分布：t分布；均值差异性的检验方法：Z检验和T检验综述；简单总结：要证明两列正态分布的高测度数据（定距数据和高测度定序数据）是否存在差异，可以通过验证它们的均值差异性来达到目的，可以使用T检验和方差分析。T检验适用于单因素双水平，方差分析适用于多因素多水平。(配对样本t检验

2017-08-20 07:54:04 38345 3

原创 SPSS数据分析流程

数据分析步骤任何一个数据分析项目，如果按照整个分析过程的流程结构来看，都可以被分解为大致7个阶段：计划阶段、数据收集、数据获取、数据准备、数据分析、结果报告和模型发布阶段。这里详细解释一下数据分析、结果报告和模型发布三个阶段。数据分析数据分析阶段，利用各种数据分析方法对数据进行分析，得出结论。数据分析阶段又可以分为以下两步：1、预分析：包括概括性统计描述

2017-08-19 11:20:54 3589

原创 python链家网二手房数据爬取

python链家网二手房数据爬取由于想练习一下Python的数据清洗，并将之前学习的机器学习内容付诸以实践，发现二手房市场的数据分析报告的内容十分匮乏。故此，通过Python爬取“链家网”杭州市二手房房源信息，辅助以Mongodb、PowerBI、Spss、Highchart实现数据的获取、数据的存储与查询、数据的初步统计描述、数据的可视化、数据的建模分析、数据的报表呈现。通过机器学习的随机森林算法

2017-08-13 13:04:19 2687 1

诺亚废船

原创 Hive notes

转载 MachineLearning

原创 SparkLearning_Day1

原创 Scrapy开启

原创 Scrapy框架

原创 Python爬虫总结

原创 Mysql数据库知识整理

转载 Python全局变量与局部变量的区别

原创 Selenium+Chrome(PhantomJs) Python爬虫

原创 Ubuntu 16.04 Spark安装

转载欢迎使用CSDN-markdown编辑器

转载 stata14中文乱码问题

转载 Mysql安装教程

原创 Mysql学习总结

原创文章标题

转载对面板数据模型中的一些理解

原创机器学习——决策树与随机森林

原创文章标题

原创 SPSS数据分析中出现的常见问题总结

转载 Mongodb常用命令

原创 SPSS数据分析流程经验总结

原创 SPSS--独立样本t检验与配对样本t检验

原创 SPSS数据分析流程

原创 python链家网二手房数据爬取

空空如也

空空如也