- 博客(9)
- 资源 (6)
- 收藏
- 关注
原创 Python数据分析
Python进行大数据分析,主要分为以下步骤:1.数据导入导入本地的或者web端的CSV文件; 2.数据变换;3.数据统计描述;4.假设检验单样本t检验; 5.可视化;6.创建自定义函数。 数据导入这是很关键的一步,为了后续的分析我们首先需要导入数据。通常来说,数据是CSV格式,就算不是,至少也可以转换成CSV格式。在Python中,...
2015-03-15 11:40:51 407
Python数据分析工具包:Pandas
Python Data Analysis Library 或 pandas是为了解决数据分析任务而创建的, 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包。类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas...
2015-03-15 11:19:00 190
原创 大数据分析建模思路技巧和算法的特征
零售银行为了给客户提供更加优质的服务,需要通过分析银行系统本身数据库所保留的客户资料信息,对客户进行分类管理。 近年来,大数据已成为科技界和企业界关注的热点,越来越多的企业和研究者正在关注大数据的应用。大数据的分析与挖掘技术在科学界正在如火如荼的展开,各种大数据的新算法被开发研究出来,例如近年来发展比较完善的一种数据分析挖掘算法支持向量机。 与此同时,大数据分析在商业中的运用受到...
2015-01-15 16:37:10 2625 2
原创 Python count()方法
描述Python count() 方法用于统计字符串里某个字符出现的次数。可选参数为在字符串搜索的开始与结束位置。语法count()方法语法: str.count(sub, start= 0,end=len(string)) 参数sub -- 搜索的子字符串start -- 字符串开始搜索的位置。默认为第一个字符,第一个字符索引值为...
2015-01-10 15:26:06 1415
python利用thrift连接hive
一、 首先要安装thrift和fb303的安装 1、首先安装一个最新版本的autoconf,否则后面编译的时候会出问题(提示说autoconf版本要2.65以上才行) wget http://ftp.gnu.org/gnu/autoconf/autoconf-2.69.tar.gz tar xvf autoconf-2.69.tar.gz cd autoconf-2.69...
2015-01-10 15:22:12 342
hive基本语法
1 基本的Select 操作SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][ CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SO...
2015-01-10 15:21:09 132
原创 Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。各大公司数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过...
2015-01-10 15:19:14 210
原创 Java中final,finally,finalize的区别
[color=red]final[/color]— 修饰符(关键字)如果一个类被声明为final,意味着它不能再派生出新的子类,不能作为父类被继承。因此一个类不能既被声明为 abstract的,又被声明为final的。将变量或方法声明为final,可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值,而在以后的引用中只能读取,不可修改。被声明为final的方法也同样只能使用,...
2014-04-21 18:38:26 154
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人