自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 大数据存储系统HDFS和对象存储(OOS/S3)的比较

虽然Apache Hadoop以前都是使用HDFS的,但是当Hadoop的文件系统的需求产生时候也能使用S3。Netflix的利用这个特性把数据存储在S3上而不是HDFS上。笔者曾经工作经历的大数据集群存储都是用HDFS,当前工作接触到对象存储S3,在实践中比较两者的不同之处。

2023-05-14 15:03:01 3832 1

转载 什么是MPP架构?与常用的批处理架构有什么区别

MPP架构与常见的大数据处理架构的区别

2023-03-17 16:31:15 508

原创 浅谈传统数据仓库在互联网时代的发展方向

数据仓库最早是90年代流行于美国,Bill Inmon最先提出了数据仓库的概念,其专著《建立数据仓库(第一版)》明确指出数据仓库是一个具有如下特征的数据的集合:面向主题的、集成的、非易失的且随时间变化 ,同时是为决策支持服务的。1.2000-2012年 ,数据仓库这个在00年逐渐在国内火起来的,这个时候国内的电信和银行企业积累了一定的数据,希望这些数据能够为经营分析做一些决策支持,因...

2019-08-07 14:06:12 551

原创 geohash精度和误差

具体的计算方法: Latitude的范围是:-90 到 +90 Longitude的范围:-180 到 +180 地球参考球体的周长:40075016.68米,极半径:6356908.8米,赤道半径:6377830,平均半径:6371393 geohash的位数是9位数的时候,误差约为4米;geohash的位数是10位数的时候,误差为0.6米geohash长度...

2019-06-18 11:34:42 8829 2

翻译 评价机器学习模型的三大指标:准确率、精度和召回率

向于使用准确率,是因为熟悉它的定义,而不是因为它是评估模型的最佳工具!精度(查准率)和召回率(查全率)等指标对衡量机器学习的模型性能是非常基本的,特别是在不平衡分布数据集的案例中,在周志华教授的「西瓜书」中就特别详细地介绍了这些概念。GitHub 地址:https://github.com/WillKoehrsen/Data-Analysis/blob/master/recall_prec...

2019-03-07 15:08:04 9161

转载 hive/spark分析函数介绍(转载)

窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数 说明 RANK() 返回数据项在分组中的排名,排名相等会在名次中留下空位 DENSE_RANK() 返回数据项在分组中的排名,排名相等会在名次中不会留下空位 NTILE() ...

2019-01-16 14:41:32 513

原创 python中列表、字段、元组的遍历

1.列表 lista = ['a','b','c','d','e','f']1.1 for i in a: print(i)1.2 for i in range(len(a)): print(i,a[i])1.3 for i,ele in enumerate(a): print(i,ele)2.字典 di...

2019-01-14 15:11:24 1632 1

原创 判断日期时间字符串是否有效,python实现

工作中经常碰到一个时间字符串是否是有效的问题比如 ‘2018-02-30’ ,'2018-12-01 12:12:60'python 2.7from dateutil import parserdef isvaild_time(str_time): try: if parser.parse(str_time): return 1...

2018-12-18 18:43:31 4154

原创 python中字符串中替换处理和转义

---python 2.7字符串替换函数一般用repalce1.实例:str ='aaa--bbb'要替换其中的---new_str = str.replace('--','')2.实例:str1= "aaa/Gbb"要替换其中的/(斜杠)pyhon中正斜杠为/,反斜杠为\说明:使用转义符号(\)3.实例:str1= "aaa\Gbb"要...

2018-09-12 20:29:26 29033

原创 python导入自定义包说明

   在开发python过程中,自己往往会定义一些函数,类,变量,并且将这些对象做成一个XX.py的文件,希望以后的程序会直接使用XX.py文件。通常情况下,我们会将XX.py的文件放在一个目录下,同时再加一个空白__init__.py文件,这样就形成了一个自定义的包。在使用这个包的时候,会有以下几种情况:1.使用的模块或程序文件在同一个目录下,直接import就行了例如:如果想使用xx_data...

2018-04-15 10:06:55 3583

原创 Intellij IDEA 测试scala程序的时候:Exception in thread “main“ java.lang.NoClassDefFoundError: scala/Predef$

Exception in thread "main" java.lang.NoClassDefFoundError: scala/Predef$ at HelloWorld$.main(HelloWorld.scala:4) at HelloWorld.main(HelloWorld.scala)Caused by: java.lang.ClassNotFound...

2018-04-05 10:19:51 15025 4

原创 Intellij IDEA 测试scala程序的时候: "Test is already defined as object Test"

使用Intellij IDEA 编写第一个SCALA程序的时候,会出现报错:object TestScala { def main(args: Array[String]): Unit = { println("Hello,Scala") }}报错:Error:(9, 8) TestScalaObject is already defined as object TestSc...

2018-04-05 09:43:24 4242 1

BP神经网络-用于预测

BP神经网络用于太阳黑子的预测,BP网络通过反向误差传播,可以调整学习的效率,学习的准确性。

2009-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除