自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 scala 语言

scala 数组 Array存储固定大小的同种类型元素 Array声明数组demo1:var z:Array[String]=new Array[String] (3) 声明一个字符串类型的数组,数组长度为3or var z=new Array[String] (3)赋值:z(0)=“Runnoob”demo2:var z:Array[String]=Array(“Runoob”, “Baidu”, “Google”) 声明一个指定元素数据的字符串类型数组遍历数组 fordemo1

2020-12-27 16:17:46 108

原创 spark scala dataset、dataframe、RDD 、SQL使用

Dataset[String] to Data[case class] dataset[String] to Dataset[ThrDynamicRowV001]`val ds: Dataset[ThrDynamicRowV001] = spark.read.textFile(inputThrFile).map(row => { val split_str = row.split(",") for (i <- 0 to 13) { if (split_str(i).isEmpt

2020-12-27 16:15:35 598

原创 Cassandra 替换dead seeds节点

替换 a dead seed node使用一个新的node,替换Cassandra数据库中 a dead seed node,并让该新节点成为种子节点(or 节点)步骤1.运行 nodetool status 来验证该node已死亡2.记录 死亡节点的 datacenter、address、rack 设置3.设置replacement node的网络环境,并记录该IP设置该节点千兆和万兆IP 192.168.10.199 192.168.100.1994.改变集群中每个节点

2020-12-14 15:33:32 622

原创 Cassandra内部存储数据存放过程

Cassandra 中的数据存放规则[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OSxxSM32-1607670227698)(workImg/20200526143635.png)]data 目录:用于存储真正的数据文件,即后面将要讲到的SSTable文件。如果服务器有多个磁盘,可以指定多个目录,每一个目录都在不同的磁盘中。这样Cassandra就可以利用更多的磁盘空间。commitlog 目录:用于存储未写入SSTable中的数据,每次Cassandra系统中

2020-12-11 15:05:43 648

原创 C/S和B/S 架构简单理解

C/S和B/S 架构C/S 架构的概念C/S 是Client / Server,即客户端/服务器端架构,一种典型的两层架构。客户端包含一个或多个在用户的电脑上运行的程序服务器端有两种,一种是数据库服务器端,客户端通过数据库连接访问服务器端的数据;另一种是 socket服务器端,服务器端的程序通过Socket与客户端程序通信C/S 可以看做是 胖客户端架构因为客户端 需要实现绝大多数的业务逻辑和界面展示。作为客户端的部分需要承受很大的压力,因为显示逻辑和事务处理都包含在其中,通过与数据库的交互(通

2020-12-11 15:01:11 295

原创 Cassandra 原理理解以及安装文档解释

datacenter 和 rack1.datacenter 数据中心 和 rack 机架。一般一个 机房设置一个 datacenter,不同机架 设置不同的rackCassandra primary key composite keycreate table sample { key_one text, key_two text, data text, PRIMARY KEY(key_one, key_two)};在上面的示例中,我们所创建的Primary

2020-12-11 14:59:05 281

原创 Cassandra cqlsh使用

启动cqlshbin/cqlsh $host $port -u $username -p $password通过 IP地址 和端口 Cassandra 用户名、密码 进入cqlshdemo:cqlsh -u hujunde -p Hujunde0402demo2:cqlsh 192.168.227.22 -u hujunde -p Hujunde0402 进入 cqlsh;在cqlsh 里面查看环境变量cqlsh> describe cluster;Cluster: Tes

2020-12-11 14:56:29 445

原创 Pyspark rdd 和 dataframe 使用

PySpark rdd 使用mapValuese(list)Pass each value in the key-value pair RDD through a map functionwithout changing the keys; this also retains the original RDD’s partitioning.demo:rdd.map(lambda x: (x[0], x)).groupByKey().mapValues(list).collect()orderRD

2020-11-27 14:20:58 558

原创 pyspark udf 原理

pyspark pandas 用户自定义函数 转化为 udf(user defined functions)scalarscalar pandas UDF 用于向量化scalar 操作;The Python function should take pandas.Series as inputs and return a pandas.Series of the same length.(输入输出均为 pandas.Series,输出为相同长度的series)Grouped map UDFsYou

2020-11-01 17:26:11 570

原创 PySpark 运行程序参数详解以及常见服务器运行错误

pyspark 运行程序相关参数 command line spark-submit \ --name dp_main_spark-03 \ --master local[*] \ --driver-memory 80G \ --executor-memory 16G \ --conf spark.default.parallelism=500 \ --conf spark.shuffle.memoryFraction=0.3 \ dp_main_spark-03.py \ bm \

2020-11-01 17:22:16 705

原创 centos7 命令行操作

cento7 磁盘挂载1.查看所有 磁盘分区情况 fdisk -l[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5z1u6yz4-1597314292092)(workImg/TIM截图20200512105054.png)]2.查看磁盘挂载情况以及挂载 df-h[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1geJqpM3-1597314292094)(workImg/TIM截图20200512105231.png)]

2020-08-13 18:27:37 912

原创 pandas 常见 使用方法 以及使用场景

numpyNumpy:是N维数组对象(ndarray),是通用的同构数据多维容器。即其中的所有元素必须是同种类型ndarray有两个属性。shape:表示各维度大小的元祖 dtype:数组数据类型的对象ndarray 数据类型float64 int32numpy 索引:数组切片是原始数组的视图,视图上的任何修改都会直接反映到原数组上。切片索引array [[1,2,3],[4,5,6],[7,8,9] ]array[1,:2] [4,5]第一个值1是沿着第0轴

2020-08-13 17:13:43 1425

原创 python 二维坐标多边形 计算多边形中心点,以及距该中心点最远的距离

def center_geolocation(geolocations): ''' 输入多个经纬度坐标(格式:[[lon1, lat1],[lon2, lat2],....[lonn, latn]]),找出中心点 :param geolocations: :return:中心点坐标 [lon,lat] ''' #求平均数 同时角度弧度转化 得到中心点 x = 0 # lon ...

2019-06-27 20:36:20 11205 1

原创 nlp之命名实体识别HMM方法(1)

#!/usr/bin/python# -*- coding: utf-8 -*-# @Time : 2018/7/26 9:40# @verion : python3.6# @File : generate_datas.py.py# @Software: PyCharm__author__ = 'xiaohu'hidden_states = ["A", "B", "C...

2018-07-27 14:10:48 1438 1

原创 决策树剪枝中的损失函数的实现

#!/usr/bin/python#-*-coding:utf-8 -*-#决策树的剪枝算法import ID3alogorithem as id3from math import log# myTree数据类型 {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}#计算每个结点的经验熵def eachN

2017-12-18 16:52:56 1569

原创 **网站 数据分析项目(三)hadoop word count 原理一

MapReduce 原理篇MapReduce 是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析与应用"的核心框架:MapReduce 核心功能是 将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上MapReduce java 版本 wordcount用户编写的程序分为三个部分:Mapper、Reducer、Driver(提交运行mr 程序的客户端)MapPerMapper<LongWritable, Text, Text

2020-08-26 23:39:44 149

原创 python 具体场景应用

python 保留指定位数的小数format(1.23455,".2f") 保留两位小数list去重data=[1,2,35,2,1]list(set(data))python 读取json 文件 loads将str转化成dict格式 with open(input_path, 'r', encoding="utf-8") as f: json_data = json.load(f) # 读取json文件,并转化为字典格式 # json_dict = j

2020-08-24 12:07:38 109

原创 **网站 数据分析项目(二)RPC和 同步、异步知识点讲解

RPC(Remote Procedure Call Protocol) 远程过程调用远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。也就是说两台服务器A、B,一个应用部署在A服务器上,想要调用B服务器上应用提供的方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。PRC 协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。PRC 使得开发包括网络分布式程

2020-08-23 18:56:53 709

原创 **网站 数据分析项目(一)flume 工具 使用

flume海量日志采集系统source channel sinksource 相当于抽象的source 接口,可以实例成对接上级agent来源或者文件netcat_logger.conf 配置文件#Name the components on this agenta1.sources=r1a1.sinks=k1a1.channels=c1#Describe/Configure the sourcea1.sources.r1.type=execa1.sources.r1.comman

2020-08-23 18:54:19 110

原创 python 基本知识点汇总

Python 数据结构特点数值、字符串、元祖(tuple)采用的是复制方式(深拷贝)即python 引用全局变量需要引用全局变量前加个 globaldemo:x = 5print(5) def get(): global x x = x + 10 print(x) get()python 字典遍历data a {‘a’: ‘1’, ‘b’: ‘2’, ‘c’: ‘3’}1.遍历 key 值for key in a:print(key+":"+

2020-08-13 18:23:43 169

原创 Python 多个多边形 删除大于某个给定面积的多边形

删除大于给定多边形的面积。该多边形为 "113.2392901,21.91638982;113.2737369,21.8931719;113.2514275,21.86066642;113.2097454,21.91896039;113.2392901,21.91638982"。格式为 lon1,lat1;lon2,lat2;...lonn,latn;import numpy as ...

2019-10-24 11:49:40 265

原创 python 两个时间序列坐标点的平均航速计算 两个UTC时间差计算

计算两个UTC 时间差,返回两个UTC时间秒数def caculateTimeDifference(lastTime, currentTime): ''' 计算两个UTC时间差,秒 :param lastTime: :param currentTime: :return: ''' ctime = time.localtime(curren...

2019-07-26 16:17:34 519

原创 jquery ajax json 字符串处理 json保存为csv文件 jQuery自动添加元素

<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml"><head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <title>查询船期服务网页 直达</ti...

2019-06-11 10:54:22 468

原创 朴素贝叶斯法 python实现

#!/usr/bin/python#-*-coding:utf-8 -*-#贝叶斯实现def createDataSET(): dataSet=[[1,"S",-1], [1,"M",-1], [1,"M",1], [1,"S",1], [1,"S",-1], ...

2018-12-23 19:36:14 106

原创 K近邻法 python代码实现

# -*- coding: utf-8 -*-from math import sqrtfrom numpy import *def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group, labels...

2018-12-23 16:08:03 354

原创 crf++ 工具 templates

train.txt---        迈    v    B    N    N    N    O         向    v    E    N    N    N    O         充    nz    B    N    N    N    O         满    nz    M    N    N    N    O         希    nz    M...

2018-10-19 15:40:31 178

原创 nlp之命名实体识别HMM(2)

#!/usr/bin/python# -*- coding: utf-8 -*-# @Time : 2018/7/26 13:54# @verion : python3.6# @File : OrgRecognize.py# @Software: PyCharm__author__ = 'xiaohu'class OrgRecognize: def __i...

2018-07-27 14:12:08 600

原创 感知机(Python实现,简单)

#!/usr/bin/python#-*-coding:utf-8 -*-import randomfrom numpy import *import numpy as npdef training(): train_data1 = [[3, 3, 1], [4, 3, 1]] # 正样本 train_data2 = [[1, 1, -1]] # 负样本 t

2018-01-20 11:44:42 1492

原创 朴素贝叶斯方法的学习与分类

#!/usr/bin/python#-*-coding:utf-8 -*-#贝叶斯实现def createDataSET(): dataSet=[[1,"S",-1], [1,"M",-1], [1,"M",1], [1,"S",1], [1,"S",-1],

2017-12-20 20:21:22 232

原创 决策树ID3 算法python实现

#!/usr/bin/python#-*-coding:utf-8 -*-from mathimportlogdef createDataSET():    dataSet=[[1,1,"yes"],             [1,1,"yes"],             [1,0,"no"],             [0,1,"no"],

2017-12-11 20:26:58 223

原创 集体智慧编程第二章

#!/usr/bin/python#-*-coding:utf-8 -*-from math import sqrt# 欧几里得距离#收集偏好critics={"Lisa Rose":{"Lady in the Water":2.5,"Snake on a plane ":3.5,"Juse My luck ":3.0,"Superman Returns ":3.5,"You,me a

2017-12-08 21:33:49 382

原创 集体智慧编程第三章 发现群组

对订阅源中的单词进行计数#!/usr/bin/python#-*-coding:utf-8 -*-import feedparserimport re#返回一个Rss 订阅源的标题和包含单词计数情况的字典def getwordCounts(url): #解析订阅源: d=feedparser.parse(url) # print(d) wc={}

2017-12-08 21:28:33 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除