qq_18617299-CSDN博客

原创 scala 语言

scala 数组 Array存储固定大小的同种类型元素 Array声明数组demo1:var z:Array[String]=new Array[String] (3) 声明一个字符串类型的数组，数组长度为3or var z=new Array[String] (3)赋值：z(0)=“Runnoob”demo2:var z:Array[String]=Array(“Runoob”, “Baidu”, “Google”) 声明一个指定元素数据的字符串类型数组遍历数组 fordemo1

2020-12-27 16:17:46 108

原创 spark scala dataset、dataframe、RDD 、SQL使用

Dataset[String] to Data[case class] dataset[String] to Dataset[ThrDynamicRowV001]`val ds: Dataset[ThrDynamicRowV001] = spark.read.textFile(inputThrFile).map(row => { val split_str = row.split(",") for (i <- 0 to 13) { if (split_str(i).isEmpt

2020-12-27 16:15:35 598

原创 Cassandra 替换dead seeds节点

替换 a dead seed node使用一个新的node，替换Cassandra数据库中 a dead seed node,并让该新节点成为种子节点（or 节点）步骤1.运行 nodetool status 来验证该node已死亡2.记录死亡节点的 datacenter、address、rack 设置3.设置replacement node的网络环境，并记录该IP设置该节点千兆和万兆IP 192.168.10.199 192.168.100.1994.改变集群中每个节点

2020-12-14 15:33:32 622

原创 Cassandra内部存储数据存放过程

Cassandra 中的数据存放规则[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OSxxSM32-1607670227698)(workImg/20200526143635.png)]data 目录：用于存储真正的数据文件，即后面将要讲到的SSTable文件。如果服务器有多个磁盘，可以指定多个目录，每一个目录都在不同的磁盘中。这样Cassandra就可以利用更多的磁盘空间。commitlog 目录：用于存储未写入SSTable中的数据，每次Cassandra系统中

2020-12-11 15:05:43 648

原创 C/S和B/S 架构简单理解

C/S和B/S 架构C/S 架构的概念C/S 是Client / Server，即客户端/服务器端架构，一种典型的两层架构。客户端包含一个或多个在用户的电脑上运行的程序服务器端有两种，一种是数据库服务器端，客户端通过数据库连接访问服务器端的数据；另一种是 socket服务器端，服务器端的程序通过Socket与客户端程序通信C/S 可以看做是胖客户端架构因为客户端需要实现绝大多数的业务逻辑和界面展示。作为客户端的部分需要承受很大的压力，因为显示逻辑和事务处理都包含在其中，通过与数据库的交互（通

2020-12-11 15:01:11 295

原创 Cassandra 原理理解以及安装文档解释

datacenter 和 rack1.datacenter 数据中心和 rack 机架。一般一个机房设置一个 datacenter，不同机架设置不同的rackCassandra primary key composite keycreate table sample { key_one text, key_two text, data text, PRIMARY KEY(key_one, key_two)};在上面的示例中，我们所创建的Primary

2020-12-11 14:59:05 281

原创 Cassandra cqlsh使用

启动cqlshbin/cqlsh $host $port -u $username -p $password通过 IP地址和端口 Cassandra 用户名、密码进入cqlshdemo:cqlsh -u hujunde -p Hujunde0402demo2:cqlsh 192.168.227.22 -u hujunde -p Hujunde0402 进入 cqlsh;在cqlsh 里面查看环境变量cqlsh> describe cluster;Cluster: Tes

2020-12-11 14:56:29 445

原创 Pyspark rdd 和 dataframe 使用

PySpark rdd 使用mapValuese(list)Pass each value in the key-value pair RDD through a map functionwithout changing the keys; this also retains the original RDD’s partitioning.demo：rdd.map(lambda x: (x[0], x)).groupByKey().mapValues(list).collect()orderRD

2020-11-27 14:20:58 558

原创 pyspark udf 原理

pyspark pandas 用户自定义函数转化为 udf(user defined functions)scalarscalar pandas UDF 用于向量化scalar 操作；The Python function should take pandas.Series as inputs and return a pandas.Series of the same length.（输入输出均为 pandas.Series，输出为相同长度的series）Grouped map UDFsYou

2020-11-01 17:26:11 570

原创 PySpark 运行程序参数详解以及常见服务器运行错误

pyspark 运行程序相关参数 command line spark-submit \ --name dp_main_spark-03 \ --master local[*] \ --driver-memory 80G \ --executor-memory 16G \ --conf spark.default.parallelism=500 \ --conf spark.shuffle.memoryFraction=0.3 \ dp_main_spark-03.py \ bm \

2020-11-01 17:22:16 705

原创 centos7 命令行操作

cento7 磁盘挂载1.查看所有磁盘分区情况 fdisk -l[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5z1u6yz4-1597314292092)(workImg/TIM截图20200512105054.png)]2.查看磁盘挂载情况以及挂载 df-h[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1geJqpM3-1597314292094)(workImg/TIM截图20200512105231.png)]

2020-08-13 18:27:37 912

原创 pandas 常见使用方法以及使用场景

numpyNumpy:是N维数组对象（ndarray）,是通用的同构数据多维容器。即其中的所有元素必须是同种类型ndarray有两个属性。shape：表示各维度大小的元祖 dtype:数组数据类型的对象ndarray 数据类型float64 int32numpy 索引：数组切片是原始数组的视图，视图上的任何修改都会直接反映到原数组上。切片索引array [[1,2,3],[4,5,6],[7,8,9] ]array[1,:2] [4,5]第一个值1是沿着第0轴

2020-08-13 17:13:43 1425

原创 python 二维坐标多边形计算多边形中心点，以及距该中心点最远的距离

def center_geolocation(geolocations): ''' 输入多个经纬度坐标(格式：[[lon1, lat1],[lon2, lat2],....[lonn, latn]])，找出中心点 :param geolocations: :return:中心点坐标 [lon,lat] ''' #求平均数同时角度弧度转化得到中心点 x = 0 # lon ...

2019-06-27 20:36:20 11205 1

原创 nlp之命名实体识别HMM方法（1）

#!/usr/bin/python# -*- coding: utf-8 -*-# @Time : 2018/7/26 9:40# @verion : python3.6# @File : generate_datas.py.py# @Software: PyCharm__author__ = 'xiaohu'hidden_states = ["A", "B", "C...

2018-07-27 14:10:48 1438 1

原创决策树剪枝中的损失函数的实现

#!/usr/bin/python#-*-coding:utf-8 -*-#决策树的剪枝算法import ID3alogorithem as id3from math import log# myTree数据类型 {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}#计算每个结点的经验熵def eachN

2017-12-18 16:52:56 1569

原创 **网站数据分析项目（三）hadoop word count 原理一

MapReduce 原理篇MapReduce 是一个分布式运算程序的编程框架，是用户开发"基于hadoop的数据分析与应用"的核心框架：MapReduce 核心功能是将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上MapReduce java 版本 wordcount用户编写的程序分为三个部分:Mapper、Reducer、Driver(提交运行mr 程序的客户端)MapPerMapper<LongWritable, Text, Text

2020-08-26 23:39:44 149

原创 python 具体场景应用

python 保留指定位数的小数format(1.23455,".2f") 保留两位小数list去重data=[1,2,35,2,1]list(set(data))python 读取json 文件 loads将str转化成dict格式 with open(input_path, 'r', encoding="utf-8") as f: json_data = json.load(f) # 读取json文件,并转化为字典格式 # json_dict = j

2020-08-24 12:07:38 109

原创 **网站数据分析项目（二）RPC和同步、异步知识点讲解

RPC(Remote Procedure Call Protocol) 远程过程调用远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。也就是说两台服务器A、B,一个应用部署在A服务器上，想要调用B服务器上应用提供的方法，由于不在一个内存空间，不能直接调用，需要通过网络来表达调用的语义和传达调用的数据。PRC 协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。PRC 使得开发包括网络分布式程

2020-08-23 18:56:53 709

qq_18617299的博客

原创 scala 语言

原创 spark scala dataset、dataframe、RDD 、SQL使用

原创 Cassandra 替换dead seeds节点

原创 Cassandra内部存储数据存放过程

原创 C/S和B/S 架构简单理解

原创 Cassandra 原理理解以及安装文档解释

原创 Cassandra cqlsh使用

原创 Pyspark rdd 和 dataframe 使用

原创 pyspark udf 原理

原创 PySpark 运行程序参数详解以及常见服务器运行错误

原创 centos7 命令行操作

原创 pandas 常见使用方法以及使用场景

原创 python 二维坐标多边形计算多边形中心点，以及距该中心点最远的距离

原创 nlp之命名实体识别HMM方法（1）

原创决策树剪枝中的损失函数的实现

原创 **网站数据分析项目（三）hadoop word count 原理一

原创 python 具体场景应用

原创 **网站数据分析项目（二）RPC和同步、异步知识点讲解

原创 **网站数据分析项目（一）flume 工具使用

原创 python 基本知识点汇总

原创 Python 多个多边形删除大于某个给定面积的多边形

原创 python 两个时间序列坐标点的平均航速计算两个UTC时间差计算

原创 jquery ajax json 字符串处理 json保存为csv文件 jQuery自动添加元素

原创朴素贝叶斯法 python实现

原创 K近邻法 python代码实现

原创 crf++ 工具 templates

原创 nlp之命名实体识别HMM(2)

原创感知机（Python实现，简单）

原创朴素贝叶斯方法的学习与分类

原创决策树ID3 算法python实现

原创集体智慧编程第二章

原创集体智慧编程第三章发现群组

空空如也

空空如也