自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 资源 (5)
  • 收藏
  • 关注

原创 pandas之DataFrame的几个注意点总结

一,创建时df=pd.DataFrame({'first':dh,'second':dt})dfdf=pd.DataFrame(zip(dh,dt),index=dh.index)df

2020-10-03 17:40:11 138

原创 数据预处理之文件转换kettle:异常数据分流

【实验目的】利用Kettle的“Excel输入”,“表输出”,“Microsoft Excel 输出”组件和“Error handing of step”跳,实现异常数据的分流。【实验原理】通过“Excel输入”读入表格的记录,其中,日期格式为多种格式的。然后通过“表输出”保存日期格式正确的记录,再通过“Error handing of step”跳和“Microsoft Excel 输出”组件,把日期格式不正确的记录输出到Excel表格。【实验步骤】一、创建转换1.点击,在下拉菜单

2020-11-01 19:40:57 970 1

原创 数据预处理之文件转换kettle:字段的拆分、合并、值映射

【实验目的】利用Kettle的“拆分字段”,“字段选择”,“值映射”“JavaScript代码”组件,实现字段的拆分、合并、值映射。【实验原理】利用“拆分字段”将表格的<课程大类>字段拆分为<课程大类>和<课程大类>两个字段;【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示

2020-11-01 19:40:44 3161

原创 数据预处理之文件转换kettle:字符串操作(去空,值替换,补位)

【实验目的】利用Kettle的“过滤记录”,“字符串替换”,“字符串操作”组件,实现记录的过滤,字符串替换及字符串的去空格功能。【实验原理】通过“过滤记录”对单元格为空的记录进行过滤,然后通过“字符串替换”指定替换单元格中某些特定内容,再通过“字符串操作”实现字符串的去空格功能。【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好

2020-11-01 19:40:21 6229

原创 数据预处理之文件转换kettle:数据质量统计

【实验目的】利用Kettle的“分组”,“JavaScript代码”,“字段选择”组件,实现数据质量统计。【实验原理】过“JavaScript代码”对表格的记录进行质量分类,然后通过“字段选择”生成带质量标志位字段的数据,再通过“分组”统计数据的质量问题。【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好

2020-10-30 21:16:02 674

原创 数据预处理之文件转换kettle:使用参照表清理数据

【实验目的】利用Kettle的“自定义常量数据”,“流查询”,“计算器”“ Microsoft Excel 输出”组件,实现参照表清理数据。【实验原理】利用“流查询”将对比参照表和源数据,再利用“计算器”计算出相似度;【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为“自定义常量数据”,“

2020-10-30 20:58:55 822

原创 数据预处理之文件转换kettle:去除重复的数据

【实验目的】利用Kettle的“去除重复记录”组件,实现去除重复数据。【实验原理】通过“阻塞数据直到步骤都完成”对多张表格的外键进行排序,然后通过“记录集连接”进行多表连接,再通过“字段选择”选择合适的字段输出到表格。【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为excel input,

2020-10-30 20:51:51 2427 1

原创 数据预处理之文件转换kettle:没有数据流入时停止操作

【实验目的】利用Kettle的“阻塞数据直到步骤都完成”,“检测空流”,“中止”等组件,实现Kettle转换流程的控制。【实验原理】“检测空流”组件可以检测所在转换的输入数据,如果整个转换没有输入数据,通过“中止”组件终止整个转换的流程。在存在数据输入的情况,为了能让数据输出,需要和“阻塞数据直到步骤都完成”配合使用。当所有数据都已经从上个步骤“字段选择”读取完毕后,通过“阻塞数据直到步骤都完成”使能打开数据通道,进入到“Microsoft Excel 输出”输出数据到表格。【实验步骤】

2020-10-30 20:17:18 2113 3

原创 数据预处理之文件转换kettle:多数据源合并

【实验目的】利用Kettle的“追加流”等组件,完成多个数据源的合并。【实验原理】通过“字段选择”选择要最终输出的字段到下一个步骤“追加流”(实验中必须保证每个数据源经过字段选择后,输出的字段都是一致的),再通过“追加流”设置2个数据源的合并顺序,然后通过“追加流”进行多个据源的合并。【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。2.我们在新建的转换文件上开始可视化编程。需要的组件如下图.

2020-10-30 20:07:33 1898

原创 数据预处理之文件转换kettle:用Kettle生成测试数据

【实验目的】利用Kettle的“生成随机数”,“JavaScript代码”组件,生成测试数据。【实验原理】通过“生成随机数”生成随机0~1的小数,随机的字符串,随机的整数。再利用“JavaScript代码”编写代码处理随机的数或字符串,输出一定范围的小数,日期和有一定规律形式的整数。【实验环境】操作系统:Windows10 kettle版本:7.0.1或以上版本【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存

2020-10-30 19:58:31 1125

原创 数据预处理之文件转换kettle:数据全量、增量、比较更新

【实验目的】利用Kettle的“表输入”,“表输入出”,”JavaScript代码”组件,实现数据全量更新【实验原理】通过“表输入”对mySQL表格的数据读入,然后通过“JavaScript代码”更新抽取数据的时间,再通过“表输入出”保存表格到mySQL数据库。【实验环境】操作系统:Windows10 kettle版本:7.0.1或以上版本【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。

2020-10-30 19:50:53 1455

原创 数据预处理之文件转换kettle:基于触发器的CDC--delete

【实验目的】利用Kettle的“表输入”,“表输入出”,”删除”,“插入/更新”组件,实现数据更新。【实验原理】通过“表输入”对mySQL表格的数据读入,然后通过“删除”删除数据,再通过“插入更新”改变处理标志为“已处理”。【实验环境】操作系统:Windows10 kettle版本:7.0.1或以上版本【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。2.我们在新建的转换文件上开始可视

2020-10-30 19:38:00 573

原创 数据预处理之文件转换kettle:基于触发器的CDC--insert

【实验目的】利用Kettle的“表输入”,“插入/更新”,组件,实现数据更新。【实验原理】通过“表输入”对mySQL表格的数据读入,然后通过“表输入”找到变化数据,再通过“插入/更新”保存表格到mySQL数据库。【实验环境】操作系统:Windows10 kettle版本:7.0.1或以上版本【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。2.我们在新建的转换文件上开始可视化编程。需要

2020-10-30 19:30:53 918

原创 数据预处理之文件转换kettle:HTML数据的导入与导出

【实验目的】利用Kettle的自定义常量数据,HTTP client,文本文件输出组件,导出html文件。【实验原理】将要导出的网址形成自定义常量,利用http client将其加载到kettle中,最后以html文件输出。【实验环境】操作系统:Windows10 kettle版本:7.0.1或以上版本【实验步骤】一、创建转换1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。2.我们在新建的转换文件上开始可视化编程。

2020-10-30 19:21:26 1222

原创 数据预处理之文件转换kettle:基于web的导入导出:http post api 接口

数据转换图;配置:

2020-10-06 13:30:47 551

原创 数据预处理之文件转换kettle:合并多个excel文件

通过使用正则表达式配置“Excel输入”组件中的通配符,实现多个Excel文件合并。

2020-10-02 22:13:31 3899

原创 数据预处理之文件转换kettle:复杂表头的Excel数据源处理

通过“Excel输入”选择要最终输出的字段到下一个步骤“追加流”(实验中必须保证每个数据源经过字段选择后,输出的字段都是一致的),再通过“追加流”设置2个数据源的合并顺序,然后通过“追加流”进行多个据源的合并。

2020-10-02 21:57:18 2096 4

原创 数据预处理kettle:定时器设置

1.新建批处理文件bat,内容如下:cd E:\pdi-ce-7.1.0.0-12\data-integration e:pan /file=C:\Users\luy\Desktop\index.ktr /level=Detailed /logfile=C:\Users\luy\Desktop\1.log0 在Windows系统下设计定时器。 右键单击“此电脑”,选择管理,再单击任务管理器。选择创建基本任务,创建kettle定时器。依次设置触发器,操作,完成。

2020-10-02 21:25:42 297

原创 数据预处理之数据转换kettle:mysql表导入excel

掌握kettle的使用方法;熟练掌握mysql表导入excel的方法。创建转换运行spoon.bat-->新建一个转换-->保存转换-->画设计图-->配置输入输出定时器创建bat文件-->写入命令-->设置定时器-->测试【实验环境】操作系统:Windows10 kettle版本:7.0.1或以上版本一、创建转换1.运行spoon.bat后,kettle将启动spoon,进入可视化编程界面 。2.新建一个转换并保存,点击转

2020-10-02 20:33:48 367

原创 python面向对象练习:构建python的栈结构

需求:1. 用列表作为栈的存储容器,实现栈的压栈和出栈操作。2. 栈可以表示自己的大小和当前存储了多少元素。3. 判断栈是否空栈,判断栈是否满栈。4. 显示栈有多少个元素,还有多少个存储空间。5. 将栈制为空栈。

2020-09-24 21:21:30 302

原创 python面向对象练习:士兵开枪问题

需求:1. 士兵瑞恩有一把AK47 2. 士兵可以开火(士兵开火扣动的是扳机) 3. 枪能够发射子弹--把子弹发射出去4. 枪能够装填子弹--增加子弹的数量分析:1.由于士兵瑞恩有一把AK47,士兵可以开火。故需要先创建枪类2.枪类(Gun): (1)属性:型号(model),子弹数目(bullet_count) (2)方法:发射子弹(shoot),装填子弹(add_bullet)3.士兵类(Soldier) (1)属性:姓名(name),枪名(Gun)

2020-09-24 20:11:17 3689

原创 python面向对象:家居放置问题

需求:1.房子有户型,总面积和家具名称列表,新房子没有任何的家具2.家具有名字和占地面积,其中:床: 占4平米 衣柜: 占2平面 餐桌: 占1.5平米3.将以上三件家具添加到房子中4.打印房子时,要求输出:户型,总面积,剩余面积,家具名称列表

2020-09-24 20:06:58 1789

原创 使用python的tkinter编写一个界面,例子如下:能够通过xml标准库读写xml文件:country.xml中指定国家的rank和year属性。

country.xml结构如下:<data> <country name="Panama"> <rank>67</rank> <year>20142</year> <gdppc>13600</gdppc> <neighbor direction="W" name="Costa Rica" /> <neighbor direction="E" name="Colombia" /&g.

2020-09-24 20:00:54 365

原创 使用tkinter来编写一个计算器小程序,实现+、-、*、\、\\等基本功能。

思路: .考虑用类来包裹整个计算器,用类的属性存储界面对象、数据与运算符等。 .考虑使用eval()函数来执行一个字符串表达式,并返回表达式的值。 import tkinter as tk# 先有整体框架, 输入计算框,各种按键。class App: def __init__(self, master): # 基本界面 self.master = master # 输入组件 self.initWidget

2020-09-24 19:54:18 532

原创 在线图书信息入库程序开发(三)

目的:图书编辑、删除、查询功能;1、编写后端服务(views.py)“编辑功能”代码如下:1 def edit(request,): 2 if request.method=='POST': 3 isbn=request.POST.get("isbn") 4 bk=book.objects.filter(isbn=isbn)[0] 5 name=request.POST.get("name") 6 author=requ

2020-06-29 08:55:50 151

原创 在线图书信息入库程序开发(二)

目的:集成mongoengine,添加查看图书列表、添加图书功能;一、创建应用 在命令行中输入下面指令创建home应用 1 python manage.py startapp home 命令执行完毕后,会在项目目录中生成home文件夹,二、安装mongoengine插件打开命令行输入下面指令安装插件。 1pip install mongoengine 三、修改配置打开book目录下的settings.py文件,修改DATABASES选项,添加mongodb相关信息,因为此处mon

2020-06-29 08:48:27 215

原创 在线图书信息入库程序开发(一)

目的:创建Django web项目Django是一个python开发的web应用程序开发框架。1、安装django框架 1 pip install django2、 创建django项目1)使用cmd命令进入到磁盘合适位置,在命令行中输入下面命令创建项目 (book): 1django‐admin startproject book2)通过上述命令即可在对应的文件夹中生成book项目文件夹,并在相应的文件 夹内生成了部分代码文件,如下图所示:3 、加载项目到IDE 此处选择vscode集成

2020-06-29 08:35:06 299

原创 zookeeper三种访问方式

(1)shell方式分类命令描述帮助help查看帮助创建节点createcreate [-s] [-e] path data acl 其中,-s或-e分别指定节点特性,顺序或临时节点,若不指定,则表示持久节点;acl用来进行权限控制读取节点lsls path [watch] 列出节点下的子节点getget path [watch] 读取某个节点ls2ls2 path [watch] 查询某个节点下有哪些子节点,带属性信息

2020-05-22 12:19:03 4272

原创 Zookeeper的安装 , 单机模式和集群模式

1、下载zookeeper-3.4.13.tar.gz2、安装Zookeeper(可选择任意一种安装模式进行安装)ZooKeeper有两种安装模式,最简单的方式是单机模式(standalone mode),它只需要在一台机器上面运行,另一种方式是集群模式,集群模式需要多台服务器部署。单机模式第一次安装尝试使用ZooKeeper时,最简单的方式就是在一台ZooKeeper服务器上以单机模式运行。因为,在单机模式下配置和使用相对来说要简单许多,并且有助于帮助大家理解ZooKeeper的工作原..

2020-05-22 12:10:11 239

原创 地理信息快速检索实验,Python操作MongoDB的方法。

地理信息快速检索实验实验目的:本实验旨在掌握Python操作MongoDB的方法。数据来源:北京市2013年5月1日出租车轨迹数据数据说明原始数据为用逗号隔开的txt格式文件,示例数据如下表所示:IDUTC时间经度纬度行驶方向行驶速度GPS状态282813673411991163010340041403330.01GPS状态用0、1、16、17表示,不同数字对应的含义如下:0:表示空车,GPS定位无效1:表示空车,GPS定位有效16:表示重车,

2020-05-22 11:05:24 263

原创 python实现mysql数据导入HBase

原理以学生课程成绩为例,将实体和实体间的关系都存在MySQL数据库中,实体有学生和课程,分别对应学生信息表studentInfo和课程信息表courseInfo,实体之间的关系为选课及成绩,对应成绩表gradeInfo,这三张表的结构如图所示。如果还是以三张表的形式存储数据到HBase中并没有任何意义,因为HBase有列族的概念,可以将三张表的数据整合到HBase的一张表中,HBase中表的逻辑结构如图所示。HBase表将MySQL三张表的数据聚合到一张表中,studentInfo表映射到HB.

2020-05-19 19:33:36 2255 6

原创 爬取链家房价信息存储并分析——mongodb存储和聚合查询

介绍mongodbMongoDB是文档数据库,采用BSON的结构来存储数据。在文档中可嵌套其他文档类型,使得MongoDB具有很强的数据描述能力。原理解释本节案例使用的数据为链家的租房信息,源数据来自于链家网站,所以首先要获取网页数据并解析出本案例所需要的房源信息,然后将解析后的数据存储到MongoDB中,最后基于这些数据进行城市租房信息的查询和聚合分析等。所用环境:OS:Ubuntu16.04Python3MongoDB:v3.4.20准备安装本实验所需依赖库下载方式.

2020-05-15 21:02:52 4270 16

原创 印象笔记怎么调整安装盘的位置

https://jingyan.baidu.com/article/b87fe19e5c8d5d52183568ab.html

2020-05-12 09:54:00 344

原创 Redis安装、使用与编程

一、安装与使用Redis1)sudo apt-get update2)sudo apt-get install redis-server3)启动serverredis-server4)启动clientredis-cli5)存储数据写法:set key value示例:set name xiaoming6)获取数据写法:get key示例:get name7)订阅消息写法:subscribe 主题示例:subscribe chat8)发布消息写法:publish 主题

2020-05-10 21:37:32 84

原创 Python xml.etree.ElementTree解析XML文件

https://blog.csdn.net/weixin_36279318/article/details/79176475

2020-05-09 20:50:51 91

原创 利用IDEA创建maven项目实现Pig用户自定义函数

一、什么时候需要用户自定义函数呢?和其他语言一样,当你希望简化程序结构或者需要重用程序代码时,函数就是你的不二选择。Pig的用户自定义函数可以用Java编写,也可以用Python或Javascript编写。下面我们以Java为例进行介绍。1、利用IDEA创建maven项目,并在Pom.xml中添加依赖如下<dependencies> <dependency>...

2020-04-29 20:16:20 438

原创 利用IDEA创建maven项目实现Hive用户定义函数练习

一、有时要用的查询无法直接使用Hive提供的内置函数来表示。通过编写用户定义函数(User-Defined Function,UDF),Hive可以方便地插入用户写的处理代理并在查询中调用它们。1、利用IDEA创建maven项目,并在Pom.xml中添加依赖如下<dependencies> <!-- 添加依赖组件,根据上方配置的版本参数和repository知识库下...

2020-04-29 18:43:58 994

原创 5. 使用多个文件练习:分别在当前目录中手动创建4个文本文件,名字分别命名为:毕业的日子.txt,最平凡处最美丽.txt,花开如笑.txt。分别读取每一个文本文件,统计文件中的句子数量。使用异常模块来

for filename in ["zuoye/wenjian/毕业的日子.txt", "zuoye/wenjian/花开如笑.txt", "zuoye/wenjian/最平凡处最美丽.txt"]: with open(filename, "r") as file: count = 0 comment = file.read() for i...

2020-04-27 17:32:28 258

原创 4. 在当前目录新建目录img, 里面包含100个文件,100个文件名各不相同(X4G5.png),将当前img目录所有以.png结尾的后缀名改为.jpg。

def gen_code(len=4): # 随机生成4位验证码 li = random.sample(string.ascii_letters+string.digits, len) # 拼接为字符串 return "".join(li)def create_files(): # 随机生成100个验证码 li = [gen_code() f...

2020-04-26 21:49:59 585

原创 3. 生成一个大文件ips.txt,要求1200行,每行随机为172.25.254.0/24段的ip;读取ips.txt文件统计这个文件中ip出现频率排1的ip;

filename = "zuoye/wenjian/ips.txt"with open(filename, "w", encoding="UTF-8") as file: for i in range(1200): file.write("172.25.254."+str(random.randint(0, 255))+"\n")with open(filename, "r", ...

2020-04-26 16:16:43 843

数据可视化案列 电影租赁可视化

数据可视化案列 电影租赁可视化

2021-01-22

在线考试管理系统 java web 课程设计

在线考试管理系统 java web 课程设计

2021-01-22

教研管理系统 java web 课程设计

教研管理系统

2021-01-22

高校宿舍管理系统的设计与实现 java web

高校宿舍管理系统的设计与实现 java web

2021-01-18

neo4j-java-driver-1.4.1 (1).jar

连接eclipse和neo4j的驱动器,在eclipse中连接图数据库时所需的驱动器,压缩文件的形式,但不需解压,只需在相应项目文件下的库中添加就可以了。

2020-02-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除