自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (9)
  • 收藏
  • 关注

原创 硬分叉和软分叉

硬分叉官方的解释是比特币区块格式或交易格式发生改变时,未升级的节点拒绝验证已经升级的节点生产出的区块,不过已经升级的节点可以验证未升级节点生产出的区块,然后大家各自延续自己认为正确的链,所以分成两条链。软分叉(官方解释)软分叉是指比特币交易的数据结构(这就是被广泛流传的“共识”)发生改变时,未升级的节点可以验证已经升级的节点生产出的区块,而且已经升级的节点也可以验证未升级的节点生产出的区块。随着BTC的用户群体扩大,越来越的用户接触并拥有BTC。针对于扩容的需求用户产生了不同的理念软分叉和硬分叉;...

2022-07-18 14:40:53 2863 1

原创 KOL系统分类

何为KOL?KOL就是Key Opinion Leader,是指意见领袖的意思,是指在某个领域发表观点并且有一定影响力的人。其实KOL在我们现在的日常生活中,不光可以是领域的领袖,还可以是各类网红、美妆博主、主播,甚至是明星艺人等,只要是能够在某一方面对大量的人群有所影响,都可以是KOL,因此,KOL营销更是被广泛运用到推广营销当中去。在这个数字化时代,营销明星已经不能满足这个市场,从而衍生出新的职业——网红KOL。KOL简单来说就是意见领袖、有影响力和权威性的人。在数字经济时代下,一切都变得碎片化

2021-08-24 12:01:40 1358

原创 MYSQL 去除空格、换行、tab

按照ASCII码,SELECT char(64)例如64 对应 @,则select REPLACE(‘[email protected]’,char(64),’kk’)则结果为 abckkqq.com依此类推,去掉其他特殊符号,参考ASCII码对照表,去掉tab符号为 select REPLACE(‘要替换的字符或列名’,char(9),’替换的目标字符’)去掉空格符号为 select REPLACE(‘要替换的字符或列名’,char(32),’替换的目标字符’)去掉换行符号为 selec

2020-12-08 10:46:55 1505

原创 kettle组件-行转列

使用场景描述使用组件【转换-》行转列】

2020-07-21 16:31:48 264

原创 python 实现多表组合

A库中a表字段:A库a表 原名称 序号 提交时间 微信OpenID 饮食方案评价 运动方案评价 管理师评价 现在名称 id inputTime wxOpenId eatProgram motionProgram mTEvaluation 注:a表提交时间格式为:时间戳:需要转换为时间格式B库中b表字段:.

2020-06-16 10:14:07 344

原创 列转行与数据集连接在业务场景的组合应用

今天业务部门提出了一个数据需求,需要将两批数据整合在一起,并要求固定的格式。需求图以前做这种图都是通过excel的vlookup,但涉及到业务类型,需要增加行的就比较麻烦了。现在通过kettle 的列转行和数据集连接实现这个功能制作流程图列转行组件的各部分代表意义列转行组件记录集连接(left out)记录集连接如有疑问可咨询微信:c243126035...

2020-05-09 11:53:50 174

原创 行列转换小工具

近期在做数据迁移时看到以往的日常报表格式如下图左边,而我入库的结构为下图右边。具体的实现方式:使用kettle的行专列组件进行转换1、转换步骤名称:步骤的名称,在单一的转换中,名称必须唯一。2、Key字段:即关键词字段,行转列操作后,在此配置的字段会形成一个新字段,“Key字段”就是为这个新字段名称。其值为行转换组件中配置的所有“Key值”集合。3.字段:指定用来转变的字段集合,点击右...

2020-04-29 17:01:27 974 5

原创 kettle 十分钟百万数据迁移

现在需要对以往数据进行整合并进行数据迁移确定目标表 数据源及数据量如下待迁移数据 目标表与Z0_工单_整理备份 的字段是一致的。为了方便后续操作(增删改查、数据迁移、增量备份)需要新增几个字段 1、 id 作为主键,方便更新、删除等修改操作 2、inserTime 数据插入时间,记录更新频次 3、updateTime 时间戳,记...

2020-01-20 10:32:29 3453 2

原创 kettle 优化表输出

今天进行教室信息整理数据入库的时候,因为更换了mysql服务器。导致数据插入速度极慢,因此需要调优——增大数据插入速度。所以考虑了一些方式 原本将近7分钟插入的数据只用不到三秒解决,下面是优化方式及结果目录 mysql连接数优化kettle 数据库插入操作优化kettle 允许线程多开适当提高数据集的大小增加Java虚拟机内存更改表输出提...

2019-12-08 15:13:01 1186

原创 python selenium 入门使用教程-环境安装

前提条件:安装好python3.5及以上版本、安装好PyCharm安装步骤:1、安装seleniumPyCharm-》File-》Settings-》Project Interpreter-》+-》selenium2、安装webdriver各大浏览器webdriver地址可参考:https://docs.seleniumhq.org/download/Firefox:htt...

2019-11-21 13:52:48 123

原创 mysql SUBSTRING_INDEX在业务场景的应用

业务问题教育行业当中,在进行排课时,需要对人数少的同类班级进行合并。合并之后在统计班级当前人数时,需要对合班关联班级的当前人数进行加和作为合班班级的合班人数。那么如何通过代码实现合班人数的计算呢?假设现在的表结构如下(合班人数为目标值)班号 当前人数 合班关联班级 合班人数 A 1 A,B,C 6 B 2 A.B 3...

2019-11-12 17:17:25 244

原创 pycharm import

个人笔记,pycharm引用包pycharm-》File-》setting-》Project Interpreter -》 + -》输入包名-》下载等待成功

2019-11-07 10:37:59 435

原创 Java selenium 第三课 驱动加载方式

正常加载驱动的方式System.setProperty("webdriver.chrome.driver", "E:/googledriver/chromedriver.exe");WebDriver driver = new ChromeDriver();需求更改后加载驱动的方式1、加载驱动后调整页面的大小2、隐藏浏览器窗口3、禁止加载图片 //chromedri...

2019-11-05 11:27:39 454

原创 kettle Excel输入 使用注意事项

1、组件位置2、组件功能读取数据可同时读取多个excel内 sheet名称不同 sheet内字段相同的多个excel内的数据处理数据对字段的类型、长度、经度、格式等进行整理3、使用流程不做错误处理:文件(选择表格引擎;添加文件或目录添加读取excel)---》工作表(选取使用的sheet)---》字段(获取来自头部数据的字段)---》规整格式---》预览文件(选...

2019-10-23 18:08:02 5165 7

转载 selenium webdriver 页面刷新

本文参考文章:https://blog.csdn.net/xiaoguanyusb/article/details/80703708页面刷新使用的方法driver.navigate().refresh();页面刷新的五种方式,其中最常见的为第二种。/**1.Using sendKeys.Keys method点击页面的刷新按钮*/driver.get("https://...

2019-10-21 13:59:30 3282

原创 Java selenium第二课 句柄转换

selenium 使用时如果点击操作新打开一个页面就会涉及到句柄的转换//转换句柄String[] handles = new String[driver.getWindowHandles().size()] ;driver.getWindowHandles().toArray(handles);//切换到详细的页面driver.switchTo().window(handles[1...

2019-09-26 14:27:20 407

原创 Group By 分组并取第一条数据

MYSQL GROUP BYmysql 我使用排序进行筛选,保证分组、排序之后我的第一条数据就是我要的数据SELECT a.code , a.type AS 班型 ,MAX(a.num)FROM ( SELECT * FROM cent_ylb_numclass GROUP BY CODE, type ORDER BY CODE...

2019-09-26 14:16:31 23168 1

原创 jvaa 模拟http get 获取json

一、HTTP简介HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写。HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息。 二、HTTP工作原理HTTP协议定义Web客户端如何从Web服务器请...

2019-09-19 14:15:42 190

原创 java selenium 基础第一课

最近开始回顾爬虫,主要是用selenium,爬取一些动态生成的页面。1、谷歌浏览器驱动selenium 可以搭配各种浏览器,只要能够匹配到驱动即可,我主要使用谷歌浏览器,浏览器和驱动版本号对应关系如下图驱动下载地址:http://chromedriver.storage.googleapis.com/index.htmlwindows、linux、moc驱动是不一样的,驱动下载完成...

2019-08-30 15:07:16 119

原创 kettle入门级操作第一篇(读取excel、输出excel)

目录一、excel 读取并更改信息格式1读取信息1)、文件2)、工作表3)、错误处理4)字段二、数据更改1、数值类型保留小数2、时间类型规范格式一、excel 读取并更改信息格式1读取信息组件位置:转换-》输入-》Excel 输入组件使用:1)、文件表格类型(引擎):Excel 97-2003 XLS (JXL) : 读取03版本...

2019-08-11 15:32:13 12496

原创 sql 时间处理(SQL SERVER\ORACLE)

1、获取当前时间#dtbegindate : 数据库内时间#extract(MONTH FROM dtbegindate) :获取dtbegindate 内的月份#to_char (sysdate, 'yyyy-MM-dd') : 获取当前时间并转换为固定格式字符类型#to_date (to_char (sysdate, 'yyyy-MM-dd'),'yyyy-mm-dd'): 获取...

2019-08-09 16:04:17 170

原创 java 时间处理

JAVA 获取时间的类有很多,今天对Date类与Calendar类进行使用总结1、获取当前时间及转化Date date = new Date();System.out.println(date);//cal作为Calendar类的子类对象,对应用户所在的时区Calendar cal = Calendar.getInstance();System.out.println(now....

2019-07-31 10:25:43 133

原创 kettle EXCEL 累计输出数据

项目当中有些数据是需要进行累积的,每次读取原有数据再写入全部数据,耗时太多。以前输出excel 都是直接选择 kettle 当中的 Excel输出,然而今天眼前一亮。Excel输出 输出的excel为2003版本的很多 excel 函数是不支持的。经我猜想这Microsoft Excel 输出肯定是支持2007版本的excel的。经我探索发现:1、可以输出2007版本exc...

2019-07-26 16:01:46 999

原创 kettle引用外部脚本完成电话号码清洗、去重缩进

项目需要对电话是否真实进行判断,并去除重复项。今天在项目当中引用java 脚本进行数据清洗时,创建List<String> 之后程序就各种报错。求大神指教~~~于是参考了张小凡vip的kettle案例四使用java脚本进行数据处理,解决了遇到的问题。1、电话清洗电话分为两种:座机、手机清洗规则如下:正则匹配出其中全部的数字;删除首位非0数字前的全部0;针...

2019-07-22 18:24:47 750

原创 kettle 合并记录 数据减少

今天进行数据合并操作遇到这样一个问题:合并记录为207条、输出为206条参考了其他人的文章提供的结局思路1.在操作db时,控制顺序,先delete,后insert,这样数据不会少2.我猜测,一个修改的数据可能在判断是新增、修改、删除时,在旧数据源没有最快找到记录,就标记成new,后面在旧数据源找到一条数据,在新数据源中(已经过去的数据不考虑)没有找到,就标记成deleted所以解...

2019-07-18 11:58:24 1531

原创 kettle 分列、合并记录

项目当中遇到一个问题一个班级会和其他班级合班。合班的数量不一定。目前人数= 合班班级目前人数之和。处理思路分列,获取班级目前人数,过滤,排序记录、分组、输出结果实践1、目前数据的原始格式:2、分列分列组件位于:转换-》列拆分为多行分列组件需要制定拆分字段、分隔符。在特殊需求下可以结合正则表达式进行数据拆分。分列后结果:3、获取目前人数目...

2019-07-16 14:20:07 5138 1

原创 sql 字段类型转换

1、mysql vchar 转 int、double等 MySQL 的CAST()函数可用来获取一个类型的值,并产生另一个类型的值 cast()函数是一个转换函数,参数是一个表达式,它包括用AS关键字分隔的源值和目标数据类型。 cast 转换为double 类型,对于D\M取值注意事项。 #公式CAST(value as type);#vchar...

2019-07-15 09:03:19 12594

原创 利用 Fastjson json (简单粗暴版)

参考博客:https://blog.csdn.net/qq877507054/article/details/51395852先看json的样式:含有多个数组。{ "status":0, "message":"ok", "total":134, "results":[ { "name":"北京市dnf小学", ...

2019-07-11 16:26:07 137

原创 利用kettle HTTP Client 获取百度API区域位置内相关信息,并解析json

Kettle 除了常规的数据处理之外,还可以模拟发送HTTP client/post ,REST client。这几天我用HTTP GET 请求访问了百度 提供的接口(百度地图开放平台),并通过kettle、java两种方式进行了解析。kettle使用组件是 json input ;java使用的 阿里巴巴Json工具 :Fastjson ;对于新手来说kettle 的HTTP G...

2019-07-11 09:44:41 3414 1

原创 kettle switch / case 控件实现分类处理

在做数据清洗的时候,经常要根据一个或几个字段的内容进行某一字段值的判断。往常针对多个字段我都是通过 java脚本 完成。但是~~~java脚本经常会出现各种奇奇怪怪的问题,比如ecplise运行没问题,java脚本就出现错误。蛋疼.jpg所以哪怕麻烦点也想换个一次成功的,这时候switch / case 组件搭配 将字段值设置为常量 组件发挥了作用。二者分别位于流程(sw...

2019-07-03 09:41:41 3306

原创 SQL server top 关键字使用

查询有时并非需要取出全部的数据,当我们只用到其中一部分时,就需要一些关键字配合。MYSQL的关键字是limit,SQL server的关键字是top。SQL server top 关键字的使用:#取出数据的前三条select top 3 * from table#取出数据的前百分之20select top 20 percent * from table#从查询的200...

2019-07-03 09:16:08 4454

原创 kettle java脚本数据字段类型非常规

使用kettle的java脚本对数据进行清洗,但是发现清洗完成之后无法插入数据库、excel输出。报错如下图:文章当中显示的错误类型为:字段类型不一致查看源代码,可以发现kettle中的数据类型,跟java的对应数据类型如下:case ValueMetaInterface.TYPE_STRING : parameterType = String.class; break;cas...

2019-06-25 18:27:46 1785

原创 kettle JVM内存设置---效果不明显

1、查看本地JVM内存大小 JVM初始分配的内存由-Xms指定,默认是物理内存的1/64;JVM最大分配的内存由-Xmx指 定,默认是物理内存的1/4。默认空余堆内存小于 40%时,JVM就会增大堆直到-Xmx的最大限制;空余堆内存大于70%时,JVM会减少堆直到-Xms的最小限制。因此服务器一般设置-Xms、 -Xmx相等以避免在每次GC 后调整堆的大小。可以利用JVM提供的-Xmn...

2019-06-20 17:39:42 13300 4

原创 kettle 通过java脚本对数据进行标注

在项目当中遇到一种情况:我需要根据不同字段的值综合判断该数据属于我划分的哪种类型。如果是单个字段我们可以根据kettle提供的switch / case 组件进行判断并赋值,但是如果通过多个字段或者是添加某种限定条件对数据整体进行处理,该组件的功能不足以支持。这种时候我开始怀念以前用java进行数据清洗,内存崩了的时候。java为我们数据清洗提供了更加广泛的维度,恰巧kettle提供的多种脚本...

2019-06-20 14:13:27 1361

原创 kettle8.2 安装及常见问题

刚才写博客发现没有发过kettle 安装的流程,这里写一下。kettle是纯java手写的可视ETL处理工具,因此~~需要java程序的运行环境JDK.1、下载kettle压缩包(百度网盘8.2.版本kettle)链接:https://pan.baidu.com/s/1HPH8Da5EPWhUAXeLR7zRUQ提取码:vrkc2、解压到自己的电脑 注意事项不要有...

2019-06-20 12:00:44 5979 3

原创 kettle学习——8.2版本的资源库配置变为灰色,且没有了Connect按钮

资源配置变为灰色的3种情况 1) JDK版本不对,JDK需求为1.8版本 2)IE浏览器未升级,IE浏览器版本需求为9及以上,且需要部分必备更新。 必备更新文件百度网盘链接:https://pan.baidu.com/s/1eIf8bKi8De5jepJofoshPA 提取码:mvwk 3)repository.xml文件出现了乱码问题,解决方法:...

2019-03-01 11:31:36 7434 5

原创 Webmagic+selenium+chromedriver+jdbc垂直抓取数据。

新手小白入手selenium+chromedriver爬虫,爬取各种网站之后觉得只要能看到的都能抓到是真方便,就是效率低了点。所以开始加点东西提高一下爬虫效率。对我来说最直接的方法就是单线程变多线程~~~1、webmagic爬取数据  规则 框架 Selenium webmagic 抓取规则 针对单...

2018-09-18 17:28:12 2767 4

原创 IPFS在linux环境搭建

在linux(Ubuntu)当中部署ipfs查看当前linux操作系统的版本号查看当前的linux操作系统能够帮助我们在官网:https://ipfs.io/当中下载相应的版本不过官网需要进行翻墙,没有安装包的可以去我的博客拿,或者微信我1、创建一个文件夹(ipfs)并将压缩包上传到当前文件夹sudo mkdir ipfscd ipfssudo rztar xvfz...

2018-08-02 15:51:39 6308 3

原创 ipfs通过接口获得公钥、私钥,并加密存储。第一弹

参考资料:入门篇 - &gt; IPFS + Rthereum (上篇)-js -ipfs -apihttps://www.cnnuo.com/Show/index/cid/24/id/217.html#31-%E5%AE%89%E8%A3%85create-react-app最近在研究区块链的底层存储技术---&gt;&gt;&gt;IPFS. 首先明白要用到的上传文件、下载文件、链接节点、显示...

2018-04-09 17:19:38 4047 3

原创 Selenium 抓取玩加赛事数据第一弹

抓取玩加赛事的王者荣耀的相关数据第一弹---&gt;战队基本信息    一、页面分析        1、战区分析                          目前的玩加赛事王者荣耀页面,全球 和中国 的数据是完全一样的。所以抓取任务只涉及全球。后期更新任务应该考虑到其他战区的内容。        2、 战队战力值存储                         战力值右边的方块要进行存储...

2018-03-19 16:26:01 1002

go-ipfs_v0.8.0_windows-amd64.zip

go-ipfs Windows 64 位 下载包

2021-04-27

go-ipfs_v0.8.0_linux-amd64.tar.gz

go_ipfs linux 64位 下载包

2021-04-27

跨平台数据整合.ktr

实现对多个库内的多个表,进行数据提炼,并通过唯一标识关联A\B两张表,形成新表C,整合c表字段类型、格式输出到指定数据库

2020-06-16

目标量拆解入库.ktr

通过kettle实现excel读取、行列转换、字段规整。实现关系型数据结构,便于其他程序使用。

2020-04-29

读取测试文件.ktr

通过使用kettle组件进行excel读取,并对excel进行基本的数据处理

2019-08-11

电话号码清洗.ktr

对指定电话进行清洗,去重。筛选出符合规则的电话信息返回

2019-07-22

拆解合班情况.ktr

对某一列进行拆分,并按照拆分的数据对应其他数值,最后根据拆分结果、对应数值进行分类统计。

2019-07-16

SSM框架JAR

直接进就能用的ssm框架,亲测可用吆,

2018-09-19

ipfs云存储压缩文件

ipfs云存储的压缩文件,将其解压后直接可用,版本为0.4.13,可通过更新指令更新到最新

2018-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除