自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Azkaban有依赖关系的.flow文件

场景需要遇到有依赖关系的shell脚本执行单纯的做一下记录config: failure.emails: [email protected] retries: 3 retry.backoff: 5000nodes: - name: job_user_s type: command config: command: sh user_s/user_s.sh - name: job_user_s_azkaban type: command depends

2020-08-15 11:47:13 1063 1

原创 MySQL【Query execution error: : Value cannot be cast to time】解决方式

Query execution error: : Value cannot be cast to time 错误排查问题描述没有问题的查询SQL有问题的插入SQL报错信息错误排查问题描述修改后SQL总结问题描述可以正常查询的SQL,将结果集插入到目标表中出现时间格式的转换错误,经过分析是由于日常字段数据转换不规范导致没有问题的查询SQLSELECT* FROM (SELECT DATE_SUB( '2020-07-23', INTERVAL 1 DAY ) AS 'date_time',

2020-07-27 17:41:39 3016

原创 控制台打印:Timed out receiving message from renderer:0.100原因分析

问题描述: 这几天进行违章系统爬虫的开发,使用了Selenium工具,下载最新的Chrome浏览器,使用对应的版本驱动,ChromeDriver,控制台打印如下:控制台的这些打印是不被期望的结果,严重干扰控制台的可读性分析原因:1.重新安装了浏览器;2.版本升级到了最新版本;3.对应的驱动也更换成了最新的版本;解决方案:将ChromeDriver换成之前的版本即可...

2020-05-12 14:13:36 6811

原创 sql server获取近两年每周下单量TOP20的城市

业务需求:近两年按周统计每周每个城市的下单量根据订单量统计每周下单量TOP20的城市每周四作为一周的第一天实现SQL如下:SET DATEFIRST 3select * from (select *,ROW_NUMBER() over(partition by 年份,weekCount order by orderscount desc) rowNum from (selec...

2020-02-28 15:48:11 1095

原创 sql server对近两年的时间按周统计,计算一周前的时间,去年同期的时间

最近进行周报相关的报表开发,需求如下:对今年和去年的时间数据按周统计;计算每周的上周开始时间,进行统计数据计算对应数据的环比;计算每周去年同期开始时间,进行统计数据计算对应数据的同比;每周四设为每周的第一天,按照今年的时间为标准;首先看下我写出的SQL:SET DATEFIRST 3SELECT weekCount, StartDate, EndDate, CONVERT...

2020-02-26 10:18:52 1971

原创 MySQL按照操作时间半小时等分时间段统计

难点:业务需求按照操作时间进行等分时间段进行统计半小时的进线量等数据,中间会存在空白的操作时间,将不能讲24小时分割成48段具体的数据如下:截图可以看出12月30号的数据从2019-12-30 10:19:32开始,之前是没有操作记录的1. 可在对应的数据库中新建一张临时表将24小时分割的48段存入表中,进行left join(针对已上线项目,这一操作不是最优的解决办法)2. 在SQ...

2019-12-31 19:01:33 1588

原创 UnsatisfiedDependencyException: Unsatisfied dependency expressed through field 'xxxxxMapper'

今天维护一个之前的项目,遇到数据库表的映射Mapper文件出现UnsatisfiedDependencyException,首先定位到数据库的问题,发现数据库的连接信息错误,由于数据库的服务器迁移,IP地址变化导致的,数据库连接不上,修改对应的数据库IP地址之后,即可正常运行。1.通过debug模式查看到数据库连接Utils中出现的异常2.修改数据库的IP地址解决异常总结:调试问题,...

2019-12-31 17:45:09 1424

原创 使用Navicat关闭MySQL事件

使用Navicat查看MySQL数据库下的事件双击事件,查看事件的定义和计划选中该数据库,点击查询,点击新建查询,使用命令行进行事件的关闭和打开使用命令行关闭该事件alter event Sch_01_XXXX on completion preserve disable;使用命令行打开该事件alter event Sch_01_XXXX on completion preser...

2019-12-31 09:55:00 1880

原创 mybatis下MySQL数据库的批量更新(update by batch)和批量插入(insert by batch)

Java项目中设计数据库的操作,十有八九会遇到批量更新和批量插入的操作,基于mybatis的批量更新和批量插入1.批量插入(insert by batch)使用insert into语法加一层foreach循环实现<insert id="insertByBatch" parameterType="java.util.List"> insert into test (compa...

2019-11-22 18:07:57 1497

原创 BindingException:Type interface XXX is not known to the MapperRegistry

公司之前的非Spring boot项目,需要二次开发,新增表结构之后,在开发的过程中插入数据时遇到下面的异常org.apache.ibatis.binding.BindingException: Type interface com.ehi.oilRecord.dao.OilPerDistributionReserveMapper is not known to the MapperRegis...

2019-11-21 17:16:52 356

原创 携程问答,马蜂窝,百度知道基于每周四爬取数据量分析

由于业务需求,10月份上线了新的爬虫业务需求,爬取链接如下:https://zhidao.baidu.com/http://www.mafengwo.cn/wenda/https://you.ctrip.com/asks/输入相关业务相关热词,抓取对应的问题和答案,问题和答案的内容分析,因涉及公司业务不便分享,现就数据量的分析。百度知道数据需求:若该热词搜素的结果大于5页,则爬取前5...

2019-11-01 17:59:08 205

原创 SQL Server取表中某一条件下第一条数据SQL(PARTITION BY 的应用)

应用场景:取出表中所有车牌号对应车辆状态最新的一条数据(车牌号和车辆状态是一对多的关系,车牌号可以绑定在不同的车辆上,当车辆进行维修,出售,停运等状态时,可将车牌更换车辆,车辆的状态会随之改变)取出某一固定车牌对应的车辆状态,可通过top 1进行操作,如下:SELECT TOP 1 *FROM carWHERE car_no = '沪ADBSJ'ORDER BY date1 ...

2019-10-24 18:19:43 3632

原创 ETL过程中遇到复杂SQL使用存储过程作为替代方案

由于业务逻辑的复杂性,在使用SSIS进行ETL过程时,SQL command允许的SQL语句行数在630行左右,远远小于业务逻辑的SQL,这时将业务逻辑的SQL转换为存储过程。新建存储过程需要做的准备:在对应的数据库下新建一张表,存储再执行存储过程是的结果集创建存储过程执行存储过程进行ETL过程首先创建表create table report_result(id char(10)...

2019-10-23 18:06:26 1899

原创 Cron表达式常用归类

最近经常涉及到自动报表的配置,基于SQL进行自动报表的配置,XXLJob在配置的过程中根据报表的发送频率设置cron表达式,总结如下;通配符使用范围:域通配符秒, - * /分钟, - * /小时, - * /月, - * /年, - * /日, - * / L W周, - * / L #通配符详解:通配符...

2019-10-10 18:07:26 259

原创 百度知道,马蜂窝,携程问答-Java+selenium获取question的title及datetime

由于业务需求,需从百度知道,马蜂窝,携程问答,知乎等站点获取行业相关的提问,进行数据分析,以致于解决行业的问题。1.百度知道(https://zhidao.baidu.com/)由于获取数据的单一性,分析此网站遇到的有点难度的问题是当发布者发布的问题超出一定长度之后,会用省略号的形式,得到完整的数据需点击超链接,进入对应问题的页面方可得到,由于HTTPS的问题,超链接不可直接在Chrome中直...

2019-09-30 18:41:29 196

原创 MySQL删除表中重复数据SQL

工作中遇到MySQL对应系统表中存在脏数据的问题,重复的数据也属于脏数据的一种,如何去除表中重复数据,正确SQL如下:DELETEFROM pg_invoice_info_copyWHERE ( pg_invoice_code, pg_invoice_number, pg_invoice_amount, pg_invoice_tax_amount ) IN ( SE...

2019-09-04 18:41:41 450 1

原创 CertificateException: No subject alternative DNS name matching XXX found 解决办法

最近访问第三方接口传递数据,出现SSL证书认证失败的情况,于是做出了如下努力:1.安装了对应网站的证书,提示证书安装成功,但是还是不可以访问;2.查阅资料,得知JDK8以后添加了证书验证的配置,将对应配置进行修改,发现还是不可以访问;决定在代码层跳出SSL验证异常信息如下:javax.net.ssl.SSLHandshakeException: java.security.cert.Ce...

2019-09-03 19:06:34 28182 7

原创 Java+selenium获取携程旅游页面分类目录爬虫

分析携程旅游页面利用爬虫获取分类目录爬取的数据再页面上的展示爬虫得到的数据展示,得到的数据一起是817条数据页面分析难点剖析1.左边的主目录,F12得到xpath是没有难度的,右边目录可查看建立在鼠标在左边的目录上再移动到右边(截图进行分析,最笨拙的方式);2.当F12查看右边目录的元素时,鼠标离开右边的目录时,F12对应的Elements将消失(通过root向下查找元素...

2019-07-25 19:36:24 428

原创 Protobuf+Java+Spring boot+IDEA应用

1.什么是Protobuf;2.应用环境;3.开发环境;4.具体开发过程;5.总结;

2019-07-08 19:06:20 2264 1

原创 Python爬虫环境配置

Python爬虫初探1.在官网下载Pycharm并安装激活;2.新建项目,打开该工具,进行Python爬虫开发;3.开发之前需要配置爬虫开发需要的import package;4.根据自己的需要在Pycharm中安装即可;5.安装步骤如下:6.安装完成即可开始Python爬虫的程序开发;...

2019-07-02 17:16:36 1945

原创 腾讯云服务器上传文件失败返回403问题及踩过的坑

问题描述公司有一个前后端分离的项目,前端通过公司的公众号内嵌文件上传页面的项目,前端直接和腾讯云服务器进行交互,上传文件,在前后端部署结束的前提下,测试发现通过公众号上传文件失败,返回403错误码,查看API文档,得到如下结果:签名或者权限不正确,demo,testing,预发布测试都是正确的呢,最后定位问题是在线上公众号的域名变了,没有在腾讯云账号中进行配置,进行配置之后问题解决,使用的...

2019-06-21 17:53:32 11221

原创 匿名内部类与Lambda表达式

1.什么是匿名内部类?1.特征上:没有名字;2.实现上:既可以扩展类,也可以实现接口,但是不能两者兼备;3.限制上:如果实现接口,只能实现一个接口;4.功能上:简化代码,符合优先使用类而不是接口的设计思想;举例:/** * @description Service接口 **/interface Service{ /** * @description 接口方法1...

2019-06-20 15:15:32 851

原创 列数据累加SQL

一张cats表中的数据如下: ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190612184125690.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2RpYW55b3U4NzUy,size_...

2019-06-12 18:54:49 5256

原创 分布式蜘蛛浅谈

说明 目前公司需求是主题爬虫的设计实现,与爬虫不同的蜘蛛程序是一个发现目标数据源网站的过程,一般从IP地址开始入手。区别 蜘蛛和爬虫程序的区别: (1)蜘蛛程序用于发现服务,获取有数据的目标网站或者链接;爬虫程序用于分析目标数据网站,爬取数据; (2)蜘蛛的出发点是IP地址,一般通过特定的通用服务端口号,发现活跃的IP地址和端口,从而发现可用服务网站链接;爬虫的出发点是指定的网站URL...

2019-01-09 09:51:00 468

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除