自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 1024程序猿节日徽章领取

今天程序猿节日,在这里祝大家节日快乐,早日年薪 过百万!PS:还是想混一个徽章。

2023-10-24 09:03:37 113

原创 使用PyCharm编写爬虫程序,爬取当当网 Top 500 本五星好评书籍

获取到源代码,对其进行解析,使用正则获取想要的关键信息,获取到之后封装数据。我们就使用 requests 和 re 来写一个爬虫。那么我们等会在 python 中可以用一个变量。那么我们等会在 python 中可以用一个变量。3.首先我们要对我们的目标网站进行分析。那么我们等会就可以使用正则表达式。链接地址的最后一个参数会跟着变。链接地址的最后一个参数会跟着变。我们要的就是前 500 本书的。我们可以看到是这样的一个网页。也就是我们翻到第几页的时候。也就是我们翻到第几页的时候。

2023-09-19 18:00:52 440

原创 基于UBuntu18.04搭建CDH6.3.2集群

尽管时间同步对于大多数目的来说都很好,但是对于即使是最轻微的时间扰动非常敏感的一些应用程序也可以通过ntpd更好地服务,因为它使用更复杂的技术来不断地逐步保持系统时间的正常运行,故而此处还是使用NTP来进行时间同步。deb [arch=amd64] http://本机IP/cloudera-repos/cm6/ bionic-cm6.3.1 contrib。去/var/www/html目录下,将index.html删除或者改名,这样就不会出现默认界面,而是会变成下面的文件服务器。可用来调整服务器时间。

2023-06-07 14:13:00 1261 6

原创 SparkDF存储目标表修改字段类型解决过程

因为SparkDF中的check_health_id、column_name、row_res字段被推断为字符串类型string,而MySQL表中的该字段定义为varchar类型,所以在写入数据时Spark会尝试将string类型转换为MySQL中的varchar类型。由于varchar类型是可变长度的字符类型,因此MySQL JDBC驱动程序可能会将Spark中的string类型映射为MySQL中的text类型。原始问题,指定前三个字段类型后,SparkDF存储数据后出现,更改字段类型。

2023-05-31 10:26:52 443

原创 SparkDF获取URL存储大批量数据到Mysql丢失连接的问题

本次分享是由真实案例场景。

2023-05-19 11:58:58 202

原创 IDEA远程debug之调试spark on yarn 程序(基于CDH平台)

启动idea 的debug 模式就会进入断点。如何一直不进入断点或者显示连接失败的话操作如下。之后在IDEA中修改此任务的IP即可进入。通过CDH进入yarn的应用程序界面。第三步 远端启动spark项目。第一步 将jar包拷贝到集群。第二步 配置idea。第四步 启动idea。

2023-04-26 16:55:23 601

原创 Solr6.0.0基本操作

此处的18080为tomcat的端口 可根据实际情况自行修改。

2023-03-24 17:42:34 197

原创 浅谈Spark

本次分享案例参考厦门大学数据库实验室。

2022-11-28 13:44:29 487

原创 使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站

有两种执行Scrapy爬虫的方法,第一种是在Terminal窗口中输入命令“scrapy crawl poemSpider”,然后回车运行,等待几秒钟后即可完成数据的爬取。在Terminal窗口输入命令“cd poemScrapy”,进入对应的爬虫工程中,再输入命令“scrapy genspider poemSpider gushiwen.cn”,这时,在spiders目录下会出现一个新的Python文件poemSpider.py,该文件就是我们要编写爬虫程序的位置。同级目录下生成的data.txt文件。

2022-11-25 14:19:17 6853 12

原创 navicat 密码查看技巧

时间久了,当我们以前连上了navicat 之后,密码忘记了,但是依然能连接,此时我们想查看密码,应该如何操作呢。导出之后,我们会得到一个connections.ncx文件中找到password,然后复制出来。点击Navicat文件选项,勾选需要导出的数据库,导出的时候一定要勾选导出密码。将如下PHP代码复制进去,替换解密部分为复制出来的password内容。复制出来password内容需要对密码进行破解。点击执行,右边运行得到密码。打开以下链接破解网站。

2022-10-24 08:56:52 755

原创 CDH5.16.1集成 Phoenix

下载链接http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/

2022-08-11 12:14:48 498

原创 $‘\r‘: command not found 的解决方法

Linux运行脚本出现换行符错误

2022-07-28 09:13:33 1416

原创 CDH-Spark2-shell启动失败

CDH5.16.1版本spark2.4.0版本报错信息如下图所示报错原因分析:Spark1.4以后,所有spark的编译都是没有将hadoop的classpath编译进去的。所以必须在spark-env.sh中指定hadoop中的所有jar包。进入Spark2组件,点击配置选项,搜索如下:spark-env.sh配置如下export SPARK_DIST_CLASSPATH=$(${HADOOP_HOME}/bin/hadoop classpath)之后重新部署客户端配置再次启动s

2022-05-16 21:32:43 579

原创 Java基于对比TXT文件,输出不同差异以及存储

Java基于对比TXT文件,输出不同差异以及存储到文本格式需求:两个文本文件,不同行数,相同数据保留,差异数据输出到另一文件中可输出为TXT、CSV、HTML格式文本数据展示这里有两种获取文本方式、可自行选择package text;import java.io.*;import java.util.ArrayList;import java.util.List;import java.util.stream.Collectors;/** * @Description T

2022-04-22 15:15:09 1287

原创 机器学习--监督学习以及无监督学习案例

监督学习以及无监督学习案例课件以吴恩达机器学习案例进行分享作为加深印象附上github链接: 吴恩达机器学习课程的教学文档.监督学习监督学习是指我们给算法一个数据集,其中包含了正确答案,举个例子就是说,我们给他一个房价数据集,在数据集中的每一个样本,我们都给出正确的价格,即这个房子的实际卖价如下图给出的图片表示我们能清晰的看到已经给出了确定的样本值算法的目的就是给出更多的正确答案例如,为你朋友想要卖掉的这所新房子给出估价用更专业的术语来定义它也被成为"回归问题"这里的回归是指我

2022-03-02 15:46:12 5995

原创 CentOS-7挂载离线yum源

CentOS-7挂载离线yum源下载离线镜像源:链接: 北京大学开源软件镜像站上传镜像源到任意目录以下小编上传到此目录下:使用mount命令挂载到合适目录命令如下 mount -o loop CentOS-7-x86_64-DVD-2009.iso /media/cdrom/如果 /media/目录下没有cdrom,就手动创建一个cd /mediamkdir ./cdrom挂载镜像文件mount -o loop CentOS-7-x86_64-DVD-2009.iso

2022-01-17 14:56:32 1026

原创 shell脚本输入任意数组或则数字输出最大值、最小值、平均值

shell脚本输入任意数组或则数字例如 2 3 4 5 6 7 8 9,输出最大值、最小值、平均值编辑命令!编辑脚本名称vim shell.sh进入脚本输入如下:#!/bin/bashmin=$1max=$1sum=0for i in "$@"do if test $min -gt $i then min=$i fi if test $max -lt $i then

2021-12-27 11:11:15 4366 1

原创 Navicat 连接Oracle数据库提示cannot create oci handles问题解决方法

Navicat 连接Oracle数据库提示cannot create oci handles问题解决方法早起登陆本地连接Oracle 数据库发现报错连接不上显示如下图所示解决办法更新oci.dll文件(小编从Oracle官网下载的最新版本)链接: Oracle下载OCI.DDL这里我下载的是instantclient_21_3版本的。附上链接:instantclient_21_3版本下载下载后解压缩 instantclient_21_3,然后整个解压后的文件夹,拷贝到Navicat

2021-12-27 10:11:21 5202

原创 FlinkStandaloneHA集群搭建

FlinkStandaloneHA集群搭建本次安装是基于CDH环境下安装flink相关jar包下载:flink1.11.1版本下载hadoop连接jar包:连接包下载直达通道如果嫌麻烦,百度网盘直达车:链接: flink相关jar包提取码:1234上传flink安装包到指定目录使用Xftp上传到指定位置解压jar包tar -zxvf flink-1.11.1-bin-scala_2.11.tgz修改配置文件cd flink-1.11.1/conf/vim flink-conf

2021-12-14 17:39:39 1833

原创 处理Maxwell监控Mysqlbinlog问题

处理Maxwell监控Mysqlbinlog问题解决前言:今天启动Maxwell获取mysqlbinlog日志发现启动报错,发现找不到类似于:com.zendesk.maxwell.schema.ddl.InvalidSchemaError: Couldn’t find table 't_user1’这种报错解决办法:找到启动报错的binlog存储二进制文件类似于这种启动之后会报错,找不到对应库的名称,或者表名分析:Maxwell 数据库里面会记录各种自己同步的时候会需要用到的信息,当

2021-12-10 15:21:11 2040 3

原创 idea连接Linux服务器配置方式

idea连接Linux服务器配置方式点击file–>settings–>Deployment填写你自己的Liunx服务器IP地址以及用户名和密码注释:如果你的linux端口号不是22根据修改过的端口来,点击Apply–>ok即可之后选中idea项目栏中的Tools–>Start SSH session选中设置好IP即可这时就能看到已经连接上Linux服务器了还可以打开linux文件系统,将所需要的东西部署到服务器上...

2021-12-09 15:52:50 1565

原创 flink实时计算kafka数据,存储到Mysql(Scala版本)

Flink实时计算kafka数据,存储到Mysql(Scala版本)本文是在基于搭建好集群执行此项目架构图代码案例一package com.jt.flink.Countimport java.sql.{Connection, DriverManager, PreparedStatement}import java.text.SimpleDateFormatimport org.apache.flink.api.common.restartstrategy.RestartStrategie

2021-12-08 18:30:29 4329

原创 Maxwell安装与配置

Maxwell安装与配置maxwell 是由美国zendesk开源,用java编写的Mysql实时抓取软件。其抓取的原理也是基于binlog。点击此处跳转Maxwell官网上传maxwell安装包到指定路径解压:tar -zxvf ./maxwell-1.10.7.tar.gz拷贝一份原始配置文件cp ./config.properties.example ./config.properties修改配置文件vim config.properties修改或添加如下配置

2021-12-08 10:24:24 4438

原创 解决idea中pom.xml文件没有变蓝问题

解决idea中pom.xml文件没有变蓝问题新导入或者拉取的项目中pom没有变蓝或者不显示Maven窗口如下所示: Text-to-HTML conversion tool解决如下所示右键项目中pom.xml,右键点击add as maven project稍等一会儿导入依赖就可以...

2021-12-08 09:53:16 2579

原创 完全删除Kafka以及zookeeperTopic

完全删除Kafka以及zookeeperTopic这里展示的是基于CDH的kafka以及zookeeper环境下删除Topic创建KafkaTopickafka-topics --create --zookeeper **.**.**.**:2181/kafka-server --replication-factor 1 --partitions 1 --topic test启动kafka生产者kafka-console-producer --broker-list **.**.**.**:90

2021-11-25 13:58:30 1223

原创 Mysql开启binlog

mysql开启binlog配置配置查看是否开启可binlog如果没有开启 就改一下mysql配置文件修改配置文件如下重启mysql服务查看binlog是否开启成功配置查看是否开启可binlogshow variables like '%log_bin%';如果没有开启 就改一下mysql配置文件linux(/etc/my.cnf)修改配置文件如下log-bin=ONserver-id=1binlog_format=ROW以上配置支持Mysql5.7以上版本重启mysql服务

2021-11-24 11:20:59 837

原创 Mysql添加用户、修改权限,修改登录权限ip

Mysql添加用户、修改权限,修改登录权限ip列出所有用户SELECT User, Host, Password FROM mysql.user;增加一个用户以下创建为测试用户用户:maxwell密码为 123456让它可以在任何主机上登录,并对所有数据库有查询、插入、修改、删除的权限。首先用以 root 用户连入 MySQL,然后输入以下命令创建用户rant all privileges on *.* to maxwell@localhost identified by

2021-11-23 17:47:51 2588

原创 Centos7快速搭建Gitlab服务器及问题解决

Centos 7搭建Gitlab服务器及问题解决1、安装并配置必要依赖关系在CentOS系统上安装:1.ssh2.防火墙3.postfix(用于邮件通知) 4.wget1、sshsudo yum install -y curl policycoreutils-pythonopenssh-server注释:因为之前安装过出现这种情况2.将ssh服务设置开机自启sudo systemctl enable sshd 3.启动ssh服务sudo systemctl star

2021-11-19 11:18:53 1634

原创 Linux使用wget下载文件时报错

报错信息如下:To connect to ohse.de insecurely, use ‘--no-check-certificate’.注释:远程调用下载文件直接用wget就可以,一般文件路径类型是http,如果有遇到是https就会下载出错。解决办法:只需要在wget后面加上:–no-check-certificate就可以,需要一个认证下载指令而已。命令如下:wget --no-check-certificate https://mirrors.tuna.tsinghua.e

2021-11-19 09:40:02 3808

原创 Linux下Centos7对外开放服务端口

Linux下Centos7对外开放服务端口查看对外开放的端口状态查询已开放的端口查询指定端口是否已开对外开放端口查看想开的端口是否已开:添加指定需要开放的端口:重载入添加的端口:查询指定端口是否开启成功:移除指定端口:查看防火墙设置查看防火墙状态开启防火墙关闭防火墙开启防火墙若遇到无法开启先用:然后:示例图安装iptables-services :进入下面目录进行修改:查看对外开放的端口状态查询已开放的端口命令:netstat -anp查询指定端口是否已开命令:firewall-cmd --qu

2021-11-19 09:08:54 363

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除