自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 centos7同步网络时间的设置

timedatectl set-timezone Asia/Shanghai

2020-03-05 11:18:10 908

原创 在无网络的机器上pip安装python模块

一、需要先在有网络的机器上把相应的模块安装好在有网络的机器上安装好模块后,执行命令:pip freeze >requirements.txt会在当前目录下生成一个requirements.txt文件,里面是当前已安装好的模块名称,编辑此文件,只保留想要在没有联网的那台机器安装的模块,这里拿paramiko和pymysql举例:然后将指定的模块下载到文件夹package,执行以下命...

2020-01-07 11:34:05 1562

原创 使用SparkStreaming报错java.lang.ClassNotFoundException: org.apache.spark.internal.Logging$class解决方案

在使用sparkStreaming从kafka中采集数据报java.lang.ClassNotFoundException: org.apache.spark.internal.Logging$class错误:我的pom.xml部分依赖如下:解决方案spark的jar包版本过高,不提供org.apache.spark.internal.Logging这个类,因此,将依赖更换如下:问...

2019-08-28 17:19:11 6935

原创 使用SparkStreaming报错java.lang.ClassNotFoundException: org.apache.spark.streaming.StreamingContext解决方案

在使用sparkStreaming做实时数据分析时直接扼杀在摇篮中,报错找不到StreamingContext类:然而我的pom.xml中也导入了相应的依赖:解决方案问题就出在依赖的范围:<scope>provided</scope>这表示编译和测试时有效,并且该jar包在运行时由服务器提供因此只需要将这一行去掉即可:附加compile:默认值,适用于...

2019-08-28 11:06:30 3395

原创 scala学习笔记

Array 数组object Test1_array extends App { var a = Array("sj", 1, "lalala") for(i <- a){ println(i) }}object Test4_array_3 extends App { // map val array = Array[Int]( 2,4,6,8,10 )...

2019-08-20 09:38:02 203

原创 mybatis详细笔记_从入门到与spring整合

mybatis是一个持久层的框架,让程序将主要精力放在sql上,通过mybatis提供的映射方式,自由灵活生成(半自动化,大部分需要程序员编写)满足需要sql语句。mybatis可以将向preparedStatement中的输入参数自动进行输入映射,将查询结果集灵活映射成java对象(输出映射)。执行流程:使用的项目为maven项目,导入的依赖:一、入门操作数据库有以下这个简单的表:...

2019-07-30 19:06:50 323

原创 pd.read_csv出现Error tokenizing data. C error: Expected 4097 fields in line 408, saw 4098解决方案

在使用pandas的read_csv方法的时候出现了如下错误:Error tokenizing data. C error: Expected 4097 fields in line 408, saw 4098错误原因标记化数据时出错,数据的结构不正确,这个文件一行应该有4097个数据,但在第408行出现了4098个数据。解决方案事先处理好数据,让数据的结构统一;如果不能处理数据...

2019-07-17 10:27:07 4406

原创 java执行cmd命令返回结果中文乱码解决方案

最近在做一个案例需要用java调用cmd执行python文件,但在获取返回结果的时候,中文出现了乱码。代码及输出结果如下: public static String predictPython(String path, String param) throws IOException, InterruptedException { String exe = "python"; Stri...

2019-07-01 00:59:07 5627 5

原创 hadoop伪分布式搭建

本篇博客记录了在ubuntu18.04版本下hadoop伪分布式的搭建linux需要有jdk环境,如何安装jdk,这里不多加赘述啦。一、hadoop下载官网下载地址:https://www.apache.org/dist/hadoop/common/推荐下载2.7.6版本,不需要太高的版本。二、配置hadoop环境1、把下载好的hadoop压缩包通过xftp上传到linux,然后执行...

2019-06-18 16:07:18 347

原创 BeautifulSoup不能正确解析或找不到特定标签的解决方案

近期在使用BeautifulSoup对网页进行解析,想要获取网页的数据,如下代码:soup = BeautifulSoup( resp.text, 'html.parser' )结果发现根据特定的id找不到对应那个标签,还出现找到了标签,但是标签结构破坏的情况,比如下面这个例子:这是网页内容,我要循环每个tr标签,得到th里的文本,关键代码如下:最终输入出的结果为:可以看到前面输...

2019-06-18 13:32:13 12203 2

原创 记录web项目向mysql插入数据中文变为问号的解决方案_更改ubuntu下mysql全局字符集

今天在帮朋友弄一个Java的web项目的时候,发现一个奇怪的问题,同一个项目,在本地运行,数据存在本地的mysql,没有任何问题,但把项目部署到云服务器上,用服务器的mysql时,项目向mysql添加的每一个中文都变成了问号。经过不断排查问题,最后把问题定位在了服务上mysql字符集上。(这里有个前提:代码都做好了字符集的处理,确保了前后端交互的数据不会乱码)解决方法:修改配置文件,设置mys...

2019-05-19 22:02:04 930

原创 全国省市区(县)级地名xml(二)

第一部分地址:https://blog.csdn.net/smile_Shujie/article/details/90319478<Row name="湖北省"> <Cell name="武汉市" number="17"> <Data>江岸区</Data> <Data...

2019-05-18 19:49:47 1642 2

原创 全国省市区(县)级地名xml(一)

<?xml version="1.0" encoding="utf-8"?><address> <Row name="北京市"> <Cell name="北京市" number="1"> <Data>东城区</Data> <Data>西城区&...

2019-05-18 19:47:22 2304 1

原创 ubuntu安装redis及简单地配置远程访问

本篇博客记录了在ubuntu 18.04版本下安装redis及配置远程访问。安装执行以下命令安装redis:sudo apt-get install redis-server配置远程访问执行以下命令打开redis的配置文件:sudo vim /etc/redis/redis.conf1、设置允许远程连接:找到如下“bind 127.0.0.1 ::1”这一行:redis...

2019-05-13 13:31:34 3761 1

原创 最短路径之迪杰斯特拉(Dijkstra)算法

定义迪杰斯特拉算法是由荷兰计算机科学家狄克斯特拉于1959 年提出的,因此又叫狄克斯特拉算法。是从一个顶点到其余各顶点的最短路径算法,解决的是有权图中最短路径问题。迪杰斯特拉算法主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。算法核心:‘起始点到中间点距离’ + ‘中间点到某点距离’ < ‘起始点到某点距离’, 则更新起始点到某点的距离。接下来结合一个例子来逐步讲解思路,请看...

2019-05-09 11:37:10 1230

原创 python爬取指定歌曲的MV

目标网站音悦Tai:http://www.yinyuetai.com/爬取结果根据指定的歌曲爬取十个相关的mv,存在列表里,十个mv对应十个字典,键为mv名,值为mv的数据。

2019-05-06 11:54:40 1652

原创 余弦相似度_公式及推导_案例

定义两个向量间的余弦值可以通过使用欧几里得点积公式求出:给定两个属性向量,A和B,其余弦相似性θ由点积和向量长度给出,如下所示:这里的Ai、Bi分别代表向量A和B的各分量。给出的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。公式推导如果对于上述的公式不是很理解,那就...

2019-04-25 20:16:36 7539

原创 远程访问linux的mysql数据库_创建用户及授予权限_查看用户、修改密码

本文记录了在ubuntu 18.04版本下配置远程访问mysql,创建用户及授权限。mysql安装完后默认只能通过本地连接,进行远程访问需要如下配置:一、修改配置文件,设置允许连接的IP输入命令:sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf修改mysql的配置文件(不同版本的mysql可能配置文件不同,如果这个路径找不到配置文件可以尝试使用 ...

2019-04-18 15:29:36 2027

原创 CART分类回归_对离散型和连续型特征列的选择

CART分类回归树分类与回归树是二叉树,可以用于分类,也可以用于回归问题。区别:分类树输出的是样本的类别, 而回归树输出的是一个实数。对离散型和连续型特征列的选择一、CART分类树(待预测结果为离散数据):选择具有最小Gain_GINI的属性及其属性值,作为最优分裂属性以及最优分裂属性值。Gain_GINI值越小,说明二分之后的子样本的“纯净度”越高,即说明选择该属性(值)作为分裂属性(...

2019-04-16 21:41:41 4606 2

原创 python爬虫:爬取全国航班信息

目标网站携程:https://flights.ctrip.com/domestic/schedule/思路分析获取到所有的地方航班打开网址,可以看到如下内容:这一步目的是获取到这里显示的所有的航班。得到一个地方航班的所有线路随便打开一个航班,可以看到这个地方航班所有的线路,如下图:这一步目的是获取到这里显示的所有的线路。得到一条线路的所有航班信息打开一条线路,可以看到这条...

2019-04-16 17:21:19 21807 14

原创 python实现把汉字转为拼音

前提:需要安装xpinyin模块pip install xpinyin简单使用示例:搞定。

2019-04-13 15:12:01 1858

原创 信息熵、信息增益、信息增益比

信息熵“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,|y|),则D的信息熵定义为:Ent(D)的值越小,则D的纯度越高。如果上面的解释不容易理解,那么下面再通俗地解释一下:首先来看一下信息熵这个公式在数轴上的表示:可以看到,在概率为0.5的时候,信息熵是最大的(为1)。我们可以把信息熵理解为“不确定性”,当概率为0.5...

2019-04-02 21:48:54 4841 1

原创 java项目调用支付宝接口实现扫码支付(沙箱环境)

此篇博客只讲解在沙箱环境中调用支付宝接口,沙箱环境为支付宝官方提供的测试环境,如需用于实际用途请自行在此基础上完善即可。先来说一下我们web项目调用支付宝接口的大概流程:我们从后台将支付宝所需要的参数传给支付宝,支付宝会返回给我们一个字符串形式的form表单和实现表单提交的script脚本,我们将这个字符串传给前台,前台会自动提交form表单,然后便会看到支付宝官方付款的界面了,付款完成后,支...

2019-04-02 14:46:26 5807 1

原创 机器学习:利用朴素贝叶斯根据人员姓名预测性别及拉普拉斯平滑处理

准备使用的数据集结构(共120000条数据):. 需导入的模块:import pandas as pdimport mathfrom collections import defaultdict

2019-03-23 15:29:55 2245 5

原创 Scanner类中的nextInt()后使用nextLine()方法无效解决方案

首先来看一段简单的代码:public static void main(String[] args) { Scanner sc = new Scanner(System.in); System.out.println(&quot;请输入一个数字:&quot;); int num = sc.nextInt(); System.out.println(&quot;请输入一个字符串:&quot;); String ...

2019-03-16 19:36:22 3199

原创 远程访问Jupyter Notebook

一、生成配置文件并设置密码如果要远程连接jupyter notebook,需要设置一个密码,具体操作请参考我的另一篇博客,在这里就不多加赘述了。https://blog.csdn.net/smile_Shujie/article/details/88357371二、设置允许所有IP访问打开配置文件 jupyter_notebook_config.py文件中默认允许的IP为localhos...

2019-03-08 22:42:58 960

原创 Jupyter Notebook设置密码

一、生成配置文件进入cmd控制台,输入如下命令:jupyter notebook --generate-config执行以上命令后会在用户目录下会产生一个.jupyter文件夹,如下图所示:文件夹中会有一个jupyter_notebook_config.py文件。二、生成密码打开Jupyter Notebook,执行以下代码:from notebook.auth import ...

2019-03-08 20:12:40 15823 2

转载 欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离

转载自:https://baijiahao.baidu.com/s?id=1577090844304882120&amp;wfr=spider&amp;for=pc欧氏距离(Euclidean Distance)欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。欧氏距离二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:...

2019-03-05 21:24:05 3729

原创 java的下载安装、配置环境变量及卸载

下载JDK官网:https://www.oracle.com/technetwork/java/javase/downloads/index.html如图所示:点击箭头所指的地方便可以进入jdk下载页面。可以看到目前JDK版本已经更新到JDK11了,但我觉得并没有太大的必要使用最新版本的JDK,新的JDK会弃用一些老版的方法,替换JDK对项目影响很大,同时还牵涉到引用到的第三方库,其不一...

2019-03-03 16:44:47 2224

原创 在java中调用python文件(最方便的一种方法)

方法: 调用 Runtime.getRuntime() 执行脚本文件。前提: 这个方法是挺方便的,但是需要有python环境,不然这种方法是不可用的。代码在本文的最后面,我们先来分析一波:我们在cmd里是如何执行python文件的呢?不传参执行传参执行如上图所示,我们只需要将要传的参数输入到命令的后面就可以了,同时python代码中的sys.argv即为接收到的参数。...

2019-03-02 16:58:43 7262 2

原创 pip install tesserocr pillow 安装失败解决方案

python识别验证码需要安装tesserocr :pip install tesserocr pillow但是有许多伙伴通过这种pip方法安装失败:用conda命令进行安装的话,就可以了:conda install -c simonflueckiger tesserocr pillow亲测有效。...

2019-03-01 20:44:51 3785

原创 python连接mysql及基本操作

python操作mysql需要导入pymysql模块,请先安装pymysql模块:pip install pymysql测试与数据库的连接:import pymysql# 打开数据库连接conn = pymysql.connect( &amp;quot;localhost&amp;quot;, &amp;quot;root&amp;quot;, &amp;quot;a&amp;quot;, &amp;quot;stude

2019-03-01 20:09:52 664

名字及相对应性别的数据集

该文档内容为各个名字和与之对应的性别,共有120000条数据,数据仅供参考,可用于机器学习,作性别预测。

2019-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除