chnhbhndchngn-CSDN博客

1. 首先安装 graphviz 并设置环境变量, 很多文章都写这个教程了, 这里就不写了2. 安装 python-graphvizconda install python-graph-viz3. 生成图片文件import graphvizfrom sklearn.tree import DecisionTreeClassifier,export_graphvizfrom sklearn.datasets import load_irisiris = load_iris()X

2022-05-17 18:25:03 520

原创 sklearn中的决策树中三个参数的含义

class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, cla

2022-05-17 17:45:48 1447

原创 zookeeper群起和群关

#!/bin/bashcase $1 in"start"){ for i in node2 node3 node4 do echo ---------- zookeeper $i 启动 ------------ ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start" done};;"stop"){ for i in node2 node3 node4 do echo ---------- .

2022-04-04 19:42:37 1645

原创 yarn 正规关闭一些正在进行的MR

首先在终端查看正在执行的任务:yarn application -list会显示正在执行的任务, 选择需要终止的任务的applicationId, 然后执行以下命令yarn application -kill application_1620526042553_0007结果如下:...

2022-04-04 16:54:06 493

原创 mapred-site.xml

<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration>  <property> <name>mapreduce.framework.name</name> .

2022-04-04 15:22:49 774

原创 yarn-site.xml

<?xml version="1.0"?><configuration>  <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> &l.

2022-04-04 15:08:28 366

原创 hdfs-site.xml配置文件

<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration>  <property> <name>dfs.namenode.http-address</name> <value>.

2022-04-04 14:45:40 1435

原创 core-site.xml配置文件

<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration>  <property> <name>fs.defaultFS</name> <value>hdfs://node2:80.

2022-04-04 14:40:25 2341 1

原创集群批量执行某个命令

查看Linux 所有java相关进程的脚本, 创建脚本文件 /home/xxx/bin/xcall.sh#! /bin/bashfor i in hadoop102 hadoop103 hadoop104do echo --------- $i ---------- ssh $i "$*"done添加可执行的权限:chmod u+x xcall.sh执行命令如:xcall jps...

2022-04-04 14:16:58 2461

原创大数据的环境变量设置

创建 /etc/profile.d/myenv.sh 文件, 内部填写一下内容# JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0export PATH=$PATH:$JAVA_HOME/bin# hadoopexport HADOOP_HOME=/opt/module/hadoop-3.1.3export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin#hiveexport HIVE_HOM

2022-04-04 14:02:37 1415

原创启动hive的两条警告怎么消除

安装hadoop 和hive后,启动hive的时候经常会有这么几条警告, 倒是不影响程序的运行, 但是看着让人很不爽.第一条就是说没有找到hbase balabala....which: no hbase in (/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/opt/module/jdk1.8.0/bin:/opt/module/hadoop-3.1.3/bin:/opt/module/hadoop-3.1.3/sbin:/opt/modu.

2021-12-23 23:18:36 1967

原创 hive或spark的错误

FAILED: SemanticException Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session e7509679-36bf-4bf9-973f-a091ddf0cb79因为这个问题是偶发性的，并不是一开始就抛出这个异常。所以一个晚上都是调试，最后发现当这个队列资源达到100%后，如果.

2021-12-23 19:53:25 1645 2

原创 linux系统修改mysql8.0的默认编码为utf8

Linux安装的mysql8.0默认编码有些是拉丁的, 不是和存储中文, 查看编码mysql> show variables like '%character%';需要使用root用户, 修改/etc/my.cnf文件在[mysqld]下添加collation_server = utf8_general_cicharacter_set_server = utf8然后保存退出重新启动mysql程序,service mysqld restart再次启动mys..

2021-12-19 00:11:51 1582 1

原创使用Python向kafka中写入数据

第一步安装pykafkapip install pykafkaPyKafka — pykafka 2.8.1-dev.2 documentation第二步编写写入相应主题的数据代码, 这里只是demofrom pykafka import KafkaClientclient = KafkaClient(hosts="192.168.220.202:9092,192.168.220.203:9092,192.168.220.204:9092")topic = client.top

2021-11-30 23:19:00 3593

原创关于mysql的编码问题

有三个编码mysql的服务编码 mysql的客户端编码终端的编码(windows是gbk)建议统统使用utf8关于mysql的客户端和服务端的编码可以通过mysql语句查看> show variables like '%charter%';可以通过修改最下面那个路径中的配置文件进行永久地改变编码,但是如果是windows下, cmd中gbk编码的, 可能出现乱码的情况, 如下无法插入需要改成gbk插入成功, 查询结果也是正确的在Navic...

2021-11-08 21:59:52 94

原创两天晚上遇到的大坑

昨天晚上, 试验一下Hadoop3.1.3版本, 结果namenode的50070总是访问不成功, 各种调试, 防火墙检查了无数遍, 还是不行, 最后发现时端口号换了, 从2.x的50070换成了3.x之后的9870端口今天晚上, 学习多线程的知识, 发现单元测试的时候总是不执行线程的代码, 也是各种调整, 各种测试, 最后发现时单元测试不支持多线程啊啊啊啊, TMMD...

2021-10-10 01:01:36 79

原创 hive中的split(), explode() 和lateral view()函数的使用

假设有一个表 movie, 其中的数据为split()函数那么使用split()的的方法可以将category字段的整体字符串变为数组array类型, 如下:> select movie, split(category, ",") from movie;explode()函数使用explode()函数可以将一行的数组变成多行的, 如下:> select explode(split(category, ",")) from movie;那如果想在和...

2021-10-06 17:30:42 692

原创 python小整数常量池

python的小整数常量池的范围是[-5, 256], 下面我们就要来验证一下# 验证方法for i, j in zip(range(-9, 260), range(-9, 260)): if id(i) != id(j): print(i)运行的结果就是:-9-8-7-6257258259由此可见当 i 和 j 都是-5~256的时候, 他们的地址是相同的...

2021-08-18 14:41:37 260

原创 python几个技巧

参考 https://mp.weixin.qq.com/s/gGT8EzPH0_CyhNSciVoxKg来源于Python大数据分析，作者朱卫军合并两个字典通过**符号解压字典，并将多个字典传入{}中，实现合并, 如果有重复的键, 以后面的为准, 例如这里的’b’d1 = {"a": 97, "b":98}d2 = {"A": 65, "B": 66, 'b': 666}print({**d1, **d2})print({**d2, **d1}){'a': 97, 'b': 666,

2021-08-05 14:55:50 100

原创 jupyter代码自动换行

在jupyter的页面写代码的时候有时候代码比较长, 尤其是代码中包含一些字符串的时候, 如果没有自动换行的出现, 会在下面出现滚动条, 如下图这样非常不方便我们查看后面的代码或字符串的内容, 下面我们通过配置参数来实现代码的自动换行首先找到jupyter的配置的路径, 如下图打开notebook.json文件后, 在里面添加(记得在必要的位置添加逗号) "MarkdownCell": { "cm_config": { "lineWrapping": ..

2021-08-02 18:58:09 5127

原创 python中time模块的简单使用

工作中很多地方都需要获取实时的时间, 这就需要用到time模块来获取时间戳和特殊格式的时间表达式import time# 表示单位为秒的时间戳print(time.time())time.sleep(3)print(time.time())结果为:1627872395.27089141627872398.2839825下面是获取当地的时间, 各个单位的数值# 当地时间print(time.localtime())结果中包括了年月日时分秒等单位的具体数值ti

2021-08-02 10:52:22 248

原创使用python爬取百度中的关于某个关键字的图片

百度图片的结果是滑动加载的, 并不是静态的页面, 需要不断下滑, 才能不断更新import requestsimport osfrom bs4 import BeautifulSoupbase_url = "https://image.baidu.com/search/acjson?"people = "奥运会"params = {'tn': 'resultjson_com', 'logid': '7293709351117530629', 'i

2021-07-28 14:53:25 376

原创 Python中的random模块中的随机数问题

1.random.random()随机生成[0, 1)均匀分布的一个数import randomimport seaborn as snsdata = [random.random() for i in range(1000)]sns.distplot(data)2. random.uniform(a, b)生成[a,b]均匀分布的一个随机数data = [random.uniform(1, 5) for i in range(1000)]sns.distplot(d.

2021-07-25 15:54:48 1720

原创 hive中having 后面count(xx) 条件的问题

语句1:select user_namefrom user_trade where year(dt) = '2018' group by user_name having count(distinct goods_category) > 2;会出现错误:FAILED: SemanticException [Error 10002]: Line 10:19 Invalid column reference 'goods_cat

2021-07-22 17:01:08 1174

原创 seaborn无法下载数据的问题

当我们使用seaborn下载数据的时候会出现这样的问题import seaborn as snsdf = sns.load_dataset('flights')这主要是因为国内的网无法直接连接他们的服务器, 造成的, 我们可以直接从github上下载数据到本地, 然后直接从本地读取数据下载数据的地址:https://github.com/mwaskom/seaborn-data然后存到本地电脑的某个位置, 再读取文件, 这是需要加上 data_home 这个参数就行了df...

2021-07-22 11:17:06 1838

原创 mysql插入中文出错“ERROR 1366 (HY000): Incorrect string value: ‘\xE5\xBC\xA0\xE4\xB8\x89‘ for column ‘name“

在linux系统在向mysql中插入中文数据的时候会报错误ERROR 1366 (HY000): Incorrect string value: '\xE5\xBC\xA0\xE4\xB8\x89' for column 'name' at row 1这主要是因为编码造成的, 我们修改一下编码即可第一种方法:只修改这个表的编码格式:> alter table user convert to charset utf8;如下图:第二种方法:修改mysql默认的编码格式

2021-07-09 10:49:55 1025

原创关于mysql临时笔记

查询两个条件的情况SELECT * FROM investmenttab WHERE ( investment, investdays ) = ( SELECT investment, investdays FROM investmenttab WHERE investmentlistid = 'ph-000000001' );将查询结果直接存储到新表中（新表未创建）create table temp asselect en

2021-07-09 10:47:08 73

原创 python所有的关键字

import keywordprint(keyword.kwlist)

2021-07-07 22:49:16 98

原创 jupyter单元格代码折叠

在使用jupyter的时候如果一个单元格当中的代码比较多，而且我们写完后不想让显示，像在pycharm中折叠代码。

2021-06-10 17:58:24 9886 1

原创 stats.norm.sf(x) 的功能

在统计学中会有很多用到计算大于某个数值的概率，尤其是在标准正态分布中，stats.norm.sf(x)函数就是起这种作用的。我们都知道标准正态分布中，一个标准差的概率是 liange

2021-06-04 11:42:16 3111

原创修改jupyter网页字体的设置

找到 xxxx\Anaconda3\Lib\site-packages\notebook\static\custom\custom.css 文件修改配置, 如果没有信息就是添加配置信息.CodeMirror pre {font-family: Consolas, "Microsoft YaHei Mono", "Microsoft YaHei"; font-size: 10pt;}* {font-family: Consolas, "Microsoft YaHei Mono", "Micro.

2021-04-23 17:50:13 1145

GoogleNews-vectors-negative300网盘地址.txt

中文繁体转简体工具

空空如也