李大海的幸福生活-CSDN博客

原创 2023年工作记录

PGSQL

2023-07-06 09:32:25 179 1

原创 2020-12-02 向mysql 导入txt格式的数据

load data local infile "/root/data/e_investment100_20201202_102254.txt" replace into table e_inv_investment100 fields terminated by ',' lines terminated by '\n';load data local infile "/root/data/e_inv_person100_20201202_102103.txt" replace into table

2020-12-02 13:30:53 158

原创 2020-11-30 sql实战，门店的积分统计sql，由个体数据汇总成下图格式

我是第一次使用 sum（case when … then …else… end ） as ‘…’很神奇。受教受教。

2020-11-30 14:22:07 297

原创 2020-11-16 python 和收邮件

# _*_ coding: utf-8 _*_import poplibimport emailimport osfrom email.parser import Parserfrom email.header import decode_headerfrom email.utils import parseaddrdef decode_str(s): value, charset = decode_header(s)[0] if charset: if

2020-11-16 18:33:55 183

原创 2020-11-13 python和 mail 发邮件

场景：人力资源批量下载求职者的简历zip文件from poplib import POP3from email.parser import Parserfrom email.header import decode_headerfrom email.utils import parseaddr#################################邮箱信息###########################email = "[email protected]"password:

2020-11-14 00:52:57 806

原创 2020-11-13 Python and Excel

1.基本操作创建/打开工作簿访问工作表单元及其值保存工作表from openpyxl import Workbookwb = Workbook() # 实例化一个工作簿对象print(wb)from openpyxl import load_workbookwb = load_workbook(filename='C:\Users\admin\Desktop\校庆邀请函数据.xlsx')print(wb)#工作簿创建时总是会默认创建一个名为 Sheet 工作表，可以通过

2020-11-13 23:31:47 109

原创 2020-11-13 python word操作

一、1. 向word或者txt文件写入并保存#第一种 print输出向文件输出内容file=open('d:/1.txt',mode='w+',encoding='utf-8')file.write("奋斗改变未来")# 读数据时光标回到开头file.seek(0)# 将数据从文件读进内存中file_content=file.read()# 将内存中的数据打印到控制台print(file_content)file.close()# 第二种更加简单f=open('d

2020-11-13 22:43:22 139

原创 2020 11-12 用SPSS做中国地图

数据地图SPSS篇▼▼▼最近在做数据地图专题，搜集了好多能够实现数据地图可视化的软件操作技巧，唯独漏掉了SPSS。总觉得SPSS作为一个傻瓜式菜单操作的统计分析软件，应该干不了像数据地图这种高技术含量的工作，因为毕竟想做专业的数据地图，除了主流的数据可视化产品（tableau、PowerBI、Xcelius（水晶易表））无需写代码之外，大部分统计分析软件是需要自己编写代码的。这样门槛就高了好多，我尝试过使用Excel+VBA以及Stata、R等软件来完成数据地图的填充工作，虽然最后都完美的做出来了，可是..

2020-11-12 13:30:35 3347 6

原创 2020-10-21配置sqoop启动sqoop报错缺啥补啥。

转载请注明出处：https://blog.csdn.net/l1028386804/article/details/97135322 问题： Sqoop连接数据库报错，报错信息为： Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils at org.apache.sqoop.manager.MySQLManage...

2020-10-21 18:34:34 268

原创 2020-10-19 Centos7 安装 mysql

Centos7 安装MySQL详细步骤首先在虚拟机中安装一个Centos7（VM虚拟机安装Centos7） 1.1 MySQL安装 1.1.1 下载wget命令 yum -y install wget1 1.1.2 在线下载mysql安装包 wget https://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm1 1.1.3 安装MySQL rpm -ivh mysql57-community-release-e

2020-10-19 15:29:00 203

原创 2020-09-29 查看你的内网IP地址

查询内网IPwindows+R 调出 cmd输出ipchonfig

2020-09-29 13:47:36 161

原创 2020-09-25 mysql 业务数据铜鼓sqoop导入hdfs

#! /bin/bash sqoop=/opt/module/sqoop/bin/sqoop do_date=`date -d '-1 day' +%F` if [[ -n "$2" ]]; then do_date=$2 fiimport_data(){$sqoop import --connect jdbc:mysql://hadoop102:3306/gmall --username root --password 123456 --target-dir /origin_data

2020-09-25 09:36:37 219

原创 2020-09-17 python 合同生成器

from docx import Documentfrom openpyxl import load_workbook# 利用os模块建立文件夹，用于存放生成的合同import os# 给定合同模板和汇总表所在的文件夹路径，方便复用path = r'C:\Users\admin\Desktop\合同'# 结合路径判断生成文件夹，规避程序报错而终止的风险if not os.path.exists(path + '/' + '全部合同'): os.mkdir(path + '/' +

2020-09-17 17:33:01 592

原创 2020-09-14 python 执行hivesql查询语句时报错，你看看这个怎么解决的？

首先 cur.execute(“show tables”)或者cur.execute(“select * from table limit 100”)这些都能运行成功；报错时执行的语句中含有count(1)，现在需要查明原因？首先看下具体的报错内容：Traceback (most recent call last): File "C:/Users/admin/PycharmProjects/pythonhive/0914xwqy.py", line 7, in <module&gt.

2020-09-14 15:24:19 630

原创 2020-09-10 教师节快乐小微企业表中含有个体工商户+小微共1亿多数据，但信息不全。企业基本信息表中全是企业的信息，7000万，但我想要的是小微。需要join

2020-09-10 教师节快乐今天上午的问题是 hive中表的数据处理A 小微企业+个体工商户数据 7个字段，1亿条数据；B e_baseinfo 数据 7080万数据；目标：A、B join 拿到小微企业数据，再进行分析终于实战中遇到 hive join的优化，本身机器（怎么查虚拟机的运行内存和核数百度）物理CPU4 每个有2核，运行内存，处理方法，每个表中都把统一信用代码拿出来，将重复的取出来。将重复的数据筛选出来：Select uniscid,count(0) as

2020-09-10 18:15:41 203

原创 2020-09-03 上传项目代码到码云，也做了一次后端开发的工作。

1.设置gittee的公钥，有公钥才能完成上传设备：Windows10，git for window。从git的远程服务器克隆、拉取等操作，有两种方式：一种是HTTPS，另一种是SSH。SSH是更安全的选择。为gitee添加公钥，这样就可以用SSH拉取。如果没有设置公钥，就去克隆会提示如下错误：The authenticity of host 'gitee.com (116.211.167.14)

2020-09-03 17:29:25 127

原创 2020-09-02我在安装elasticsearch 后，不会使用它，也不知道kibana、logstash分别是干啥的，怎么操作。所以写个博客总结下

我在安装elasticsearch 后，不会使用它，也不知道kibana、logstash分别是干啥的，怎么操作。所以写个博客总结下。logstash 我用它来同步mysql中的数据到es中kibana 我用它作es的可视化后面将遇到的内容、问题详细记录。安装过程、配置过程参考的博客连接也记得贴出来。...

2020-09-02 14:23:02 161

原创 2020-09-02航空航线分布图可做智慧大屏使用

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"> <meta name="renderer" content="webkit"> <meta name="viewport" content="wi.

2020-09-02 14:13:16 861

原创 2020-09-01 使用mysql的source批量导入多个sql文件

使用mysql的source批量导入多个sql文件需求：有一个文件，文件里面包含100多个sql文件，想要把这些sql文件都导入到mysql中做法：使用 mysql 的 source 可以将文件导入到 mysql 中，但是一次只能导入一个 sql 文件，我有100多个sql。。。用传统的方式肯定不行，这里可以参考下 Nginx 配置文件，在 Nginx 中，可以使用“include”将一些域名配置文件统一到一个.conf文件中集中管理，那么 mysq...

2020-09-01 14:09:54 1164 1

原创 2020-08-31 上周完成一个查询接口，从MySQL中查数据，速度贼慢

2020-08-31 上周完成一个查询接口，从MySQL中查数据，速度贼慢，原因是数据5000万+，所以真正接触优化的机会来了，所以决定好好研究一下，做一个记录。事情是这样的，mysql表中只有两个字段，企业名称，企业统一信用代码。目标：实现百度搜索的功能，输入关键词，就出来相关词的下拉列表。首先第一步就是要在mysql建表，并把数据写入，写入的方法使用的是kettle中的文本文件输入，表输出，实现效果是48小时2000万条。太慢了。导完数据也不知能不能实现快速查询。下一步，一是尝试其他写入数据

2020-08-31 10:34:13 243

原创 2020-08-18 删库跑路

一、背景：41-44 4台服务器安装了 CDH645-48 4台服务器Apache Hadoop 非HA模式，已能运行hive，并展示数据计划：将41-48合成一个大的大数据集群二、步骤：所有服务器互相免密登录45-48 安装clouder daemon 和agent 文件CDH 添加主机三、问题：免密登录设置后我想重启服务器，不知为何总是不识别hostname,1 重启后41-44 无法出现CDH home index，查看日志后发现是mysql 连接不上，解决：猜测是my

2020-08-19 10:38:10 177

原创 2020-08-12 今天学习了用postman 配合项目代码，检查接口是否正确，能够拿到响应数据。如果拿不到数据，并且代码报错，去对应的错误修改代码，重新运行。

今天学习了用postman 配合项目代码，检查接口是否正确，能够拿到响应数据。如果拿不到数据，并且代码报错，去对应的错误修改代码，重新运行。你可以去yml文件查看数据库连接信息可以去实体类中看对应的表格字段可以去xml文件中查看对应的sql语句字段和别名...

2020-08-12 15:02:49 169

原创 2020-08-12 token 到底是什么？发送请求、检验接口时需要用到，不带token就不会拿到响应数据

token是计算机术语：令牌，令牌是一种能够控制站点占有媒体的特殊帧，以区别数据帧及其他控制帧。token其实说的更通俗点可以叫暗号，在一些数据传输之前，要先进行暗号的核对，不同的暗号被授权不同的数据操作。基于 Token 的身份验证方法使用基于 Token 的身份验证方法，在服务端不需要存储用户的登录记录。大概的流程是这样的：1.客户端使用用户名跟密码请求登录2.服务端收到请求，去验证用户名与密码3.验证成功后，服务端会签发一个 Token，再把这个 Token 发送给客户端4.客户端收到 To

2020-08-12 14:48:02 1261

原创 2020-08-12 学习 postman的使用

下载软件：https://www.postman.com/postman/一、如何发起一个请求？1.首先找目标url的接口文档说明 www.tainqiapi.com 找到文档接口说明2.在postman中书写并发送请求填写的参数会拼接到url 后面 https://www.tianqiapi.com/api/ ？表示后面跟的都是参数返回数据说明body 接口请求参数填写的不同方式。二、为甚做接口测试？接口间

2020-08-12 14:00:04 232

原创 2020-08-07 今日份的hivesql

今日hql case when 和 replace在查数据过程中，position_cn 有为空的情况，仔细查过后发现这个空可能是null，可能是空格，这就体现了数据的复杂性，在实际处理的时候要注意看数据到底有多少种情况。select hash_cerno,pripid,casewhen position_cn is null then ‘“任职”’ – 如果为null就默认成“任职”when position_cn=’ ’ then ‘“任职”’ – 如果为空格就默认成

2020-08-07 16:47:50 108 1

原创 Neo4j linux 安装、运行、导入数据、展示结果

linux 安装 NEO4J只遇到一个问题，java1.8版本过低，重新下载一个java11，并修改 /etc/profile 环境变量这样就安装成功了。准备数据运行、导入数据和展示结果是在一起的数据格式严格按照 A,B,relation 其余的有其他字段也没有关系创造节点、关系（多类节点和关系就直接在后面 --nodes --relation 就可以）./bin/neo4j-admin import --database=saic.db

2020-08-07 16:37:12 500

原创喜大普奔~~~~~~~KETTLE linux执行转换和作业

基本信息：政府大数据环境 linux deepin没有yum apt-get 安装包管理无法安装各种依赖没有图形化界面根据各种博客内容，尝试过1 图形化界面安装2 rpm 包依赖安装3 yum apt 安装都失败了。。。。政府大数据环境太难受了！！！！！！正确的操作执行方法如下：1. 在windows环境下，打开kettle,画好图2 保存成转换文件 *.ktr 然后上传到linuxlinux 中利用网络下载的安装包安装kettle 详见其他博客不赘述执行 .

2020-08-05 18:39:26 681 1

原创 Kettle 抽取导出hive 数据到文本文件问题——分隔符

Kettle 抽取导出hive 数据到文本文件问题——分隔符表输入中遇到两个问题，1是字段太长，无法识别，需要转换成String2是中文内容中有英文逗号，我选择英文逗号作为分隔符后导致不该被分割的内容被切开所有需要注意的地方都用红框框了出来注意kettle date类型导出来是2019/07/28 这种分隔符所以要在文本文件输出指定格式并且注意更改原来自带的Timestamp 为Date 格式，否则hive映射会失败，显示NULL最后说说今天学到的东西本来觉得时

2020-07-29 16:03:50 1499

原创 kettle 输入输出数据表输入文本文件输出

0728 导入导出数据流程记录***以 e_baseinfo为例1.检查数据库该表是否可见可查2.检查该表时间类型的字段格式并记录3.创建kettle转换表输入—> 文本文件输出4.执行转换5.上传文本文件到 linux 环境下6.上传linux数据文件到hdfs文件系统7.Hive中建表映射8.检查映射结果是否符合注意：以下坑都踩得结结实实一、时间类型的处理方式：1.因为kettle date类型默认格式是 2020/07/28 15：25：30斜杠无法被hive识

2020-07-28 18:28:25 1909

原创 Kettle 表输入、文本文件输出遇到某一字段过长报错

https://blog.csdn.net/zsg86/article/details/84910052我遇到的问题是工商数据id bignumber 16 太长，1是表输入时报错无法转换，2是文本文件输出时报错 arraysize exceeds VM.第一个问题表输入报错解决：cast(table.id as String)第二个问题报 java.lang.OutOfMemoryError: Requested array size exceeds VM原因是，hive中有两个字

2020-07-26 13:34:30 2701 1

原创 PYTHON 学习：将excel中所有sheets的名字都打印到控制台

目标是将excel中所有sheet的名字都打印到控制台导包import xlrdimport pandas as pdfrom pandas import DataFrame打开文件获取名称DATA_DIR = “C://Users//admin//Desktop//数据中心数据.xls”wb = xlrd.open_workbook(DATA_DIR)sheets = wb.sheet_names()print(sheets)...

2020-07-24 09:41:38 633

原创 Python 连接 Hive

Python 连接 Hive 过程中遇到很多问题，各种不识别包，impyla 等安装不上的问题最后怎么解决的呢？卸载所有软件，按照步骤安装 anaconda python pycharm安装 pure-saslpip install pure-sasl安装 thrift_saslpip install thrift_sasl==0.2.1 --no-deps安装thriftpip install thrift_sasl==0.2.1 --no-deps安装最终的：impylap

2020-07-22 16:05:37 183

原创 Python 连接 Hive ,查询数据后，导出到csv文件

Python 连接 Hive ,查询数据后，导出到csv文件导包from impala.dbapi import connectimport osimport reimport csvimport time,datetimeimport pandas as pd开始时间start = datetime.datetime.now()print(“开始时间:” + time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(time.time())))

2020-07-22 16:00:20 1490

原创 word中输入指定内容后自动替换为另一内容或者图片

首先复制一下图片（或者插入到word中后选中），然后点击文件—>选项—>校对---->自动更正选项添加 logo 替换为该图片即可输入logo 回车可见效果如下：

2020-05-28 09:18:46 842

原创 wps excel 将含有“本期开业”内容的字段都选出来

wps excel 将含有“本期开业”内容的字段都选出来方法1：选中字段列，右击选择筛选列在搜索中输入“本期开业”

2020-05-21 11:12:05 127

原创数仓项目中的一些总结

项目总结1.sqoop 脚本sqoop import \–connect jdbc:mysql://192.168.58.201:3306/hive?dontTrackOpenResources=true&defaultFetchSizroot \–password hive123\–table song \–target-dir /user/hive/warehouse/...

2020-04-26 23:17:17 714

原创 Date Calendar 日期字符串和毫秒值的相互转化总结

package com.sxt.test;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;public class MyTest { public static void main(String[] ...

2020-01-16 22:36:36 1346

原创 Mapreduce WordCount 报错

configuration.set(“mapreduce.framework.name”, “local”);没写这个没写这个没写这个

2020-01-14 09:05:17 119

原创 idea 快捷键

原文：花开白 https://blog.csdn.net/u010548207/article/details/103044647F5 复制文件，F6 移动文件，Ctrl+Shift+C 复制全路径 Ctrl + Alt + insert 新建Ctrl + Shift + V 弹出剪切板,选择对应数字就可以直接粘贴Ctrl + F12查看类的大纲（m是方法、f是属性）Alt + 7 ...

2020-01-11 20:28:24 188

原创 linux 文件安装位置分配

原文：https://www.w3h5.com/post/336.html我们应该知道 Windows 有一个默认的安装目录专门用来安装软件。Linux 的软件安装目录也应该是有讲究的，遵循这一点，对后期的管理和维护也是有帮助的。/usr 系统级的目录，可以理解为 C:/Windows/ ， /usr/lib 可理解为 C:/Windows/System32 。/usr/local 用户级的...

2020-01-11 20:17:31 561

空空如也

空空如也