- 博客(297)
- 资源 (3)
- 收藏
- 关注
原创 Jupyter开启远程服务器(最新版)
Jupyter Notebook 在本地进行访问时比较简单,直接在cmd命令行下输入 jupyter notebook 即可,然而notebook的作用不止于此,还可以用于远程连接服务器,这样如果你有一台服务器内存很大,但是呢你又不喜欢在linux上进行操作、编辑代码时你就可以在本地windows上使用notebook远程到服务器上,在本地写代码,使用服务器上的资源。
2024-03-28 14:07:41 282
原创 CentOS7 操作firewall防火墙
开放端口,如果不指定IP,任何ip都可以访问。未指定端口,则可以访问所有端口。–permanent:永久的。不加就是临时的,重启后失效。
2024-03-18 11:19:34 266
原创 大数据任务调度平台选型建议
怎么样让大量的 ETL 任务准确的完成调度而不出现问题,甚至在任务调度执行中出现错误的情况下,任务能够完成自我恢复甚至执行错误告警与完整的日志查询。Airflow支持各种数据处理库和系统,如Spark、Hive、Pig等,并具有强大的调度能力和丰富的插件生态。Luigi是由 Spotify 开发的Python库,用于构建复杂的批处理任务管道。Apache DolphinScheduler 是一个分布式和可扩展的开源工作流协调平台,具有强大的DAG可视化界面,非常推荐除Python团队以外的人员使用。
2024-03-18 11:03:04 978
原创 Python pip 换成国内镜像源
用 easy_install 和 pip 来安装第三方库很方便,它们的原理其实就是从Python的官方源下载到本地,然后解包安装。不过因为某些原因,访问官方的pypi不稳定,很慢甚至有些还时不时的访问不了。跟 ubuntu 的 apt 和 centos 的 yum 有各个镜像源一样,pypi也有。因此强烈推荐换成国内源。
2024-03-14 15:07:51 318
原创 数据集成平台选型建议
数据集成平台是一种用于管理和协调数据流动的软件工具或服务。它的主要目标是将来自多个不同数据源的数据整合到一个统一的、易于访问和分析的数据存储库中。
2024-03-12 16:26:58 3078 1
原创 Flink Upsert Kafka SQL Connector 介绍
Flink Upsert Kafka SQL Connector 介绍
2024-02-19 10:51:37 1811 5
原创 Hudi0.14.0集成Spark3.2.3(Spark SQL方式)
Hudi 0.14.0 集成 Spark3.2.3 Spark SQL方式
2024-01-23 16:34:26 269
原创 Hudi0.14.0集成Spark3.2.3(Spark Shell方式)
Hudi 0.14.0 集成spark 3.2.3 Spark Shell方式
2024-01-23 16:16:57 220
原创 Hive管理UDF详解
Hive 管理UDF函数的方式有:1. Hive Shell add jar2. 辅助jar目录3. 可重载辅助jar目录
2024-01-19 14:47:02 179
原创 Hive添加第三方Jar包方式总结
Hive添加第三方jar包方式:1. Hive Shell add jar2. 辅助jar目录3. 可重载辅助Jar目录4. {HIVE_HOME}/auxlib5. {HIVE_HOME}/lib
2024-01-19 14:43:56 157
原创 Hudi metadata table(元数据表)
Metadata表即Hudi元数据表,是一种特殊的Hudi表,对用户隐藏。该表用于存放普通Hudi表的元数据信息。Metadata表包含在普通Hudi表内部,与Hudi表是一一对应关系。
2024-01-15 17:34:17 187
mybatis 全xml配置
2018-06-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人