自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SmartSi

一起陪伴大数据成长

  • 博客(2294)
  • 资源 (69)
  • 问答 (17)
  • 收藏
  • 关注

原创 Hive 系统性学习笔记

Hive系统学习笔记

2022-11-20 15:59:49 1198 2

原创 Flink 源码解读

Flink 源码解读系列

2022-09-18 22:29:14 456

原创 那些年我们踩过的 Flink 坑系列

那些年我们踩过的 Flink 坑系列

2022-07-31 17:40:19 459

原创 Spark 学习笔记

Spark 系统性学习笔记系列

2022-07-31 17:36:50 1083

原创 Flink 系统性学习笔记

Flink 学习笔记

2022-07-31 17:30:55 1487

原创 Hadoop 系统性学习笔记系列

Hadoop 系统性学习笔记系列

2022-07-24 08:38:48 955

原创 ZooKeeper 实战:ZooKeeper Java API

ZooKeeper 大部分 API 都提供了同步和异步方法。同步方法一般会有返回值,并且会抛出相应的异常。异步方法没有返回值,也不会抛出异常

2024-05-07 23:05:34 919

原创 2024年04月数据月报

2024年04月数据月报,为您准备了阿里、字节、百度等大厂100多篇实践案例

2024-05-07 07:49:38 128

原创 Git push 的时候需要输入用户名和密码解决方案

在使用 `git push -u origin main` 命令推送远程分支时要求输入用户名和密码

2024-05-07 07:41:17 207

原创 ClickHouse 实战:ClickHouse 安装与启动

ClickHouse 可以在任何具有 x86_64、AArch64 或 PowerPC64LE CPU 架构的 Linux、FreeBSD 或 Mac OS X 上运行。官方预构建的二进制文件通常针对 x86_64 进行编译并利用 SSE 4.2 指令集

2024-05-05 18:39:10 780

原创 ZooKeeper 实战:使用 Docker Compose 部署 ZooKeeper 集群

ZooKeeper是一个开源的分布式协调服务,用于管理大型分布式系统中的数据。它由Apache软件基金会提供,最初是Hadoop的一个子项目,但后来发展成为一个独立的顶级项目。ZooKeeper提供的一致性协调服务对于构建分布式应用和服务非常重要,特别是在需要精确的领导选举、配置管理、命名服务、分布式同步和提供分布式锁等功能时。

2024-05-05 18:19:18 619 3

原创 ZooKeeper 实战:使用 Docker 搭建 Zookeeper 集群

ZOO_MY_ID 和 ZOO_SERVERS 是搭建 Zookeeper 集群需要设置的两个环境变量, 其中 ZOO_MY_ID 表示 Zookeeper 服务的 id, 它是1-255 之间的整数, 必须在集群中唯一。上述配置将以副本模式启动 Zookeeper 3.5.8,同时会告诉 Docker 运行三个 Zookeeper 容器:zoo1、zoo2、zoo3,并分别将本地的 2181, 2182, 2183 端口绑定到对应的容器的 2181 端口上。默认端口是8080。暴露端口主要是镜像包含了。

2024-05-05 15:53:38 585

原创 Docker 实战:使用 Docker Compose 部署 WordPress

WordPress是世界上最受欢迎的内容管理系统(CMS)之一,特别是对于个人博客来说。自2003 年首次发布以来,它已经从一个简单的博客平台发展成为一个功能丰富的网站建设工具。WordPress 作为个人博客平台提供了无与伦比的简便性、灵活性和功能性,使其成为全球数百万博主的首选。Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以通过一个 YAML 文件来配置您的应用的服务。然后,使用一个简单的命令,就可以创建并启动所有配置中的服务。

2024-05-04 08:47:54 866

原创 Docker 实战:使用 Docker Compose 部署 MySQL

Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以通过一个 YAML 文件来配置您的应用的服务。然后,使用一个简单的命令,就可以创建并启动所有配置中的服务。这让组织和管理容器变成了一件轻而易举的事情。在开始之前,首先需要确保已经安装了 Docker Compose,如果没有安装或者不熟悉 Compose 的具体查阅Docker 实战:使用 Docker Compose 实现高效的多容器部署。

2024-05-03 22:41:18 803

原创 Docker 实战:使用 Docker Compose 实现高效的多容器部署

Docker Compose 是一个工具,允许用户通过一个 YAML 文件定义和运行多容器 Docker 应用程序。使用 Compose,你可以在一个文件中配置你的应用服务、网络和数据卷,然后通过一个简单的命令创建和启动你的所有服务。这极大地简化了 Docker 容器的管理过程,特别是对于涉及多个相互依赖容器的复杂应用。具有如下核心特性:服务定义:在。

2024-05-03 13:49:59 815 1

原创 Docker 实战:通过 Dockerfile 构建镜像

Docker 可以通过读取 Dockerfile 文件中的指令来自动构建镜像。Dockerfile 是一个文本格式的配置文件。本文首先将介绍 Dockerfile 典型的基本结构及其支持的众多指令,并具体讲解通过这些指令来编写定制镜像的 Dockerfile,以及如何生成镜像。

2024-05-02 17:33:23 890 1

原创 Docker 实战:数据卷基本操作

数据卷(Data Volumes)是一个可供容器使用的特殊目录,它将主机操作系统目录直接映射进容器。

2024-05-01 16:32:01 12

原创 Docker 实战:The path xxx is not shared from the host and is not known to Docker

我们要确保文件路径在 Docker 守护程序的共享目录中。Docker 守护程序有一个默认的共享目录,需要把文件路径添加到共享目录下

2024-05-01 15:35:10 148 1

原创 Docker 实战:容器基本操作

容器是 Docker 的另一个核心概念。简单来说,容器是镜像的一个运行实例。所不同的是,镜像是静态的只读文件,而容器带有运行时需要的可写文件层,同时,容器中的应用进程处于运行状态。

2024-04-30 16:16:19 653

原创 Docker 实战:The container name xxx is already in use

The container name xxx is already in use。

2024-04-30 13:37:46 171 2

原创 Docker 实战:在 Docker 中安装 Redis

本文章将介绍如何使用 Docker 探索 Redis。我们可以在 Docker for Windows 、Docker for mac 或者 Linux 模式下运行 Docker 命令。本文是基于Docker for mac。

2024-04-30 12:04:49 225

原创 Docker 实战:镜像基本操作

镜像是运行容器的前提,官方的 Docker Hub 网站已经提供了数十万个镜像供大家开放下载。本文主要介绍 Docker 镜像的基本操作。

2024-04-29 22:44:08 574

原创 Docker 实战:dockerfile parse error on line 1: FROM requires either one or three arguments

可以看出以 ‘#’ 开头的一行被视为注释,即注释需要单独作为一行。如果出现在其他位置会被视为参数,也就不难理解报错原因了。

2024-04-29 20:09:28 113

原创 Docker 实战:镜像内部结构

为什么我们要讨论镜像的内部结构?如果只是使用镜像,当然不需要了解,直接通过 docker 命令下载和运行就可以了。但如果我们想要创建自己的镜像,或者想理解 Docker 为什么是轻量级的,就非常有必要学习这部分知识了。我们以两个镜像为例来讲解一个镜像的内部构成。

2024-04-28 16:29:25 697

原创 Docker 实战:使用 Docker Desktop 在 MacOS 上安装 Docker

在这采用 Docker Desktop 在 Mac 上来安装 Docker。Docker Desktop 是 Docker 的管理桌面 IDE,提供了一个直观的GUI(图形用户界面),允许您直接在本机上管理容器、应用程序以及镜像。适用于 Mac、Linux 以及 Windows 环境,允许您构建、共享和运行容器化应用程序和微服务。Docker Desktop 可以大大降低在复杂配置上的时间,因此您可以专注于编写代码。它负责端口映射、文件系统问题和其他默认设置,并定期更新 Bug 修复和安全更新。

2024-04-28 15:19:47 694

转载 基于 Apache Calcite 的多引擎指标管理最佳实践

文章介绍了基于 Apache Calcite 的多引擎指标管理的技术原理与最佳实践,包括指标管理的常见方式、指标管理的最佳实践、指标管理的实现原理以及指标管理在字节跳动未来的一些规划,重点阐述了指标管理在业内常见的解决方案与字节内部使用的一套 SQL 两种语法多引擎指标管理方案的异同;字节内部如何使用一套 SQL 两种语法实现降本增效以及指标管理技术的具体实现方案。

2024-04-22 08:00:11 19

原创 Debezium 1.9.0.Alpha2 正式发布

我很高兴宣布 Debezium 1.9 系列的第二个版本,1.9.0.Alpha2 正式发布。此版本包含了对 Oracle 21c 的支持、围绕 Redis for Debezium Server 的改进、配置 kafka.query.timeout.ms 参数以及围绕 DDL 解析器、构建基础架构等的许多 Bug 修复。整体来说,在此版本修复了个问题。让我们一起看看其中的一些亮点。

2024-04-21 19:54:19 17 1

原创 Debezium 1.9.0.Alpha1 正式发布

我很高兴宣布 Debezium 1.9 系列的第一个版本 1.9.0.Alpha1 正式发布。这是新的一年来的第一个新版本!Debezium 1.9.0.Alpha1 版本包含大量修复和改进,最显着的是改进了指标以及提供对 Oracle ROWID 数据类型的支持。

2024-04-21 19:52:33 12

原创 Debezium 1.9.0.CR1 正式发布

我很高兴宣布 Debezium 1.9.0.CR1 正式发布!除了修复一系列 Bug 之外,这个版本还带来了期待已久的功能:对 Apache Cassandra 4 的支持!整体而言,在这个版本修复了 52 个问题。现在让我们仔细看看在 Cassandra 3 上的变化以及对 Cassandra 4 的支持。

2024-04-21 19:50:56 14

原创 Debezium 初了解

在研究 Flink CDC 时,其中涉及了 Debezium,便决定研究一下 Debezium。这篇文章简单介绍了 Debezium 是什么,以及它的架构和特性。后续文章中会后续介绍其功能特性以及如何使用。

2024-04-21 18:39:48 255 1

转载 2022年数据工程现状

虽然该领域的公司数量在不断增加,但可以看到,其中有几个类别的产品出现了整合迹象。MLOps 趋向于端到端,Notebook 正在进入编排领域,而编排正在转向数据谱系和可观察性。与此同时,我们看到,开放式表格式进入了元存储功能。而在治理层,安全和权限管理工具进入目录领域,反之亦然。本文最初发布于 lakeFS 官方博客。自我们分享“2021 年数据工程现状”已经过了一年。从去年 5 月我们发布那篇文章以来,数据领域并没有多少变化。事实上,我们曾在内部讨论过 2022 年还要不要做一次更新。开玩笑的。

2024-04-21 15:19:21 10

转载 2024 开源数据工程生态系统全景图

虽然生成式人工智能和ChatGPT带来的沸沸扬扬的炒作令科技界为之一振,但在数据工程领域,2023年仍然是一个令人振奋和充满活力的一年,数据工程生态系统变得更加多样化和复杂化,系统中的所有层面都在不断创新和演进。随着各种开源工具、框架和解决方案的持续涌现,数据工程师的选择也越来越多!在这样快速变化的环境中,紧跟最新技术和趋势的重要性不言而喻。选择合适的工具来完成合适的工作是一项至关重要的技能,确保在不断变化的数据工程挑战面前保持效率和相关性。

2024-04-21 10:17:28 21

转载 微信亿级用户异常检测框架的设计与实践

如何在大规模数据下检测异常用户一直是学术界和工业界研究的重点,而在微信安全的实际生态中,一方面,黑产作恶手段多变,为了捕捉黑产多变的恶意模式,若采用有监督的方法模型可能需要频繁更新,维护成本较高;另一方面,通过对恶意帐号进行分析,我们发现恶意用户往往呈现一定的“聚集性”特征,因此这里需要更多地依赖无监督或半监督的手段对恶意用户进行检测。然而,微信每日活跃帐号数基本在亿级别,如何在有限的计算资源下从亿级别帐号中找出可疑帐号给聚类方案的设计带来了不小的挑战,而本文则是为了解决这一问题的一个小小的尝试。

2024-04-20 22:57:45 15

转载 蚂蚁金服异常检测和归因诊断分析实践

在实际工作中,我们常常受到业务方对关键绩效指标(KPI)的灵魂拷问:某个 KPI 指标为什么会上升或下降?归因诊断的任务就是解释这些指标变化的原因。

2024-04-19 07:22:48 25

原创 2024年03月数据月报

2024年03月数据月报,为您准备了阿里、字节、百度等大厂100+篇实践案例

2024-04-06 16:33:26 1338

转载 异常检测:百度是这样做的

异常检测需要监控的业务繁多,覆盖了搜索、广告、地图、糯米等百度大部分的产品业务。及时发现这些业务请求数、拒绝数、响应时间、流水和订单等数据的异常波动,是业务稳定性的重要保证。这些数据不但数量众多,而且不同业务的曲线也有截然不同的特征。第一幅曲线图中有蓝、绿两根曲线,分别代表当前时刻数据和上周同一时刻的数据。蓝色曲线几乎完全覆盖了绿色曲线,说明数据有规整的周期特性。第二幅曲线图中,紫色曲线是当前时刻数据,蓝色曲线是上一周的数据。可以看出:数据有一定的周期性,但又不如第一幅图那么规整。

2024-04-06 15:33:07 90

原创 Latex 常用数学公式

一般来说,1/2 这种形式更受欢迎,因为对于少量的分式,它看起来更好些。这样极限函数的上标和下标就会出现在符号的上下方,而不是右下方。放在开分隔符前,会自动决定分隔符的正确大小。某些情况下有必要手工指出数学分隔符的正确大小,这可以使用命令。,并且只有当这两个分隔符排在同一行时大小才会被正确确定。方根符号的大小由 LATEX自动加以调整。在定义从 A 到 B 的向量时非常有用。作为大多数分隔符命令的前缀。在表达式的上、下方画出水平线。在表达式的上、下方画出一水平的。你可以在下述命令的前面加上。

2024-03-27 21:43:31 996

转载 字节基于用户画像标签的分析及业务场景应用

随着企业数字化转型的深入发展,对用户深层理解的渴望日益迫切。在此背景下,本次分享精心剖析了用户画像标签的精髓及其在多变业务场景中的关键作用。从基础属性标签到策略上的标签,不仅系统性地介绍了各类型标签的构建与应用,还着重强调了在快节奏的数字化时代中,如何通过高效的异常值处理、时间衰减考量及数据区分度提升等手段,确保标签的准确性和实用性。并且深入讨论了如何长期评估和追踪用户画像的内聚性和稳定性,为数据产品经理提供了一把锐利的工具,助力其在激烈的市场竞争中准确把握用户需求,不断提升产品和策略的效能。

2024-03-17 10:31:57 76

转载 基于宽表的数据建模应用

宽表建模更适合面向快速迭代的数据驱动型业务,能够提升业务效率基于当前的业务实践,宽表在存储和查询性能方面相比于传统数仓更优在业务效率提升的同时,宽表的建设会对数据生产和维护成本有所提升,还需结合实际应用进一步优化探索未来规划:基于宽表可以更方便的构建自助分析平台,进一步提升业务分析效率。

2024-03-13 10:27:03 77

转载 数据工程师如何应对巨量的取数需求?

做为一个数据工程师,这是必然要经历的过程,但只是经历不能一直深陷其中,如果你所在的部门一直处于接巨量的取数需求的状态,说明部门的数据建设的方向可能是不对的,那就让我们来看看有哪些破解之法吧,当然这次分享的破解之法,也肯定不是让这些需求排期,或者通过需求价值过滤需求等“行政”管理的方法,而是从技术与架构设计的角度给你一个全新的解决此类问题的视角。

2024-03-13 07:33:32 57

Java 1.7 中文帮助文档

Java 1.7 中文帮助文档.

2015-12-27

大型网站技术核心原理与案例分析

本书通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计案例,为读者呈现一幅包括技术选型、架构设计、性能优化、Web 安全、系统发布、运维监控等在内的大型网站开发全景视图。 本书不仅适用于指导网站工程师、架构师进行网站技术架构设计,也可用于指导产品经理、项目经理、测试运维人员等了解网站技术架构的基础概念;还可供包括企业系统开发人员在内的各类软件开发从业人员借鉴,了解大型网站的解决方案和开发理念。

2015-12-25

2015 搜狗校园招聘研发类笔试题

2015 搜狗校园招聘研发类笔试题

2015-12-22

Android应用开发揭秘

国内第一本基于Android 2.0的经典著作,5大专业社区联袂推荐,权威性毋庸置疑! 本书内容全面,不仅详细讲解了Android框架、Android组件、用户界面开发、游戏开发、数据存储、多媒体开发和网络开发等基础知识,而且还深入阐述了传感器、语音识别、桌面组件开发、Android游戏引擎设计、Android应用优化、OpenGL等高级知识,最重要的是还全面介绍了如何利用原生的C/C++(NDK)和Python、Lua等脚本语言(Android Scripting Environment)来开发Android应用;本书实战性强,书中的每个知识点都有配精心设计的示例,尤为值得一提的是,它还以迭代的方式重现了各种常用的Android应用和经典Android游戏的开发全过程,既可以以它们为范例进行实战演练,又可以将它们直接应用到实际开发中去。

2015-12-17

Android开发秘籍

作为google 开发的全新开源手机平台,android 发展如火如荼。本书通过大量代码秘诀全面详尽地讲述了android 开发技术。从activity 和intent 基础知识开始,到线程、服务、broadcast receiver 以及alert 警告框,再到用户界面布局、界面事件、多媒体技术、硬件接口、网络通信、数据存储方法、基于位置的服务、android 高级开发技术和调试,书中贯穿了经android 设备或者模拟器测试的可用范例,将功能丰富、结构复杂的android 应用程序清晰完美地展现给开发人员。 对于那些有志于android 应用开发的人员来说,本书是难得的参考读物。

2015-12-17

Android开发精要

如何才能写出贴近Android设计理念、能够更加高效和可靠运行的Android应用?通过Android的源代码去了解其底层实现细节是最重要的方法之一!然而,Android系统太过于庞大,源代码实现复杂,学习的技术门槛和时间成本都很高。 有没有一种方法既能帮助开发者深入理解Android应用开发,又能不被底层大量的实现细节所羁绊,迅速掌握编写高质量Android应用所需的知识?本书针对这个问题给出了完美的答案!它从Android繁杂的源代码中抽取出了Android开发的“精华”和“要点”,剥离了大量琐碎的底层实现细节,进行了高度概括和总结,不仅能帮助开发者迅速地从宏观上理解整个Android系统的设计理念,而且能帮助开发者迅速地从微观上掌握核心知识点的原理,从而编写出高质量的Android应用。[1] 本书共13章,在逻辑上分为4个部分。第一部分(1~2章):第1章系统介绍了Android的系统架构、核心模块和设计思想,旨在让读者真正理解它的设计理念;第2章讲解了Android源代码的获取、编译、阅读和编辑的方法。第二部分(3~6章):第3章深入阐述了Android组件机制的设计理念和重要特征,并详细介绍了4大组件的方法和原理;第4章讲解了Intent对象和Android的意图机制,阐明了Android是如何将来自不同应用、不同进程的组件整合在一起的;第5章解析了Android中各个组件的生命周期,包括组件的进程模型和线程模型;第6章从开发的角度详细阐述了组件间数据传输的解决方案,以及它们的优缺点和适用场景。第三部分(7~8章):第7章深入讲解了Android的控件框架,结合实际项目对重要控件的实现和使用逐一进行了分析,还包含Android 4.0界面开发的实践“精华”;第8章分析了Android的资源体系,剖析了Android底层对资源的处理。第四部分(9~13章):第9章讲解了Android的数据存储结构,以及不同数据存储模式的使用要点;第10章分析了Android的各种网络连接方式,涵盖NFC和基于WiFi的P2P连接等内容;第11章讲解了Android的定位服务、地址服务和地图服务的框架实现;第12章仔细分析了Android各种多媒体功能的实现机制;第13章对Android中比较有特色的一些模块的实现细节进行了分析。

2015-12-17

Android技术内幕.系统卷

《Android技术内幕:系统卷》是国内首本系统对Android的源代码进行深入分析的著作。全书将Android系统从构架上依次分为应用层、应用框架层、系统运行库层、硬件抽象层和Linux内核层等5个层次,旨在通过对Android系统源代码的全面分析来帮助开发者加深对Android系统架构设计和实现原理的认识,从而帮助他们解决开发中遇到的更加复杂的问题。《Android技术内幕:系统卷》分为两卷,系统卷主要分析了Linux内核层、硬件抽象层和系统运行库层的各个模块的底层原理和实现细节;应用卷主要分析了应用层和应用框架层的各个模块的底层原理和实现细节。 具体而言,系统卷第1章首先从宏观上介绍了Android系统的架构以及各个层次之间的关系,然后介绍了如何获取Android源代码并搭建Android源代码开发环境和阅读环境的方法;第2章有针对性地剖析了Android的内核机制和结构,以及Android对Linux内核的改动和增强;第3章分析了Binder的架构和工作机制,以及Binder驱动的实现原理;第4章分析了Android电源管理模块的机制与实现;第5章全面地剖析了Android硬件设备驱动(显示、视频、音频、MTD、Event、蓝牙、WLAN等)的工作原理和实现,掌握这部分内容即可修改和编写基于Android的设备驱动程序;第6章深刻阐述了Android原生库的原理及实现,涉及系统C库、功能库、扩展库和原生的Server等重要内容;第7章系统地讲解了硬件抽象层的原理与实现,掌握这部分内容即可编写适合特定硬件设备驱动的抽象层接口;第8章和第9章是对系统运行库层的分析,主要讲解了Dalvik虚拟机的架构、原理与实现,以及Android的核心库相关的知识,掌握这部分内容即可完成对Android运行库的移植和修改。

2015-12-17

Android高级编程

《Android高级编程》首先简要介绍Android软件栈,接着陈述为手机创建稳定可靠、赏心悦目的应用程序的基本原理。通过学习,您可以打下牢固的理论根基,了解使用当前Android 1.0 SDK编写定制移动程序所需的知识,还能灵活快捷地运用未来的增强功能构建最前沿的解决方案。 Android提供一个开放的开发环境,为针对移动设备编写创新应用程序带来了激动人心的新机遇。作为使用AndroidSDK构建这些应用程序的实用指南书籍,《Android高级编程》从始至终穿插了一系列示例项目,每个项目都引入Android的新功能和新技术,以助您达到最圆满的学习效果。书中介绍Android的所有基本功能,并通过简明扼要的示例引导您使用高级功能。

2015-12-17

2015 腾讯校园招聘技术类研发笔试题

2015 腾讯校园招聘技术类研发笔试题

2015-12-17

2015 小米校园招聘笔试题

2015 小米校园招聘笔试题

2015-12-17

2015 新浪微博校园招聘笔试题

2015 新浪微博校园招聘笔试题

2015-12-17

2015 中体彩测试工程师笔试题

2015 中体彩测试工程师笔试题

2015-12-17

2016 恒生电子校园招聘笔试题

2016 恒生电子校园招聘笔试题

2015-12-17

JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发

《轻量级Java EE企业应用实战:Struts 2+Spring 3+Hibernate整合开发》是2008年电子工业出版社出版的图书,作者是李刚。《轻量级JavaEE企业应用实战》一书于2008年由电子工业出版社出版发行,该书是《轻量级J2EE企业应用实战》的第二版,同时还融合了《整合Struts+Hibernate+Spring应用开发详解》理论部分。实际上,该书凝结了前两本书的精华部分。该书介绍了Java EE领域的三个开源框架:Struts 2、Spring和Hibernate。其中Struts 2升级到2.1.2,Spring升级到2.5.5,Hibernate升级到3.2.6。该书保留《轻量级J2EE企业应用实战》里关于Tomcat、 Jetty的介绍,新增了关于Ant、CVS的内容。

2015-12-17

Mahout算法解析与案例实战

本书是一本经典的Mahout著作,原理与实战并重。不仅全面分析了Mahout算法库中不同模块中的各个算法的原理及其Mahout实现流程,而且每个算法都辅之以实战案例。此外,还包括4个系统级案例,实战性非常强。全书共11章分为三个部分:第一部分为基础篇(第1~2章),首先介绍了Mahout的应用背景、Mahout算法库收录的算法、Mahout的应用实例,以及开发环境的搭建;第二部分为算法篇(第3~7章),分析了Mahout算法库中不同模块的各个算法的原理以及Mahout实现流程,同时在每章书末含有每个算法的实战,让读者可以自己运行程序,感受程序运行的各个流程;第三部分为实战篇(第8~11章),通过对4个不同系统案例的分析讲解,让读者了解一个完整的云平台系统的各个流程,从需求到系统框架到系统功能再到功能开发。

2015-12-16

LINUX内核设计与实现

《Linux内核设计与实现(原书第3版)》主要内容包括:进程管理、进程调度、时间管理和定时器、系统调用接口、内存寻址、内存管理和页缓存、VFS、内核同步以及调试技术等。同时《Linux内核设计与实现(原书第3版)》也涵盖了Linux 2.6内核中颇具特色的内容,包括CFS调度程序、抢占式内核、块I/O层以及I/O调度程序等。《Linux内核设计与实现(原书第3版)》采用理论与实践相结合的路线,能够带领读者快速走进Linux内核世界,真正开发内核代码。《Linux内核设计与实现(原书第3版)》适合作为高等院校操作系统课程的教材或参考书,也可供相关技术人员参考。

2015-12-14

重构-改善即有代码的设计

本书清晰揭示了重构的过程,解释了重构的原理和最佳实践方式,并给出了何时以及何地应该开始挖掘代码以求改善。书中给出了70多个可行的重构,每个重构都介绍了一种经过验证的代码变换手法的动机和技术。本书提出的重构准则将帮助你一次一小步地修改你的代码,从而减少了开发过程中的风险。

2015-12-14

算法艺术和信息学竞赛

本书即为信息学界著名的两本“黑书”之一(另一本为吴文虎、王建德编著的实用算法的分析与程序设计,这本书现在已经在市场是接近绝版,但是在网上能找到电子书·如果想找到替代品的话可以找另外一本由吴文虎教授以及王建德先生编著的黑书《新编实用算法的分析与程序设计》,由北京邮电出版社2008年出版,此书与原版表面内容相差较大,但实质没有太大差别)。

2015-12-14

Eclipse Maven插件

eclipse-maven插件。官网并不提供 maven 插件的离线安装包,在网上搜一下maven 的离线安装即可。

2015-11-30

apache-mahout-distribution-0.11.1-src

Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。

2015-11-30

Better bitmap performance with Roaring bitmaps

Better bitmap performance with Roaring bitmaps

2023-03-06

Encoded Bitmap Indexing for Data Warehouses

Encoded Bitmap Indexing for Data Warehouses

2023-03-04

数仓规范化-菜鸟数据模型管理实践

数仓规范化—菜鸟数据模型管理实践 PDF

2023-02-19

美团外卖离线数仓建设实践

美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对痛点做的一系列优化解决方案

2023-02-19

Redis 入门指南

《Redis入门指南》是2013年人民邮电出版社出版的图书,作者是李子骅。该书是一本Redis的入门指导书籍,以通俗易懂的方式介绍了Redis基础与实践方面的知识,包括历史与特性、在开发和生产环境中部署运行Redis、数据类型与命令、使用Redis实现队列、事务、复制、管道、持久化、优化Redis存储空间等内容,并采用任务驱动的方式介绍了PHP、Ruby、Python和Node.js这4种语言的Redis客户端库的使用方法。

2017-06-02

Apache Sqoop Cookbook

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

2016-11-14

Apache Spark源码剖析

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

2016-11-12

Elasticsearch.The.Definitive.Guide

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的

2016-10-21

Shell脚本学习指南

《Shell脚本学习指南》将告诉你这些有关UNIX主流工具的知识。除此之外,《Shell脚本学习指南》还会帮助你解决UNIX命令与标准的差异。 作者熟知UNIx程序使用的基本技巧与操作上细微的差异。他们不但会告诉你如何构建一个绝佳的脚本,还会教你如何避免落入让你功亏一篑的陷阱。有了《Shell脚本学习指南》,你可以节省很多力气。 我们要学习的不只是如何写出有用的Shell脚本,你还得了解如何迅速、确实地定制Shell,让程序的可移植性达到最佳状态,脱离对特定系统的依赖。这些技巧对任何操作与维护UNIX及Linux系统的人而言都很重要。《Shell脚本学习指南》所提供的知识,将可以帮助你掌握基本的Shell脚本编写技巧。Shell脚本编程(scripting)的技巧永远不会过时:它们可以让UNIX充分发挥其真实的潜能。对uNIx的用户与系统管理者而言

2016-05-28

dubbo-admin-2.5.4

dubbo-admin

2016-04-26

AspectJ所需Jar包

AspectJ 1.8.8 版本 更新时间 2016/02/12

2016-02-12

精通Spring

本书深入剖析了当前流行的轻量级开发框架Spring技术。本书总共分成3部分。第一部分,重点阐述Spring的架构。这部分内容循序渐进带领开发者进入Spring中。主要在于阐述Spring IoC和Spring AOP。第二部分,重点阐述Spring的使用。这部分内容从简化Java/J2EE的角度出发,从J2EE平台各个技术层面分析、并给出大量的研究实例,对Spring提供的API进行阐述。主要在于阐述Spring对J2EE API提供的服务抽象。第三部分,重点阐述Spring高级专题。这部分内容重点对视图技术进行了研究,因为对于开发Web应用而言,前端界面的开发往往工作量很大。因此,使用合理的视图技术开发Web应用对于项目的成功与否很关键。

2016-02-07

Java Persistence with MyBatis 3

MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名为MyBatis 。2013年11月迁移到Github。

2016-02-06

Java Persistence with MyBatis 3(中文版)

Java Persistence with MyBatis 3(中文版)

2016-02-06

Spring-Jar-4.2.4

Spring应用开发使用的全部jar包: Spring-core.jar Spring-context.jar Spring-expression.jar Spring-beans.jar commons-logging.jar

2016-01-28

mysql-connector-java-5.1.38

mysql驱动jar包 峰

2016-01-21

log4j所需jar包

Log4j是Apache的一个开源项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台、文件、GUI组件,甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等;我们也可以控制每一条日志的输出格式;通过定义每一条日志信息的级别,我们能够更加细致地控制日志的生成过程。最令人感兴趣的就是,这些可以通过一个配置文件来灵活地进行配置,而不需要修改应用的代码。

2016-01-20

jdom-2.0.6.zip

JDOM是一种使用 XML(标准通用标记语言下的一个子集) 的独特 Java 工具包,。它的设计包含 Java 语言的语法乃至语义。

2016-01-03

Hadoop实战中文版

为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。  《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

2015-12-25

大规模分布式系统架构与设计实战

《大规模分布式系统架构与设计实战》是作者从程序员到首席架构师十多年职业生涯的实战经验总结,系统讲解构建人规模分布式系统的核心技术与实现方法,包含作者开源的Fourinone系统的设计与实现过程,手把手教你掌握分布式技术。通过学习这个系统的实现方法与相关的理论,读者可快速掌握分布式系统的理论并设计自己的分布式系统。 《大规模分布式系统架构与设计实战》从分布式计算的基本概念开始,解剖了众多流行概念的本质,深入讲解分布式系统的基本原理与实现方式。包括master—slave结构、消息中枢模式、网状直接交互模式、并行结合串行模式等,以及Fourinone系统的架构、实现分布式功能的示例。接下来详细介绍分布式协调、分布式缓存、消息队列、分布式文件系统、分布式作业调度平台的设计与实现方法,不仅包括详细的架构原理、算法,还给出了实现步骤、核心API、实现代码。随书附带的光盘包括书中示例代码以及Fourinone系统源代码。

2015-12-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除