高英举

人物简介:

高英举 现于某互联网大厂从事时序数据引擎研发工作,超过12年工作经验,涉及数据平台、数据仓库、OLAP引擎内核。熟悉Hadoop、Presto、Elasticsearch、Spark、Flink等大数据技术,在多个互联网大厂的生产环境中有大规模使用与深入优化经验。此外,也是数据集成流批处理工具Apache SeaTunnel(https://github.com/apache/seatunnel)项目创始人、PMC、主要代码贡献者。 许一腾 现任某互联网大厂数据工程师,主攻数据隐私合规建设。超过7年工作经验,曾在腾讯看点、医疗担任数据研发负责人,期间负责多种大数据平台与能力建设,包括数据质量、联邦查询、数仓建模、DataOps、详细数据血缘、基于意图的权限控制等方向。平时喜欢研究源码,从0到1学习了Redis、Presto(Trino)、Spark等多种开源项目,并且热爱分享。

OLAP引擎底层原理与设计实践书籍相关信息


内容简介:

本书从OLAP的技术与挑战开始引入主题,先讲基本原理和使用方法,再逐层深入到源码分析上,由浅入深。在内容安排上详细拆解了OLAP分析引擎中的SQL查询解析器、优化器、调度器、执行器这几个核心组件,并将内容扩展到OLAP分析引擎的常见高性能优化方案上。本书分为6篇,共14章节。从OLAP核心概念出发,以Presto为例,从整体执行流程到不同SQL的执行原理,力图把OLAP查询的核心流程以一种系统化的方式来给读者讲清楚。 第一篇(1-2章)总体介绍业界常见的OLAP引擎并分析优劣,讨论OLAP引擎的技术发展趋势,以及如何选型,介绍了Presto相关的背景知识。 第二篇(3-4章)详细的串讲了查询执行的整个过程,带出了查询解析器、优化器、调度器、执行器几个核心模块的工作原理。 第三篇(5-8章)以例讲理,是多种经典SQL的执行原理解析,复杂度逐章递增,包含了投影变换、过滤、行数限定、排序以及多种聚合场景。 第四篇(9-10章)详解分布式查询执行的数据交换机制,涵盖了查询规划、调度、执行的多个交叉知识点。 第五篇(11-12章)以Presto为例整体介绍了比较流行的OLAP引擎扩展机制——插件体系与连接器。 第六篇(13-14章)是函数的设计原理与开发实战,介绍了函数注册、解析识别、调用等重要流程,最后从标量函数、聚合函数两方面入手,用多个实际的案例来介绍高级API(注解框架)的开发方法以及低级API的底层开发方法。 我们在创作本书时力争做到以下几点: 1)用心创作,而不是堆砌代码凑字数、无脑搬官方文档 2)结合SQL用例讲解技术原理,而不是生硬表达概念或源码 3)知识分层由浅入深,而不使内容过于浅显表面或深入晦涩 4)持续打磨表达能力,使内容逻辑合理清晰、通顺流畅 5)将知识泛化到通用OLAP引擎设计原理使其能够同样适用于Clickhouse、Doris等技术的受众,而不是只关注特定技术的特定细节 如果你正在寻找一本系统性介绍OLAP引擎的好书、如果你希望在使用OLAP引擎的同时深入掌握其核心原理、如果你的目标是从低中阶工程师晋升为资深技术专家;如果你最近在准备数据技术职位的求职面试;我们相信《OLAP引擎底层原理与设计实践》这本书能够有效的帮助到你。