网站首页 prestodb
-
大数据平台架构及主流技术栈
互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的三篇论文GFS(2003),MapReduce(2004),Bigtable(200...
2024-11-21 wxchong 开源技术 34 ℃ 0 评论 -
Apache Pinot vs. Apache Druid
1.背景常见OLAP引擎包括不仅限于Hive、SparkSQL、Presto、Kylin、Impala、Druid、Pinot、Clickhouse、Greeplum,与OLTP不同,OLAP更强调SQL的执行速度,分区,强调磁盘I/O...
2024-11-21 wxchong 开源技术 46 ℃ 0 评论 -
「大数据」SparkSql连接查询中的谓词下推处理(一)
本文首发于vivo互联网技术微信公众号https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g作者:李勇目录:1.SparkSql2.连接查询和连接条件3.谓词下推4.内连接查询中的谓词下推规...
2024-11-21 wxchong 开源技术 63 ℃ 0 评论 -
完美避坑!记一次Elasticsearch集群迁移架构实战
前言Elastic自身设计了集群分片的负载平衡机制,当有新数据节点加入集群或者离开集群,集群会自动平衡分片的负载分布。需求背景公司原有大数据平台基于公有云构建,由于种种原因,现在需要迁移到自建机房,Elasticsearch集群承担了大数据...
2024-11-21 wxchong 开源技术 50 ℃ 0 评论 -
大数据Presto(二):Presto安装搭建
#头条创作挑战赛#Presto安装搭建...
2024-11-21 wxchong 开源技术 40 ℃ 0 评论 -
Presto查询优化拾遗
GroupedExecution为了方便大家理解GroupedExecution的原理,我们先来介绍两个概念:分桶和HashJoin。1.1分桶其实Hive表中桶的概念就是MapReduce的分区的概念,两者完全相同...
2024-11-21 wxchong 开源技术 38 ℃ 0 评论 -
这个用Python编写的大数据测试工具,我给100分
数据对于任何一个企业来说都是非常重要的,为了保证数据ETL流程的质量及效率,很多公司都会引入ETL工具。目前ETL工具有很多,但是针对ETL测试的测试工具在业界却比较少见。这是为什么呢?主要是因为在日常ETL测试过程中会...
2024-11-21 wxchong 开源技术 42 ℃ 0 评论 -
Presto 常用性能优化技巧
Presto是一个用于分析的开源分布式ANSISQL查询引擎,支持计算和存储的分离。性能对于一些分析查询尤其重要,因此Presto有许多设计特性来最大化Presto的速度,比如内存中的流水线执行(memorypipelin...
2024-11-21 wxchong 开源技术 54 ℃ 0 评论 -
大数据Presto(一):Presto介绍
#头条创作挑战赛#Presto介绍...
2024-11-21 wxchong 开源技术 38 ℃ 0 评论 -
Presto 与 Hive 简单对比(presto和hive语法的区别)
presto简单presto是一个分布式的sql交互式查询引擎。可以达到hive查询效率的5到10倍。支持多种数据源的秒级查询。presto是基于内存查询的,这也是它为什么查询快的原因。除了基于内存,presto还使用了...
2024-07-26 wxchong 开源技术 23 ℃ 0 评论