编程开源技术交流，分享技术与知识

网站首页 > 开源技术正文

大数据环境搭建之准备清单（大数据环境搭建实验报告）

wxchong 2024-08-18 00:53:17 开源技术 62 ℃ 0 评论

作者：Neshoir

超图大数据环境搭建之准备清单

超图空间大数据GIS平台基于Spark计算框架实现的，目前已对接主流的底层调度平台模式，如standalone，yarn，mesos等。在分布式存储方面，已对接了hdfs，hbase，es等等。本文将列出超图空间大数据GIS平台部署环境所需组件的清单，以及支持的一些第三方组件清单。

支持的环境

Ubuntu14.04 & 16.04 以及CentOS 7，主流的服务器系统，如今容器技术的火热发展，Spark2.4也支持K8S中运行。so想尝鲜的朋友可以选择在K8S中跑Spark应用。
JDK1.8 ，JDK环境要求至少是1.8版本及以上。
Scala 2.11，Scala是一门多范式的编程语言，具有面向对象和函数编程的特性，其运行于JVM之上，故可以很好的与Java做混合开发，目前推荐用Scala2.11版本，因为SuperMapiObjects for Spark组件是基于Scala2.11版本实现的，这样可以避免版本的兼容性问题。

支持的计算框架

Spark 2.10~2.4.* & Spark Streaming，Spark是一个开源分布式计算框架，其特点就是运算快，因为计算是在内存里执行的，它提供了交互式语言接口，以及丰富的api接口，如scala，java，python，R等，其生态完整，即提供了批处理能力，也提供了实时数据处理能力，另外也具备机器学习的能力。

支持的分布式存储

Hadoop2.7，Hadoop可以说是一个开源分布式项目，包含分布式计算框架MapReduce，分布式存储系统HDFS，集群资源调度框架YARN，在SuperMapiObjects for Spark产品中采用的计算框架是Spark，故我们只会用到其HDFS组件。
Hbase1.3.*，Hbase是分布式数据库，面向列存储，其底层存储基于HDFS之上，其特点就是读写性能高效，支持PB,TB级别的大数据存储，可横向扩展，容错性高等。在超图Spark产品中可以用它来存储海量的矢量数据以及栅格数据。
MonoDB，mongodb是面向文档的数据库，也支持集群部署，支持分布式计算，在超图Spark产品中用它来存储矢量瓦片，栅格瓦片以及三维瓦片等。
Postgres-XL，postgres-xl是分布式数据库，其底层数据库基于postgresql，具有很强的SQL特性，在一些复杂的查询业务中应用很广。

支持的实时数据组件

Elasticsearch5.6.15，es作为一个高效的搜索引擎，外加它内置geohash，且具备一定的点聚合能力，故在超图Spark产品中选择它作为基于位置信息的实时数据存储平台。
Kafka，kafka作为一个统一，高吞吐，低延迟的分布式消息组件，非常适合实时数据的中间处理平台。

支持的服务协调框架

ZooKeeper，zk作为集群服务的协调框架，具有很强的高可用性，hbase集群的运作就需要zookeeper架构支持。

超图大数据产品

SuperMapiObjects Java 9D(2019) SP2 for Linux ，Java组件作为超图Spark产品的底层空间处理及分析的支持。
SuperMapiObjects Java 9D(2019) SP2 for Spark，分布式空间大数据计算组件，提供了数据入库，空间运算，空间分析，栅格分析，实时路况等算子。
SuperMapiServer 9D(2019) SP2 for Linux(64位)(Deploy包)，iServer是集成数据入库，空间分析，可视化等一体化的分布式分析服务功能，简单界面配置即可进行大数据分析，降低使用门槛。

如果是选择基于超图大数据GIS产品做二次开发，那么推荐选择用超图的spark组件和java组件产品。如果只是想要大数据GIS平台的功能，可以选择用iServer产品，它内部包含了spark计算框架以及超图的java组件和超图的spark组件。

上面列举的组件不是所有都需要部署的，对于开发客户来说，根据自身的业务场景需要选择相应的存储组件。对于hbase来说是需要zookeeper组件协调的。

注：上面列举的就是推荐的部分组件，每一个组件的部署参考其官网文档说明，当然也支持传统的数据库，如oracle，mysql等等。

上一篇：如何避免 PostgreSQL RDS 的陷阱:一份大数据解决方案的实践指南
下一篇： Postgres高可用之Citus分布式集群搭建及使用

猜你喜欢

2025-03-24 罕见的PostgreSQL数据库主从物理复制断开案例
2025-03-24 每周 GitHub 探索|Teale，基于 postgres 的无代码 Airtable 替代方案
2024-08-18 你的数据库怎么管理呢，试试我这个好不好 navi cat?
2024-08-18 Java实现Office文件预览（java预览word）
2024-08-18 腾讯大数据团队:高性能HTAP数据库TBase架构体系揭秘
2024-08-18 Github 2024-03-29 开源项目日报 Top10
2024-08-18 数据库架构的成长烦恼(译文-来自: Figma)
2024-08-18 为什么使用 NoSQL:NoSQL 与 SQL 的区别
2024-08-18 使用Llamaindex实现结构化分层检索:革新多文档 RAG 架构
2024-08-18 支撑微信支付的数据库如何提供超300万TPCC事务处理能力

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

3℃wifi蹭网软件（蹭网软件哪个最好2020）

最近发表