作者:Neshoir
超图大数据环境搭建之准备清单
超图空间大数据GIS平台基于Spark计算框架实现的,目前已对接主流的底层调度平台模式,如standalone,yarn,mesos等。在分布式存储方面,已对接了hdfs,hbase,es等等。本文将列出超图空间大数据GIS平台部署环境所需组件的清单,以及支持的一些第三方组件清单。
支持的环境
Ubuntu14.04 & 16.04 以及CentOS 7,主流的服务器系统,如今容器技术的火热发展,Spark2.4也支持K8S中运行。so想尝鲜的朋友可以选择在K8S中跑Spark应用。
JDK1.8 ,JDK环境要求至少是1.8版本及以上。
Scala 2.11,Scala是一门多范式的编程语言,具有面向对象和函数编程的特性,其运行于JVM之上,故可以很好的与Java做混合开发,目前推荐用Scala2.11版本,因为SuperMapiObjects for Spark组件是基于Scala2.11版本实现的,这样可以避免版本的兼容性问题。
支持的计算框架
Spark 2.10~2.4.* & Spark Streaming,Spark是一个开源分布式计算框架,其特点就是运算快,因为计算是在内存里执行的,它提供了交互式语言接口,以及丰富的api接口,如scala,java,python,R等,其生态完整,即提供了批处理能力,也提供了实时数据处理能力,另外也具备机器学习的能力。
支持的分布式存储
Hadoop2.7,Hadoop可以说是一个开源分布式项目,包含分布式计算框架MapReduce,分布式存储系统HDFS,集群资源调度框架YARN,在SuperMapiObjects for Spark产品中采用的计算框架是Spark,故我们只会用到其HDFS组件。
Hbase1.3.*,Hbase是分布式数据库,面向列存储,其底层存储基于HDFS之上,其特点就是读写性能高效,支持PB,TB级别的大数据存储,可横向扩展,容错性高等。在超图Spark产品中可以用它来存储海量的矢量数据以及栅格数据。
MonoDB,mongodb是面向文档的数据库,也支持集群部署,支持分布式计算,在超图Spark产品中用它来存储矢量瓦片,栅格瓦片以及三维瓦片等。
Postgres-XL,postgres-xl是分布式数据库,其底层数据库基于postgresql,具有很强的SQL特性,在一些复杂的查询业务中应用很广。
支持的实时数据组件
Elasticsearch5.6.15,es作为一个高效的搜索引擎,外加它内置geohash,且具备一定的点聚合能力,故在超图Spark产品中选择它作为基于位置信息的实时数据存储平台。
Kafka,kafka作为一个统一,高吞吐,低延迟的分布式消息组件,非常适合实时数据的中间处理平台。
支持的服务协调框架
ZooKeeper,zk作为集群服务的协调框架,具有很强的高可用性,hbase集群的运作就需要zookeeper架构支持。
超图大数据产品
SuperMapiObjects Java 9D(2019) SP2 for Linux ,Java组件作为超图Spark产品的底层空间处理及分析的支持。
SuperMapiObjects Java 9D(2019) SP2 for Spark,分布式空间大数据计算组件,提供了数据入库,空间运算,空间分析,栅格分析,实时路况等算子。
SuperMapiServer 9D(2019) SP2 for Linux(64位)(Deploy包),iServer是集成数据入库,空间分析,可视化等一体化的分布式分析服务功能,简单界面配置即可进行大数据分析,降低使用门槛。
如果是选择基于超图大数据GIS产品做二次开发,那么推荐选择用超图的spark组件和java组件产品。如果只是想要大数据GIS平台的功能,可以选择用iServer产品,它内部包含了spark计算框架以及超图的java组件和超图的spark组件。
上面列举的组件不是所有都需要部署的,对于开发客户来说,根据自身的业务场景需要选择相应的存储组件。对于hbase来说是需要zookeeper组件协调的。
注:上面列举的就是推荐的部分组件,每一个组件的部署参考其官网文档说明,当然也支持传统的数据库,如oracle,mysql等等。
本文暂时没有评论,来添加一个吧(●'◡'●)