主页 > IT >

微软Azure更新3大数据服务

时间:2019-02-10 15:40 来源:未知

微软Azure更新3大数据服务

微软云计算平台Azure最近宣布针对3项数据服务的更新,包含推出正式版的数据湖存储服务Data Lake Storage Gen2和数据完全托管服务Data Explorer,此外,还推出预览版的混合数据集成服务Data Factory,期望提供用户性价比高又安全的云计算数据分析服务。

 

 

数据湖存储服务Data Lake Storage Gen2适用于巨量数据分析,结合了Azure非结构化存储服务Blob Storage的可扩展性、安全模型和丰富的功能于一身,再加上为分析所设计的高性能的文件系统,还能与Hadoop分布式文件系统兼容,让用户选择云计算数据湖服务时,不需要在成本和性能中取舍。

微软指出,自家数据湖存储服务其中一项主要目标,即是要与Apache生态系统统兼容,为了做到这点,微软开发Azure Blob文件系统驱动程序,该驱动程序正式成为Apache Hadoop和Spark的一部分,并且附于许多Hadoop的商业版本中。

为了进一步提升Data Lake Storage Gen2的分析性能,微软用阶层式命名空间,收集文件集整合整理成阶层式目录和嵌套子目录,此种命名空间对巨量资量分析架构相当重要,由于Hive或是Spark等工具经常将输出写入暂时位置,并在作业结束时重命名该位置,若没有阶层式命名空间,重命名所花费的时间通常会比分析流程本身更长,因此,阶层式命名空间因为需要较少的运算执行,能够加速job执行并减低成本。

而Data Explorer是一个快速且具有高扩展性的完全托管数据分析服务,能够针对大量的串流数据进行即时分析,在不需要修改数据结构的情况下,一秒内能够查询10亿笔记录,此外,该服务能与微软云计算其他服务相连,像是Data Lake Storage、SQL Data Warehouse、Power BI。为了提升速度和简化操作,Data Explorer由两个分别的服务组成:Engine服务和数据管理服务,这两项服务都在Azure中,以运算节点的集群形式布署。

数据管理服务负责消化多种不同形态的原始数据,并且管理数据清理、执行失败和backpressure等任务,还能通过自动索引和压缩机制快速处理数据。而Engine服务则是负责处理输入的原始数据和用户的查询,通过自动扩展(Auto Scaling)和数据分割(data sharding)来达到高性能的目标。

最后,微软这次的更新还推出混合数据集成服务Data Factory预览版,Data Factory服务是用来将数据移动和转换工作自动化的服务,内置超过80个与结构化、半结构化和非结构化数据源的链接器。除此之外,该服务还提供数据工作流程可视化工具Mapping Data Flow,提供用户在设计、构建和管理数据转换的过程有可视化的体验,不需要学习Spark或是对分布式基础架构有深入的了解。

通用右侧嵌套--通用嵌套--人民网