本月初,Platform Computing公司发布了Platform MapReduce。Platform宣称这是业界首款针对MapReduce应用程序的企业级分布式运行引擎。
什么是大数据与MapReduce?
在云时代,大数据已经不仅仅指数据的量大,比如多少TB,还包括这些数据本身的复杂程度,尤其是非结构性的数据。大数据的处理需要用到集群技术,比如来源于Google的Hadoop技术。对于大数据也产生了新的数据处理编程模式,如MapReduce。
MapReduce这种编程模型用于大规模数据集(大于1TB)的并行运算。这个词由“Map(映射)”和“Reduce(化简)”组成,方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
MapReduce数据架构分为三层:底层的分布式并行文件系统或数据库、MapReduce中间件以及上面的应用和用户访问层。
Platform MapReduce的原理与功能
Platform公司在分布式架构管理领域有超过二十年的经验,Platform MapReduce分布式运行引擎能够对跨整个分布式文件系统的集群中的MapReduce应用程序进行调度和管理。
Platform MapReduce基于Platform LSF、Platform Symphony等技术,能为要求最为苛刻、关键任务的分布式计算工作负载提供支持。
据Platform全球技术副总裁王敬文介绍,Platform MapReduce的目标市场是金融、电信、政府、零售、生物和生命科学等行业,也包括中小型互联网公司。
其实,市场上与许多开源的MapReduce,比如Hadoop MapReduce。但是开源MapReduce存在很多缺陷,在质量和功能上都达不到企业的要求。最近有新闻报道,Google在新的内容索引系统中会放弃MapReduce。
此外,Platform公司还将为HDFS提供服务支持。通过与MapReduce集成,为用户提供更多选择。
云时代的数据分析架构
在云计算时代,架构性与非结构性数据共存的情况更加普遍,传统的数据分析技术将会和新技术结合,数据管理与存储、数据分析与使用都将变得更加智能。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国