在巨量资料的世界里,有意义的事件原委始于正确的连结关系

随处均是巨量数据

举目尽是巨量资料:从相连的机器网络中不断流出的数据、在数据仓储里的、在旧有应用程序里的,以及在大型主机、网络上的…。因此从巨量资料取得有价值数据的第一项难题,即为将数据投入数据库内,并且在不影响现有运作的情况下加以利用。


EXALEAD CloudView 以先进的网络爬虫与可开发的 WWW 索引技术,以及与企业内外部非结构性及结构性巨量资料源相连接的强大的端口套装模块,来达成此项挑战。
第二项挑战为以自动化、工业化的方式整合多重数据源,将不同种类的原始数据转变成可引导行动的智慧情报。为此,EXALEAD CloudView 采用强大的语义分析处理流程技术,将非结构性数据建立有意义的结构并丰富其内容,更进而使其与结构性数据产生互相关联性。

 

• 下载我们的巨量资料实用指南

 

资料搜集

网络内容

EXALEAD 在充满大量杂乱数据的网络环境里,提出 HTTP 爬虫技术这项拥有出色表现、强大又聪明的工具,让使用单位能够从因特网中取得优质内容,包括从安全及开放来源(关于存取规则及权限),取得结构化及非结构化数据。

优点

  • 保证以非干扰式、安全又自动化的数据搜集作业

  • 提供完全统一化的数据观点

  • 确保在巨量资料的范畴内,拥有出色表现

EXALEAD CloudView 的客户也能便捷地透过全球第三大的 EXALEAD 公共 WWW 搜索引擎索引优质内容,丰富其数据库和应用程序。
特定的社群媒体端口更进一步延伸 EXALEAD CloudView 的网络内容搜集能力,使其能轻松地从 Facebook、LinkedIn 及 Twitter 等来源撷取相关资料。

  • 企业内容

  • CloudView 端口套装模块适用于企业数据源的延伸范围,包括文件服务器、XML 系统、数据库、电子邮件系统、目录、内容管理及协同操作系统,以及 ENOVIA 平台。

    EXALEAD 与 Informatica 的 OEM 协议更加延伸这项链接数据的能力:以先进的技术支持众多巨量资料源,包括企业应用程序、数据仓储、商业智能平台、大型主机、NoSQL 仓储(例如 Hadoop HDFS),以及即时消息队列数据等等。

  • 客制化与旧有系统

    开放暨全文件化的应用程序编程接口(Application Programming Interface,API)完备了 EXALEAD CloudView 端口套装模块的链接能力,使其能淘汰或客制化以标准网络协议和语言(HTTP/Rest、Java、C# 等)开发的旧有或自定义(客制化)的数据库。

如需更多关于 EXALEAD CloudView 的资料撷取能力,请下载 EXALEAD 端口和格式数据表

 

数据集成

虽然搜寻、发掘及分析个别巨量资料搜集内容,能够获得更多有价值的数据,不过以有意义的方式交叉参考多元数据仓储,才是最有可能获得突破性见解及创新内容的方法。
具备「Map(映像)」和「Reduce(化简)」处理架构及高性能语义处理流程技术的 EXALEAD CloudView,适用于集合多种不同的巨量资料源。使用它发掘由以下项目组成之数据内隐藏的意义与关系:

  • 文件、电子邮件、通话纪录及视讯等非结构化的内容

  • XML 纪录,以及由智能电表、RFID 读取器、条形码扫瞄器、网路日志和 GPS 轨迹装置产生的机器数据等半结构化数据

  • 事务数据库与数据仓储内,高度结构化的关联性数据

如需更多关于 EXALEAD CloudView 的语义处理管线数据,请下载 EXALEAD CloudView 语义技术白皮书