EXALEAD CloudView 的用途为辨识、撷取与处理企业内外及网络上的文字及多媒体信息。而我们的客户用来发掘巨量数据资料内含价值的特定类型,包括本文探勘、网络数据数据挖掘、多媒体分析及语义分析。

数据资料挖掘之特定类型

本文探勘

本文探勘或本文分析,是分析本文以辨识与撷取文字在嵌入及情境环境内具意义的数据和模式之处理流程。这些丰富的数据可用以搜寻更具关联性的结果、自动分类和集合数据以进行导览和筛选,以及支持质化和量化分析。还能将结构化和非结构化数据,整合为有意义的整体(例如整合 CRM 数据与社群媒体内容或网站活动日志)。


在提供本文分析解决方案的厂商中,EXALEAD ClouldView 是唯一能够以极少量的一般服务器,以先进

优点

  • 找出非结构化数据里隐藏的信息情报

  • 将具价值的本文加入到结构化数据里

处理技术做大范围的应用。同样地,在其广泛的语义处理流程的可模块化和可配置性方面,亦有独特地位。如需更多关于 EXALEAD CloudView 的语义处理流程数据,请下载EXALEAD CloudView语义技术白皮书。

 

网络数据数据挖掘

在网络数据数据挖掘方面,是按照特定爬网目标搜寻辨识、撷取和处理相关网络内容。举例来说,用户可能想要从在线供货商目录里撷取相关明细,以验证、丰富和延伸内部零件数据库;或者想要从在线分类广告来搜集不动产市场情报( 请参见 Akerys 个案研讨内容)。
为了从网络这个全球最大的巨量资料源撷取出最佳结果,EXALEAD CloudView 提供异于同业、产生高优质结果的网络爬虫商业生态系统,同时赋予您最佳的表现和最少的索引数量。

其提供以下项目:

  • 全面性的数据撷取服务

    系统能够撷取非结构化、半结构化及结构化的网络内容,包括由窗体输入及(或)数据库查询,而动态产生的深层网络(Deep Web)内容。

  • 质化筛选

    平台提供可设定的质化筛选功能,例如排除特定文件类型、将整个网站的内容视为单一网页进行处理,以避免挤掉其他相关来源(website collapsing,网站崩毁),以及对于重复和近乎重复的内容侦测及套用特定规则。

  • 极佳表现

    EXALEAD CloudView 亦经过独特设计,让您不会对造访的网站造成不必要的负担,或是违反数据持有和隐私政策。 在搜集好网络内容后,EXALEAD CloudView 会透过在前面本文探勘内所述之相同健全的语意处理流程加以运用。

 

多媒体分析

在由用户产生的内容里,多媒体内容是成长最快速的一个类别,每天有数百万个照片、声音文件、视讯档案上传到网络和企业服务器。若只依靠人工加上的标签或文件名等基本相关诠释数据存取和理解内容,那么是不可能在巨量资料这个庞大的范围内,探索并利用此类内容。 幸运的是,EXALEAD CloudView 无缝整合自动文字转语音及对象辨识处理(内容式影像撷取,Content-Based Image Retrieval,CBIR)等技术,使得客户能从内到外建构多媒体内容、让用户拥有全新重要存取大量多媒体搜集内容的能力,以及能够在医疗、媒体、出版、环境科学、鉴识和数字资产管理等领域,开发创新应用技术。

 

语义分析

CloudView 的语义分析架构运用语意技术,自动发掘、撷取和摘要说明无结构性内容里的情绪和看法。这项处理技术有时候会运用在防火墙后的内容,如电子邮件、通话纪录和客户/选民调查。然更常见的应用是,处理在网络上最广泛的有关人群、产品到企业的公开想法和议题信息来源。
对网络进行语义分析一般会从特定网络来源(产业网站、媒体、部落格、论坛、社群网站等)搜集数据、将这项内容与内部系统(服务、产品、人员、项目等)里的目标实体进行交叉参考,并且在 EXALEAD CloudView 索引中,撷取及摘要说明此交叉参考内容中的语意。
在建立此语意数据知识库后,可透过全文检索、多层面浏览、量化仪表板与自由畅通的探索分析来加以运用。请参见「任一使用者分析」(Any-User Analytics)页面里的语义分析单元