语义分析与数据挖掘产品模块(Scholar)

Scholar支持中英文分词、词性标注、语法树、依赖树自然语言处理的功能,同时整合了文本分类、文本过滤、文档语义去重、情感分析、词扩展等NLP(Nature Language Process)应用功能模块。

文本分类通过训练算法实现对文档的自动分类。目前支持最大熵模型和朴素贝叶斯模型,并可通过接口扩展,使用决策树,神经网络,SVM等各类分类器。

文本过滤能够通过朴素贝叶斯,特殊词、特殊特征的识别算法,实现对垃圾、无用信息的自动过滤。

文档语义去重采用指纹哈希编码,能够快速实现对相似(非相同,指两篇文档的主要内容一致,但存在各别用词与标点符号的差别)文档的发现。

情感分析使用了目前最主流的CRF(Condition Random Field)模型及规则相结合的处理方式,实现对自然语言的情感色彩分析,包括褒义、贬义以及其它情感色彩。

词扩展功能实现了区域地名扩展、企业公司名扩展、产品名等等包含缩略语简称等词的扩展,为数据挖掘可以提供方便的知识扩展。

联系埃帕
上海埃帕信息科技有限公司
021-33848989
021-33848989 转 818
contact@ape-tech.com
上海市浦东新区东方路2981号东方金融园4C

地址:上海市浦东新区东方路2981号东方金融园4C

版权所有 © 2010 上海埃帕信息科技有限公司

TEL:021-33848989 FAX:021-33848989 转 818

E-mail:contact@ape-tech.com http://www.ape-tech.com