上海埃帕信息科技有限公司

Scholar支持中英文分词、词性标注、语法树、依赖树自然语言处理的功能，同时整合了文本分类、文本过滤、文档语义去重、情感分析、词扩展等NLP（Nature Language Process）应用功能模块。

文本分类通过训练算法实现对文档的自动分类。目前支持最大熵模型和朴素贝叶斯模型，并可通过接口扩展，使用决策树，神经网络，SVM等各类分类器。

文本过滤能够通过朴素贝叶斯，特殊词、特殊特征的识别算法，实现对垃圾、无用信息的自动过滤。

文档语义去重采用指纹哈希编码，能够快速实现对相似（非相同，指两篇文档的主要内容一致，但存在各别用词与标点符号的差别）文档的发现。

情感分析使用了目前最主流的CRF（Condition Random Field）模型及规则相结合的处理方式，实现对自然语言的情感色彩分析，包括褒义、贬义以及其它情感色彩。

词扩展功能实现了区域地名扩展、企业公司名扩展、产品名等等包含缩略语简称等词的扩展，为数据挖掘可以提供方便的知识扩展。