Scholar支持中英文分词、词性标注、语法树、依赖树自然语言处理的功能,同时整合了文本分类、文本过滤、文档语义去重、情感分析、词扩展等NLP(Nature Language Process)应用功能模块。
文本分类通过训练算法实现对文档的自动分类。目前支持最大熵模型和朴素贝叶斯模型,并可通过接口扩展,使用决策树,神经网络,SVM等各类分类器。
文本过滤能够通过朴素贝叶斯,特殊词、特殊特征的识别算法,实现对垃圾、无用信息的自动过滤。
文档语义去重采用指纹哈希编码,能够快速实现对相似(非相同,指两篇文档的主要内容一致,但存在各别用词与标点符号的差别)文档的发现。
情感分析使用了目前最主流的CRF(Condition Random Field)模型及规则相结合的处理方式,实现对自然语言的情感色彩分析,包括褒义、贬义以及其它情感色彩。
词扩展功能实现了区域地名扩展、企业公司名扩展、产品名等等包含缩略语简称等词的扩展,为数据挖掘可以提供方便的知识扩展。