类 | 说明 |
---|---|
Bigram |
二元语法模型
|
CorpusMerge |
将多个语料库文件合并为一个
|
CorpusTools |
语料库工具
用于构建二元模型和三元模型并做进一步的分析处理
同时把语料库中的新词加入词典
|
Evaluation |
利用人工标注的语料库
对分词算法效果进行评估
评估采用的测试文本有253 3709行,共2837 4490个字符
评估结果位于target/evaluation目录下:
corpus-text.txt为分好词的人工标注文本,词之间以空格分隔
test-text.txt为测试文本,是把corpus-text.txt以标点符号分隔为多行的结果
standard-text.txt为测试文本对应的人工标注文本,作为分词是否正确的标准
result-text-***,***为各种分词算法名称,这是word分词结果
perfect-result-***,***为各种分词算法名称,这是分词结果和人工标注标准完全一致的文本
wrong-result-***,***为各种分词算法名称,这是分词结果和人工标注标准不一致的文本
|
EvaluationResult |
中文分词效果评估结果
|
ExtractText |
从语料库中抽取文本
|
GramTrie |
ngram数据结构,高效存储,快速搜索
使用前缀树来实现
为前缀树的一级节点建立索引(比二分查找要快)
|
Trigram |
三元语法模型
|
Copyright © 2014–2015 APDPlat. All rights reserved.