程序包 | 说明 |
---|---|
org.apdplat.word | |
org.apdplat.word.corpus | |
org.apdplat.word.recognition | |
org.apdplat.word.segmentation | |
org.apdplat.word.segmentation.impl |
限定符和类型 | 方法和说明 |
---|---|
static List<Word> |
WordSegmenter.filterStopWords(List<Word> words)
移除停用词
|
static List<Word> |
WordSegmenter.seg(String text)
对文本进行分词,移除停用词
使用双向最大匹配算法
|
static List<Word> |
WordSegmenter.seg(String text,
SegmentationAlgorithm segmentationAlgorithm)
对文本进行分词,移除停用词
可指定其他分词算法
|
static List<Word> |
WordSegmenter.segWithStopWords(String text)
对文本进行分词,保留停用词
使用双向最大匹配算法
|
static List<Word> |
WordSegmenter.segWithStopWords(String text,
SegmentationAlgorithm segmentationAlgorithm)
对文本进行分词,保留停用词
可指定其他分词算法
|
限定符和类型 | 方法和说明 |
---|---|
static List<Word> |
WordSegmenter.filterStopWords(List<Word> words)
移除停用词
|
限定符和类型 | 方法和说明 |
---|---|
static Map<List<Word>,Float> |
Bigram.bigram(List<Word>... sentences)
含有语境的二元模型分值算法
计算多种分词结果的分值
利用获得的二元模型分值重新计算分词结果的分值
补偿细粒度切分获得分值而粗粒度切分未获得分值的情况
|
static Map<List<Word>,Float> |
Trigram.trigram(List<Word>... sentences)
一次性计算多种分词结果的三元模型分值
|
限定符和类型 | 方法和说明 |
---|---|
static float |
Bigram.bigram(List<Word> words)
计算分词结果的二元模型分值
|
static float |
Trigram.trigram(List<Word> words)
计算分词结果的三元模型分值
|
限定符和类型 | 方法和说明 |
---|---|
static List<Word> |
PersonName.recognize(List<Word> words)
对分词结果进行处理,识别人名
|
限定符和类型 | 方法和说明 |
---|---|
static List<Word> |
PersonName.recognize(List<Word> words)
对分词结果进行处理,识别人名
|
限定符和类型 | 方法和说明 |
---|---|
List<Word> |
Segmentation.seg(String text) |
限定符和类型 | 方法和说明 |
---|---|
protected Word |
AbstractSegmentation.getWord(String text,
int start,
int len)
获取一个已经识别的词
|
限定符和类型 | 方法和说明 |
---|---|
Map<List<Word>,Float> |
AbstractSegmentation.ngram(List<Word>... sentences)
利用ngram进行评分
|
List<Word> |
AbstractSegmentation.seg(String text)
默认分词算法实现:
1、把要分词的文本根据标点符号进行分割
2、对分割后的文本进行分词
3、组合分词结果
|
List<Word> |
ReverseMinimumMatching.segImpl(String text) |
List<Word> |
ReverseMaximumMatching.segImpl(String text) |
List<Word> |
MinimumMatching.segImpl(String text) |
List<Word> |
MaximumMatching.segImpl(String text) |
List<Word> |
BidirectionalMinimumMatching.segImpl(String text) |
List<Word> |
BidirectionalMaximumMinimumMatching.segImpl(String text) |
List<Word> |
BidirectionalMaximumMatching.segImpl(String text) |
abstract List<Word> |
AbstractSegmentation.segImpl(String text) |
限定符和类型 | 方法和说明 |
---|---|
protected void |
AbstractSegmentation.addWord(List<Word> result,
String text,
int start,
int len)
将识别出的词放入队列
|
protected void |
AbstractSegmentation.addWord(Stack<Word> result,
String text,
int start,
int len)
将识别出的词入栈
|
Copyright © 2014 APDPlat. All rights reserved.