public class WordFrequencyStatistics extends Object
Constructor and Description |
---|
WordFrequencyStatistics()
默认构造函数
不指定算法则默认使用:最大Ngram分值算法
不指定词频统计结果保存路径默认使用当前路径下的:WordFrequencyStatistics-Result.txt
|
WordFrequencyStatistics(String resultPath)
构造函数
不指定算法则默认使用:最大Ngram分值算法
|
WordFrequencyStatistics(String resultPath,
SegmentationAlgorithm segmentationAlgorithm)
构造函数
|
WordFrequencyStatistics(String resultPath,
String segmentationAlgorithm)
构造函数
|
Modifier and Type | Method and Description |
---|---|
void |
dump()
将词频统计结果保存到文件
|
void |
dump(String resultPath)
将词频统计结果保存到文件
|
String |
getResultPath()
获取词频统计结果保存路径
|
SegmentationAlgorithm |
getSegmentationAlgorithm()
获取分词算法
|
boolean |
isRemoveStopWord()
是否移除停用词
|
static void |
main(String[] args) |
void |
merge(String mergeResultPath,
String... resultPaths)
将多个词频统计结果文件进行合并
|
void |
reset()
清除之前的统计结果
|
void |
seg(File input,
File output)
对文件进行分词
|
void |
seg(String text)
对文本进行分词
|
void |
setRemoveStopWord(boolean removeStopWord)
设置是否移除停用词
|
void |
setResultPath(String resultPath)
设置词频统计结果保存路径
|
void |
setSegmentationAlgorithm(SegmentationAlgorithm segmentationAlgorithm)
设置分词算法
|
public WordFrequencyStatistics()
public WordFrequencyStatistics(String resultPath)
resultPath
- 词频统计结果保存路径public WordFrequencyStatistics(String resultPath, SegmentationAlgorithm segmentationAlgorithm)
resultPath
- 词频统计结果保存路径segmentationAlgorithm
- 分词算法public void setRemoveStopWord(boolean removeStopWord)
removeStopWord
- 是否移除停用词public boolean isRemoveStopWord()
public String getResultPath()
public void setResultPath(String resultPath)
resultPath
- 词频统计结果保存路径public SegmentationAlgorithm getSegmentationAlgorithm()
public void setSegmentationAlgorithm(SegmentationAlgorithm segmentationAlgorithm)
segmentationAlgorithm
- 分词算法public void seg(String text)
text
- 文本public void seg(File input, File output) throws Exception
input
- 待分词的文本文件output
- 分词结果保存的文本文件Exception
public void dump(String resultPath)
resultPath
- 词频统计结果保存路径public void dump()
public void merge(String mergeResultPath, String... resultPaths)
mergeResultPath
- 合并结果文件路径resultPaths
- 多个词频统计结果文件路径public void reset()
Copyright © 2014–2015 APDPlat. All rights reserved.