Post

중국어 텍스트 분리: Tokenizing으로 검색 성능 향상시키기

중국어 tokenizing


중국 오픈을 하면서 중국쪽에서 검색이 잘 되지 않는다는 피드백이 들어왔다. 확인해보니 역시 한글처럼 형태소 단위로 띄어쓰기가 필요했다!

pom.xml 에 추가해주고

1
2
3
4
<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
</dependency>

tokenize 한다음 띄어쓰기로 한글 tokenize 때와 같이 이어주었다!

1
2
3
4
5
6
private String tokenizeChineseString(String wholeString) {
	List<Term> termList = HanLP.segment(wholeString);
    return termList.stream()
                .map(Term::word)
                .collect(Collectors.joining(" "));
}

다시 중국인 분들에게 검색이 잘 되냐고 여줘봤더니 잘 된다고 하셨다! 사실 중국어를 하나도 몰라서 잘되는지… 검증이 잘 안된다 중국인 분들과 더욱 연락을 자주해야겠다

This post is licensed under CC BY 4.0 by the author.

© 병욱. Some rights reserved.