프로젝트/리뷰집

konlpy 형태소 분석(품사 태깅) 결과 비교

발전생 2021. 2. 12. 22:51

무신사 리뷰의 한 문장으로 mecab을 제외하고 모든 tag에 대해 품사 추출을 해보았다.

리뷰 분석에 있어서 신조어나 사전에 등록되어 있지 않은 단어도 하나의 품사로 취급되기를 원했다. 리뷰 문장을 참으로 많이 살펴봤지만 대부분 띄어쓰기가 나름 잘 되어있다.

그래서 조사 앞, 띄어쓰기 뒤에 있는 단어는 전부 하나로 취급해줬으면 했다. 위에 결과를 보면 kkma가 그나마 내 요구 조건을 잘 충족시켜 줬다. 하지만 속도는 저 짧은 문장에 대해서도 억 소리 나게 느렸다.

꼬꼬마(kkma)야. 속도 좀 어떻게 안 되겠니?

 

customized_konlpy 사용도 염두에 뒀다. 그런데 2018년 이후 customized_konlpy가 개발이 중단돼서 그런지 최신 okt보다 품사 태깅 능력이 많이 떨어진다.

okt 구버전 이름이 twitter였는데 customized_konlpy에서 twitter 클래스를 사용하는 것으로 구버전을 사용하나 보다. 

'무겁다'도 제대로 추출하지 못하고 '무거'라는 이상한 단어를 만들어냈다. 

 

 

기존에 문장 분리기로 kss를 사용하고 있었는데 kkma는 sentences를 제공해서 굳이 kss를 설치 안 해줘도 될 것 같다.  그런데 품사 태깅하는 속도를 보면 문장 분리 속도도 저만큼 느릴까 봐 사용하기가 조금 겁이 난다. 일단 kkma를 사용해서 배포 환경에서 테스트해봐야겠다.