무신사 리뷰의 한 문장으로 mecab을 제외하고 모든 tag에 대해 품사 추출을 해보았다.
리뷰 분석에 있어서 신조어나 사전에 등록되어 있지 않은 단어도 하나의 품사로 취급되기를 원했다. 리뷰 문장을 참으로 많이 살펴봤지만 대부분 띄어쓰기가 나름 잘 되어있다.
그래서 조사 앞, 띄어쓰기 뒤에 있는 단어는 전부 하나로 취급해줬으면 했다. 위에 결과를 보면 kkma가 그나마 내 요구 조건을 잘 충족시켜 줬다. 하지만 속도는 저 짧은 문장에 대해서도 억 소리 나게 느렸다.
꼬꼬마(kkma)야. 속도 좀 어떻게 안 되겠니?
customized_konlpy 사용도 염두에 뒀다. 그런데 2018년 이후 customized_konlpy가 개발이 중단돼서 그런지 최신 okt보다 품사 태깅 능력이 많이 떨어진다.
okt 구버전 이름이 twitter였는데 customized_konlpy에서 twitter 클래스를 사용하는 것으로 구버전을 사용하나 보다.
'무겁다'도 제대로 추출하지 못하고 '무거'라는 이상한 단어를 만들어냈다.
기존에 문장 분리기로 kss를 사용하고 있었는데 kkma는 sentences를 제공해서 굳이 kss를 설치 안 해줘도 될 것 같다. 그런데 품사 태깅하는 속도를 보면 문장 분리 속도도 저만큼 느릴까 봐 사용하기가 조금 겁이 난다. 일단 kkma를 사용해서 배포 환경에서 테스트해봐야겠다.
'프로젝트 > 리뷰집' 카테고리의 다른 글
꼬꼬마(kkma)의 메모리 효율 문제 - konlpy 품사 태거에 대해 (0) | 2021.02.14 |
---|---|
rmsprop vs adam 나에게는 어떤 optimizer가 더 좋을까? (0) | 2021.02.13 |
tensorflow 사용하는 프로젝트 heroku에 배포 - tensorflow-cpu를 사용하자 (0) | 2021.02.10 |
error 발생: jpype 버전 주의하세요 (0) | 2021.02.10 |
하루종일 괴롭게 하는 한글 인코딩 그냥 FilePathField 쓰자 (0) | 2021.02.09 |