크롤링 공개가 문제가 될까 하는 걱정에 도메인은 닫아둔 상태입니다.
필요성
이 프로젝트를 만든 사람은 독해력이 약합니다. 기억력도 그다지 좋지 않습니다. 그리고 돈이 많지 않아 무엇이든 하나 살 때 리뷰를 꼼꼼하게 읽어봅니다. 읽다 보면 어느새 모든 리뷰를 읽고 있습니다. 하지만 너무 많은 리뷰를 한 번에 읽었기 때문에 시간은 많이 소비했지만 머릿속에 잘 기억이 남지를 않습니다. 그 제품이 그래서 어떤 특징을 가지고 있는지, 장점은 뭔지, 단점은 뭔지 요약할 수 있어야 하는데 그게 쉽지 않습니다. 그래서 리뷰에서 자주 등장하는 단어를 뽑아내서 해당하는 문장들만 읽고 싶었습니다. 자주 등장하는 단어는 곧 그 제품의 특징을 말해줍니다. 하지만 여기에서 그치지 않고 제품의 장점을 대표하는 단어, 단점을 대표하는 단어를 알고 싶었습니다.
사이트
기술 stack
- django, gunicorn을 통한 배포
- GRU를 사용해 자연어 처리 모델 학습 - 감성 분류에 사용
- django restframework, vue.js를 통해 키워드에 해당하는 문장 API로 받기
- bootstrap4를 사용해서 웹사이트 디자인
- celery, rabbitmq를 이용해서 비동기 큐 구현
- selenium을 사용해서 크롤링
개선점
- user dictionary 추가 -> 보다 개선된 명사 키워드 추출
- 감성 분류 모델의 성능 개선 필요
- 현재 무신사스토어만 크롤링 가능 -> 사이트 추가
- cache 사용 여부 고려
스크린샷
'프로젝트 > 리뷰집' 카테고리의 다른 글
PyKomoran 사용법 정리 (0) | 2021.02.15 |
---|---|
python 메모리와의 전쟁[종지부] - konlpy를 버리고 PyKomoran을 선택하다 (2) | 2021.02.15 |
OrderedDict의 배신 - not ordered (0) | 2021.02.15 |
python 메모리와의 전쟁 - pandas의 거대함, pickle의 압축력 (0) | 2021.02.15 |
꼬꼬마(kkma)의 메모리 효율 문제 - konlpy 품사 태거에 대해 (0) | 2021.02.14 |