나무위키에 있는 데이터를 수집하고 싶었다. 언어 인공지능을 공부하기 위해서였다.
그러나 크롤링으로는 쉽지 않았다.
첫째, requests를 사용하면 403 에러를 반환받는다.
둘째, selenium을 사용하고
undetected_chromedriver
를 사용해도 30건 이상 크롤링하면서 봇으로 인식하기 시작했다.
그러니 나무위키를 크롤링하지 마세요. 시간이 아깝습니다.
나무위키에는 덤프 기능이 제공됩니다!!!
간단하게는 huggingface에 올려주신 나무위키 데이터를 다운로드 받을 수 있다
https://huggingface.co/datasets/heegyu/namuwiki
heegyu/namuwiki · Datasets at Hugging Face
...
huggingface.co
직접 받으려면 여기를 참고하자
나무위키:데이터베이스 덤프 - 나무위키
이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권
namu.wiki