카테고리 없음

나무위키 크롤링하지 마세요

발전생 2022. 10. 23. 16:46

나무위키에 있는 데이터를 수집하고 싶었다. 언어 인공지능을 공부하기 위해서였다. 

그러나 크롤링으로는 쉽지 않았다.

 

첫째, requests를 사용하면 403 에러를 반환받는다.

둘째, selenium을 사용하고

undetected_chromedriver
 
를 사용해도 30건 이상 크롤링하면서 봇으로 인식하기 시작했다.
 
그러니 나무위키를 크롤링하지 마세요. 시간이 아깝습니다. 
 
 
 

나무위키에는 덤프 기능이 제공됩니다!!! 

 

간단하게는 huggingface에 올려주신 나무위키 데이터를 다운로드 받을 수 있다

https://huggingface.co/datasets/heegyu/namuwiki

 

heegyu/namuwiki · Datasets at Hugging Face

...

huggingface.co

 

직접 받으려면 여기를 참고하자

https://namu.wiki/w/%EB%82%98%EB%AC%B4%EC%9C%84%ED%82%A4:%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4%20%EB%8D%A4%ED%94%84

 

나무위키:데이터베이스 덤프 - 나무위키

이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권

namu.wiki