컴퓨팅 기술/크롤링 & 스크래핑

개요 웹 서비스를 한다면 크롤링을 알 수밖에 없을 것입니다. 자체적으로 API를 통해 공개하는 데이터 이외에도 아무 데이터나 긁어가 버리니 귀찮은 존재죠. Captch나 자체적으로 로그를 쌓아서 이를 체크해서 막는 방법 등 각자의 노하우로 여러 가지가 있을 겁니다. 물론 막는 법을 잘 아는 게 중요하지만 공격 쪽 입장에서의 생각도 알면 더 좋겠다는 생각으로 정리해 봤습니다. 번외로 요즘은 합법적으로 토렌트처럼 분산 요청을 통해 Captch도 뚫어버리는 서비스도 있는데 참 신기합니다 1. User Agent 가장 쉽고 편하게 해 볼 수 있는 방법입니다. Python + Selenium 기준으로 아래처럼 헤더라 User Agent를 추가하면 됩니다. headers = { "Accept": "text/html..
DSeung
'컴퓨팅 기술/크롤링 & 스크래핑' 카테고리의 글 목록