본문 바로가기
728x90

웹 크롤링2

네이버 블로그 크롤링 하는 법 - 파이썬 웹 크롤링 - 스크롤이 계속 내려가는 사이트 크롤링 하는 법 일반적인 사이트는 1페이지, 2페이지 이렇게 나뉘어 있는 경우가 많다. 하지만 어떤 사이트들은 페이지 구분 없이 스크롤을 내리면 내릴수록 계속해서 정보가 나오는 사이트들도 있다. 이런 사 breakmatrix.tistory.com 저번 포스팅에 이어서 블로그 주소를 가져왔다고 치고 다음 단계로 넘어가려 한다. 그랬더니 정보가 오기는 하는데 html 값으로 되어있어서 전혀 읽을 수가 없다. 우선 가장 먼저 해야 할 일은 여기에 담겨있는 백 슬래시를 지워야 한다. html 값이 넘어오면서 백 슬래시가 있는 경우가 있는데 파이썬이 읽는데 방해가 되기 때문에 가장 먼저 지우도록 하자. 지우는 함수는 replace() 이므로 soup = BeautifulSoup(da.. 2022. 5. 25.
스크롤이 계속 내려가는 사이트 크롤링 하는 법 일반적인 사이트는 1페이지, 2페이지 이렇게 나뉘어 있는 경우가 많다. 하지만 어떤 사이트들은 페이지 구분 없이 스크롤을 내리면 내릴수록 계속해서 정보가 나오는 사이트들도 있다. 이런 사이트에서 일반적으로 크롤링을 시도할 경우, 처음에 나오는 정보들만 가져오고 스크롤을 내렸을 때의 정보를 가져오지 못할 것이다. 그렇다면 어떻게 해야할까. 네트워크 탭을 보면 뭐가 엄청나게 많이 나오는 것을 확인할 수 있는데 페이지를 내리면 내릴수록 업데이트가 된다. 네트워크 탭은 이 페이지를 보여주기 위해 서버에서 받아온 파일들을 보여주는 곳이다. 네트워크 탭을 켠 상태에서 스크롤을 쭉 내리다 보면 정확하게 페이지가 업데이트되는 시점에서 네트워크 탭도 같이 바뀌는 것을 확인할 수 있다. 그리고 또 내리면 또 바뀐다. 이걸.. 2022. 5. 25.
반응형