본문 바로가기

데이터분석2

네이버 뉴스 본문 크롤링 - 2부: 본문 내용 크롤링 1부에 이어 이번에는 네이버뉴스 기사 본문 내용을 수집하겠습니다. https://datawithyong.tistory.com/6 네이버 뉴스 본문 크롤링 - 1부: 본문 링크 출력 데이터 분석 10년차로 얻은 많으 경험을 공유하고 싶습니다. 특히 요즘도 많이 사용되고 있는 크롤링 기술에 대해 쉽고 빠르게 적용할 수 있는 글이 많지 않아 작성보고자 합니다. 1부에서 사용 datawithyong.tistory.com 1부에서 수집한 각 링크로 다시 requests 요청 진행해서 기사 내용을 수집합니다. for article in articles: links = article.select('a.info') if len(links) == 2: url = links[1].attrs['href'] response_.. 2023. 8. 13.
네이버 뉴스 본문 크롤링 - 1부: 본문 링크 출력 데이터 분석 10년차로 얻은 많으 경험을 공유하고 싶습니다. 특히 요즘도 많이 사용되고 있는 크롤링 기술에 대해 쉽고 빠르게 적용할 수 있는 글이 많지 않아 작성보고자 합니다. 1부에서 사용되는 원칙 1가지는 다음과 같습니다. 크롤링 제1원칙: 같은 형태의 반복 수집 방식을 채택한다. ----------------------------- 진행 프로젝트: 네이버 뉴스의 본문 링크 가져오기! - 같은 형태의 예시를 쉽게 설명드리기 위해 '네이버뉴스'가 담긴 뉴스만 채택하여 진행하겠습니다. - 차이점: '네이버뉴스' 가 있는 경우: - div.info_group - a 태그 2개 '네이버뉴스'가 없는 경우: - div.info_group - a 태그 1개 왜 2개인지 분석해보니 하나는 뉴스를 제공하는 사이트(.. 2023. 8. 13.