본문 바로가기

데이터분석4

네이버 뉴스 본문 크롤링 - 3부: 본문 내용 크롤링 고도화 2부에서 뉴스 카테고리에 따라 형태가 다를 수 있음을 확인했습니다. (일반, 연예, 스포츠) https://datawithyong.tistory.com/7 네이버 뉴스 본문 크롤링 - 2부: 본문 내용 크롤링 1부에 이어 이번에는 네이버뉴스 기사 본문 내용을 수집하겠습니다. https://datawithyong.tistory.com/6 네이버 뉴스 본문 크롤링 - 1부: 본문 링크 출력 데이터 분석 10년차로 얻은 많으 경험을 공유하고 datawithyong.tistory.com 실제로 그대로 적용했을 때 오류가 발생됩니다. (NoneType error) url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EB%89%B4%E.. 2023. 8. 13.
네이버 뉴스 본문 크롤링 - 2부: 본문 내용 크롤링 1부에 이어 이번에는 네이버뉴스 기사 본문 내용을 수집하겠습니다. https://datawithyong.tistory.com/6 네이버 뉴스 본문 크롤링 - 1부: 본문 링크 출력 데이터 분석 10년차로 얻은 많으 경험을 공유하고 싶습니다. 특히 요즘도 많이 사용되고 있는 크롤링 기술에 대해 쉽고 빠르게 적용할 수 있는 글이 많지 않아 작성보고자 합니다. 1부에서 사용 datawithyong.tistory.com 1부에서 수집한 각 링크로 다시 requests 요청 진행해서 기사 내용을 수집합니다. for article in articles: links = article.select('a.info') if len(links) == 2: url = links[1].attrs['href'] response_.. 2023. 8. 13.
네이버 뉴스 본문 크롤링 - 1부: 본문 링크 출력 데이터 분석 10년차로 얻은 많으 경험을 공유하고 싶습니다. 특히 요즘도 많이 사용되고 있는 크롤링 기술에 대해 쉽고 빠르게 적용할 수 있는 글이 많지 않아 작성보고자 합니다. 1부에서 사용되는 원칙 1가지는 다음과 같습니다. 크롤링 제1원칙: 같은 형태의 반복 수집 방식을 채택한다. ----------------------------- 진행 프로젝트: 네이버 뉴스의 본문 링크 가져오기! - 같은 형태의 예시를 쉽게 설명드리기 위해 '네이버뉴스'가 담긴 뉴스만 채택하여 진행하겠습니다. - 차이점: '네이버뉴스' 가 있는 경우: - div.info_group - a 태그 2개 '네이버뉴스'가 없는 경우: - div.info_group - a 태그 1개 왜 2개인지 분석해보니 하나는 뉴스를 제공하는 사이트(.. 2023. 8. 13.
KB 국민은행 제5회 Future Finance A.I. Challenge 안녕하세요!! KB 국민은행에서 주최하는 AI 공모전!!! 현직자들의 주요 이슈들을 해결해 보세요! 공모전 개요 KB 국민은행가 주최한 제5회 Future Finance A.I. Challenge는 참여자들의 아이디어와 노력을 겨루는 공모전입니다. 목적, 주제(pick 리스트) 정보를 바탕으로 참가들 여러분의 자신만의 독특한 아이디어를 AI 및 머신러닝/딥러닝 방법으로 뽐내보세요! [참가 방법 및 자격]: http://kbdatory.com/process [공지사항]: http://kbdatory.com/notice/view The Challenges to Future Finance kbdatory.com 실제로 수상자 89%가 입사한 것으로 알고 있어요!! (데이터는 주어지지 않는다고 합니다) ----.. 2023. 8. 12.