webcrawling
python의 request 모듈을 사용하여 http request/resopnse 확인하기
requests 모듈
- http request/response를 위한 모듈
- HTTP method를 메소드 명으로 사용하여 request 요청 예) get, post
1 | import requests |
HTTP header 데이터 이용하기
- header 데이터 구성하기
- header 데이터 전달하기
1 | url = 'https://news.v.daum.net/v/20190728165812603' |
HTTP response 처리하기
- response 객체의 이해
- status_code 확인하기
- text 속성 확인하기
1 | url = 'https://news.v.daum.net/v/20190728165812603' |
BeautifulSoup의 find와 find_all 함수
- find 함수
- 조건에 만족하는 하나의 tag만 검색
- 특정 html tag를 검색
- 검색 조건을 명시하여 찾고자하는 tag를 검색
1 | tag = soup.find('h3') |
find_all함수
- 조건에 맞는 모든 tag를 리스트로 반환합니다.
get_text 함수
- tag안의 value를 추출
- 부모tag의 경우, 모든 자식 tag의 value를 추출
attribute 값 추출하기
- 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
- 이 경우에는 검색한 tag에 attribute 이름을 [ ]연산을 통해 추출가능
- 예) div.find(‘h3’)[‘title’]
1 | tag = soup.find('h3') |
CSS의 select_one과 select 함수
- CSS를 이용하여 tag 찾기
- select, select_one함수 사용
- css selector 사용법
- 태그명 찾기 tag
- 자손 태그 찾기 - 자손 관계 (tag tag)
- 자식 태그 찾기 - 다이렉트 자식 관계 (tag > tag)
- 아이디 찾기 #id
- 클래스 찾기 .class
- 속성값 찾기 [name=’test’]
- 속성값 prefix 찾기 [name ^=’test’]
- 속성값 suffix 찾기 [name $=’test’]
- 속성값 substring 찾기 [name *=’test]
- n번째 자식 tag 찾기 :nth-child(n)