webcrawling
※ 출처 : fast campus 머신러닝 인강(변영효 강사님)
일부 내용만 발췌하였고, 기본적인 개념 및 추가내용을 확인하시려면 인강 수강을 권장드립니다.
내용요약
- 웹사이트에서 원하는 정보의 태그를 파악
- 모듈을 통해 태그를 찾은 후 원하는 값을 가져옴
2. HTML(Hyper Text Markup Language)
웹 사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있고, 태그를 사용하는 언어
태그 : HTML 문서의 기본 블락
브라우저에 어떻게 렌더링(화면에 표시)될지 전달
<태그명 속성1=”속성값1” 속성2=”속성값2”>Value</태그명>
<태그명 속성1=”속성값1” 속성2=”속성값2”/>
p 태그 : paragraph tag
한 문단으로 표시해주는 태그
div 태그
그룹핑을 하는 태그대부분의 crawling은 태그 안에 있는 값을 추출하는 작업입니다.
html 기본구조
Contents Title
Test contents
Test Test Test 1
Test Test Test 2
Test Test Test 3