2020-04-21crawling / concept2 minutes read (About 303 words) 0 visits

webcrawling

※ 출처 : fast campus 머신러닝 인강(변영효 강사님)

일부 내용만 발췌하였고, 기본적인 개념 및 추가내용을 확인하시려면 인강 수강을 권장드립니다.
내용요약
1. 웹사이트에서 원하는 정보의 태그를 파악
1. 모듈을 통해 태그를 찾은 후 원하는 값을 가져옴

2. HTML(Hyper Text Markup Language)

웹 사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있고, 태그를 사용하는 언어
태그 : HTML 문서의 기본 블락
브라우저에 어떻게 렌더링(화면에 표시)될지 전달
<태그명 속성1=”속성값1” 속성2=”속성값2”>Value</태그명>
<태그명 속성1=”속성값1” 속성2=”속성값2”/>
p 태그 : paragraph tag

한 문단으로 표시해주는 태그
div 태그

그룹핑을 하는 태그
대부분의 crawling은 태그 안에 있는 값을 추출하는 작업입니다.
html 기본구조

BeautifulSoup test

Contents Title

Test contents

Test Test Test 1

Test Test Test 2

Test Test Test 3

웹 사이트에서 본인에게 필요한 정보를 가져오는 실습을 해보는걸 추천드립니다.

#web webcrawling html get post randering http

You need to set install_url to use ShareThis. Please set it in _config.yml.

Comments