webcrawling

※ 출처 : fast campus 머신러닝 인강(변영효 강사님)

  • 일부 내용만 발췌하였고, 기본적인 개념 및 추가내용을 확인하시려면 인강 수강을 권장드립니다.

  • 내용요약

    1. 웹사이트에서 원하는 정보의 태그를 파악
    1. 모듈을 통해 태그를 찾은 후 원하는 값을 가져옴

2. HTML(Hyper Text Markup Language)

  • 웹 사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있고, 태그를 사용하는 언어

  • 태그 : HTML 문서의 기본 블락

  • 브라우저에 어떻게 렌더링(화면에 표시)될지 전달

  • <태그명 속성1=”속성값1” 속성2=”속성값2”>Value</태그명>

  • <태그명 속성1=”속성값1” 속성2=”속성값2”/>

  • p 태그 : paragraph tag

    한 문단으로 표시해주는 태그

  • div 태그

    그룹핑을 하는 태그
  • 대부분의 crawling은 태그 안에 있는 값을 추출하는 작업입니다.

  • html 기본구조

BeautifulSoup test

Contents Title

Test contents

Test Test Test 1

Test Test Test 2

Test Test Test 3

웹 사이트에서 본인에게 필요한 정보를 가져오는 실습을 해보는걸 추천드립니다.

You need to set install_url to use ShareThis. Please set it in _config.yml.

Comments