[Incremental Project] 웹 URL로 지정된 웹페이지를 문자열로 가져와 1) 모든 HTML 태그를 제외한 순수 텍스트 문자열만을 걸러내고, 2) 그 순수 텍스트 문자열 안에 존재하는 단어가 총 몇개인지 출력하는 프로그램을 작성하시오.
HTML 태그는 다음 조건을 가지는 것이다.
<label for="keep_signed">로그인 유지</label>
로그인 유지
<link rel="stylesheet" href="/common/css/xe.min.css?20150910092654" />
단어를 나누는 기준은 오로지 공백문자 (whitespace)이다.
다음은 URL로 지정된 웹페이지를 특정 문자열로 가져오는 코드이다.
import urllib2
source = urllib2.urlopen("http://cse.kut.ac.kr/").read()
print source # 추후 숙제 답안 제출 때엔 왼쪽 라인은 주석처리할 것