html파서1 HTTPS 로그인 기반 웹수집 샘플 코드 웹 수집 소스 (1차) 기본 흐름은 아래와 같다. 1. HTTPS 로그인 2. 세션 유지 3. 페이지별 수집 URL의 Table 셀에서 데이터 수집 적용사항 *HTTPS페이지 접근시 인증관련하여 Handshake 예외상황을 처리하기 위한 우회방법 적용 *쿠키를 이용한 세션유지 *HTML 파서를 이용한 DOM 접근 방식의 데이터 파싱 WEBCrawler.java - 로그인 URL과 수집 URL을 지정 - 페이지로 구분된 URL접근시 최대 페이지 적용 - Output은 구분자(|) 로 구분된 TEXT파일 ( 파일당 최대 10,000라인 ) package webcralwer; import java.net.HttpURLConnection; import java.net.URL; import java.net.URL.. 2012. 8. 1. 이전 1 다음