웹 수집 소스 (1차)
기본 흐름은 아래와 같다.
1. HTTPS 로그인
2. 세션 유지
3. 페이지별 수집 URL의 Table 셀에서 데이터 수집
적용사항
*HTTPS페이지 접근시 인증관련하여 Handshake 예외상황을 처리하기 위한 우회방법 적용
*쿠키를 이용한 세션유지
*HTML 파서를 이용한 DOM 접근 방식의 데이터 파싱
WEBCrawler.java
- 로그인 URL과 수집 URL을 지정
- 페이지로 구분된 URL접근시 최대 페이지 적용
- Output은 구분자(|) 로 구분된 TEXT파일 ( 파일당 최대 10,000라인 )
package webcralwer; import java.net.HttpURLConnection; /** |
WEBParser.java
package webcralwer; import java.io.IOException; /** |
HTML Parser Library
SSLTrustManager.java
/** public java.security.cert.X509Certificate[] getAcceptedIssuers() { public boolean isServerTrusted(java.security.cert.X509Certificate[] certs) { public boolean isClientTrusted(java.security.cert.X509Certificate[] certs) { public void checkServerTrusted(java.security.cert.X509Certificate[] certs, public void checkClientTrusted(java.security.cert.X509Certificate[] certs, |
SSLHostnameVerifier.java
package webcralwer; import javax.net.ssl.HostnameVerifier; /** |
OutputWriter.java
import java.io.BufferedWriter; /** |
'백엔드기술 > 개발언어' 카테고리의 다른 글
Log4j XML 설정 (0) | 2012.09.17 |
---|---|
JAVA 7 기능 (0) | 2012.04.20 |
JAXB - XML 스키마 자동으로 Class로 변환 (0) | 2011.12.23 |