Our Blog

0

HTML 반환 코드는 특정 상황이 발생한 경우 웹 서버가 반환하는 표준화된 코드입니다. 예를 들어 반환 코드 “200”은 HTML 요청이 정상임을 의미하며 서버는 웹 페이지 제공과 같은 요구 작업을 수행합니다. 자바 튜토리얼의 웹 페이지 읽기에서 나는 URL, JSoup, HtmlCleaner, 아파치 Http클라이언트, 부두 HttpClient 및 HtmlUnit을 사용하여 자바에서 프로그래밍 방식으로 웹 페이지를 다우로딩의 여섯 예를 작성했습니다. 다음은 웹 페이지를 읽고 다운로드하는 또 다른 예입니다. HtmlUnit은 웹 기반 응용 프로그램을 테스트하기 위한 Java 단위 테스트 프레임워크입니다. Java에서 웹 페이지를 읽는 것은 Java에서 웹 페이지를 읽는 여러 가지 방법을 제시하는 자습서입니다. 그것은 작은 웹 페이지에서 HTTP 소스를 다운로드의 여섯 예가 포함되어 있습니다. 이 문서에서는 URL, JSoup, HtmlCleaner, 아파치 HttpClient, 제티 HttpClient 및 HtmlUnit을 포함한 다양한 도구를 사용하여 Java의 웹 페이지를 스크랩했습니다. 다음은 Java의 URL 클래스를 사용하여 테스트된 코드입니다. 그러나 예외를 처리하거나 호출 스택을 전달하는 것보다 더 나은 작업을 수행하는 것이 좋습니다. Java에는 웹 페이지를 읽고 다운로드할 수 있는 기본 제공 도구와 타사 라이브러리가 있습니다.

예제에서는 URL, JSoup, HtmlCleaner, 아파치 HttpClient, 부두 HttpClient 및 HtmlUnit을 사용합니다. Java는 HTTP 또는 HTTPS 프로토콜을 통해 리소스에 액세스하는 HTTP 클라이언트 API를 제공합니다. 인터넷에 액세스하는 주요 클래스는 java.net.URL 클래스와 java.net.HttpURLConnection 클래스입니다. HttpURLConnection의 자바 독은 HttpURLConnection의 인스턴스를 재사용하지 않는 것이 좋습니다. 이 방법을 사용하면 HttpURLConnection에는 다른 스레드 간에 공유되지 않기 때문에 스레딩 문제가 없습니다. API는 비교적 간단합니다. 예를 들어 웹 페이지를 검색하려면 다음 예제를 사용할 수 www.vogella.com. de.vogella.web.html이라는 Java 프로젝트를 만듭니다. 다음 코드는 URL에서 HTML 페이지를 읽고 콘솔에 결과를 작성합니다. 우리는 자바에서 URL을 사용하여 웹 페이지를 다운로드 할 수 있습니다. 다음은 필요한 단계입니다.

여러 웹 사이트는 Http를 통해 서비스를 제공합니다. 예를 들어 get 요청을 “http://tinyurl” 또는 http://tr.im”으로 보내고 매개 변수로 전달하는 URL의 짧은 버전을 받을 수 있습니다. 다음은 Java를 통해 “http://TinyUrl” 또는 “http://tr.im”에서 get 서비스를 호출하는 방법을 보여 줍니다. Java 프로젝트 “de.vogella.web.get”을 만들고 getService를 호출하고 결과를 반환하는 다음 클래스를 만듭니다. HtmlCleaner는 자바로 작성된 오픈 소스 HTML 파서입니다. 다음 예제에서는 인터넷의 웹 페이지 URL() 생성자 읽기 및 다운로드 방법을 보여 주며 있습니다. URL 클래스입니다. SimpleHtmlSerializer는 들여쓰기 및/또는 압축 없이 결과 HTML을 만듭니다. openStream() 메서드는 지정된 URL에 대한 연결을 열고 해당 연결에서 읽기 위해 InputStream을 반환합니다.