현재 jericho 파서로 값을 받아오고 있습니다.
source.fullSequentialParse(); 를 이용하여 처음부터 끝까지 태그들을 모두 파싱 한 후에
아래와 같이 세분화 작업을 합니다.
Element div = source.getAllElements(HTMLElementName.DIV).get(14);
Element table = div.getAllElements(HTMLElementName.TABLE).get(0);
이 과정에서 source 에 많은 양이 담겨 파싱자체가 많이 늦습니다.
(인터넷 익스플로러가 잠시 멈출정도의 html 소스.. 파싱만 몇번 했을 뿐인데 10메가에 달하는 양)
혹시 source를 담는 과정에서 특정 번째 TR이나 TD값부터 받아오게 하거나
원채 원하는부분만 효율적으로 파싱할 수 있는 방법이 있을까요?
기능구현에 신경쓰다보니 샘플들을 많이 참고하였습니다.