먼저 html을 xml로 바꾸는 것은 오픈소스가 많아 보입니다.
사실 웹페이지를 가져와서 (Crawl) Parsing을 하는 것은 정규식으로도 가능합니다. 굳이 xml로 바꿀 필요가 있느냐 하면, 제가 볼 때는 없습니다. OKHttp 와 같은 것으로 Page Source를 String으로 가져와서,
원하는 부분을 IndexOf 같은 함수로 찾아서 데이터를 가져오면 됩니다.
Web Page Crawling의 문제점 하나는 웹페이지의 디자인이나 html 구조가 바뀌면 로직을 다시 만들어야 한다는 것입니다.
두번째 문제는 웹페이지가 Crawling을 허용하지 않는다고 하면, 가져가는 것은 불법입니다.
세번째, Crawling을 못하게 막는 다양한 방법이 있다는 것입니다. 예를들면, 페이지 소스를 가져오면 다른게 뜰 수도 있습니다. 2~3초 후에 서버에서 redirect하면 다른 방법으로 가져와야 합니다. 등등...
참고: html to xml 컨버터: (테스트는 해 보지 않았습니다. xml 컨버터는 필요없다고 생각합니다.)
https://www.example-code.com/android/htmlToXml_simple.asp