java怎么去掉html标签

直接上结论吧:Jsoup最简单,正则表达式问题最多。

这就是 Jsoup 的作用。
一行代码完成文本提取。
自动处理杂乱的嵌套。
正则表达式?我上周刚处理了一份,花了三个小时才改完。
它还缺少 标签。
Tika 适用于具有混合内容的文档。
HTML 编辑器套件?早被淘汰了。
对于简单的场景使用 Jsoup。
对于复杂的内容,请尝试 Tika。

亲自看看哪一个适合您。

java html转换pdf

最靠谱的方案就是直接使用Jsoup+iText。

Jsoup 解析 HTML,iText 生成 PDF。
Jsoup.parse() 加载数据,XMLWorkerHelper 将其转换为 PDF。
需要UTF-8 编码,最后设置document.close()。
复杂的样式被内联编写,动态内容被转换为静态处理。

FlyingSaucer可以优化布局,PDFBox可以加密。

电子报告项目可以与该小组顺利合作。
当内存溢出时切换到流式传输。

自己掂量一下。