import java.io.*;
import java.net.URL;
public class HtmlToXML {
private String url;
private String outFileName;
private String errOutFileName;
public HtmlToXML(String url, String outFileName, String errOutFileName) {
this.url = url; //目标页面地址
this.outFileName = outFileName; //输出文件的地址和名称
this.errOutFileName = errOutFileName; //输出错误文件的地址和名称
}
public void convert() {
URL u;
BufferedInputStream in;
FileOutputStream out;
Tidy tidy = new Tidy();
tidy.setXmlOut(true);
tidy.setXmlPi(true); //添加 <?xml?> 标签 为输出的 XML 文件, 这些参数是可选的。
tidy.setXmlSpace(true);
tidy.setCharEncoding(Configuration.ISO2022); //这个很重要,如果没有它,就会出现中文乱码
/*
我看了一下源码,上面对charEncoding是这样规定的
/* character encodings */
public static final int RAW = 0;
public static final int ASCII = 1;
public static final int LATIN1 = 2;
public static final int UTF8 = 3;
public static final int ISO2022 = 4;
public static final int MACROMAN = 5;
*/
try {
//错误文件的输入地址和名称
tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));
u = new URL(url);
//建立输入和输出文件
in = new BufferedInputStream(u.openStream());
out = new FileOutputStream(outFileName);
//文件转换
tidy.parse(in, out);
//资源释放
in.close();
out.close();
} catch (IOException e) {
System.out.println(this.toString() + e.toString());
}
}
public static void main(String[] args) {
/*
* Parameters are:
* URL of HTML file
* Filename of output file
* Filename of error file
*/
HtmlToXML t = new HtmlToXML(“http://www.baidu.com”, “c:/jtidy.htm”, “c:/jtidyError.htm”);
t.convert();
}
}
大概看了一下 JTidy 的 API 文档,里面还是有许多内容的,这里的这个例子只是入门,对于真正的 JTidy 使用还有许多路走,有时间大家可以看一下 JTidy 的API文档
-------------------------------------
看了一下JTidy的api文档,现在网友的一些Tidy的方法明细列出来,供参考使用,漏掉的方法可以参考API文档。
public void setIndentContent(boolean IndentContent) 是否使用缩进
public void setSmartIndent(boolean SmartIndent) 节点结束后,是否另起一行
public void setQuoteMarks(boolean QuoteMarks) 用 "替换 "
public void setQuoteNbsp(boolean QuoteNbsp)
public Document parseDOM(java.io.InputStream in,java.io.OutputStream out) 转换为DOM对象
setAltText(java.lang.String altText)
加上默认的alt属性值
setBreakBeforeBR(boolean breakBeforeBR)
在换行
之前加一空行
setCharEncoding(int charencoding)
已废弃
setConfigurationFromFile(java.lang.String filename)
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Web前端开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:前端)
最后
资料过多,篇幅有限,需要文中全部资料可以点击这里免费获取前端面试资料PDF完整版!
自古成功在尝试。不尝试永远都不会成功。勇敢的尝试是成功的一半。
mg-x0jk7KOJ-1713561506492)]
[外链图片转存中…(img-ZmknMim4-1713561506493)]
资料过多,篇幅有限,需要文中全部资料可以点击这里免费获取前端面试资料PDF完整版!
自古成功在尝试。不尝试永远都不会成功。勇敢的尝试是成功的一半。