首页 前端知识 Ttidy Html转Xml(1)

Ttidy Html转Xml(1)

2024-10-13 19:10:14 前端知识 前端哥 251 133 我要收藏

import java.io.*;

import java.net.URL;

public class HtmlToXML {

private String url;

private String outFileName;

private String errOutFileName;

public HtmlToXML(String url, String outFileName, String errOutFileName) {

this.url = url; //目标页面地址

this.outFileName = outFileName; //输出文件的地址和名称

this.errOutFileName = errOutFileName; //输出错误文件的地址和名称

}

public void convert() {

URL u;

BufferedInputStream in;

FileOutputStream out;

Tidy tidy = new Tidy();

tidy.setXmlOut(true);

tidy.setXmlPi(true);   //添加 <?xml?> 标签 为输出的 XML 文件, 这些参数是可选的。

tidy.setXmlSpace(true);

tidy.setCharEncoding(Configuration.ISO2022); //这个很重要,如果没有它,就会出现中文乱码

/*

我看了一下源码,上面对charEncoding是这样规定的

/* character encodings */

public static final int RAW         = 0;

public static final int ASCII       = 1;

public static final int LATIN1      = 2;

public static final int UTF8        = 3;

public static final int ISO2022     = 4;

public static final int MACROMAN    = 5;

*/

try {

//错误文件的输入地址和名称

tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));

u = new URL(url);

//建立输入和输出文件

in = new BufferedInputStream(u.openStream());

out = new FileOutputStream(outFileName);

//文件转换

tidy.parse(in, out);

//资源释放

in.close();

out.close();

} catch (IOException e) {

System.out.println(this.toString() + e.toString());

}

}

public static void main(String[] args) {

/*

* Parameters are:

* URL of HTML file

* Filename of output file

* Filename of error file

*/

HtmlToXML t = new HtmlToXML(“http://www.baidu.com”, “c:/jtidy.htm”, “c:/jtidyError.htm”);

t.convert();

}

}

大概看了一下 JTidy 的 API 文档,里面还是有许多内容的,这里的这个例子只是入门,对于真正的 JTidy 使用还有许多路走,有时间大家可以看一下 JTidy 的API文档

-------------------------------------

看了一下JTidy的api文档,现在网友的一些Tidy的方法明细列出来,供参考使用,漏掉的方法可以参考API文档。

public void setIndentContent(boolean IndentContent)  是否使用缩进

public void setSmartIndent(boolean SmartIndent)  节点结束后,是否另起一行

public void setQuoteMarks(boolean QuoteMarks)  用 "替换 "

public void setQuoteNbsp(boolean QuoteNbsp)

public Document parseDOM(java.io.InputStream in,java.io.OutputStream out)  转换为DOM对象

setAltText(java.lang.String altText)

加上默认的alt属性值

setBreakBeforeBR(boolean breakBeforeBR)

在换行
之前加一空行

setCharEncoding(int charencoding)

已废弃

setConfigurationFromFile(java.lang.String filename)

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Web前端开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:前端)

最后

资料过多,篇幅有限,需要文中全部资料可以点击这里免费获取前端面试资料PDF完整版!

自古成功在尝试。不尝试永远都不会成功。勇敢的尝试是成功的一半。

mg-x0jk7KOJ-1713561506492)]

[外链图片转存中…(img-ZmknMim4-1713561506493)]

资料过多,篇幅有限,需要文中全部资料可以点击这里免费获取前端面试资料PDF完整版!

自古成功在尝试。不尝试永远都不会成功。勇敢的尝试是成功的一半。

转载请注明出处或者链接地址:https://www.qianduange.cn//article/18935.html
标签
xml
评论
发布的文章
大家推荐的文章
会员中心 联系我 留言建议 回顶部
复制成功!