当前位置:首页 > 编程开发

Java正则表达式匹配、替换HTML内容( 转 )

webgou17年前 (2009-10-10)编程开发257

[转:http://blog.csdn.net/xuanner/archive/2008/05/24/2477319.aspx]
(src:http://www.cnblogs.com/dragon/archive/2006/05/08/394078.html)
 曾经了解过JavaScript的正则表达式,知道其功能的强大,对于处理文本比用普通的API处理不管从效率上还是从功能上都有很大的优势。今天项目要求用到Java的正则表达式,于是在网上Google,找到一个Jakarta ORO的库,听说是Java中功能最强大的正则表达式库,确实也如此,Sun公司的JDK里自带的正则表达式功能是远远不如ORO库,从正则表达式的角度上看,其比普通的API处理文本是复杂很多,但如果应用得恰当的话,会提高工程的质量,于是项目中就应用了这个ORO库,把浏览器请求得到的HTML页面进行解释替换实现一个代理采集信息的功能。感觉自己好像是在开发软件,不是在设计网页。正则表达式有一个很好用的工具--RegexBuddy,应用这个工具可以调度一个匹配你需要的正则表达式串,经过几番调度,把一些HTML标签的正则表达式匹配出来,接下来......
    好了,废话少说,现在开始......

    第一:像网页链接<a .......... href="[url1]" .......>之间的内容中[URL[绝对地址替换成相对地址,首先要查找匹配这个链接,查找匹配这个串的正则表达式串为

(<\s*a\s+(?:[^\s>]\s*){0,})href\s*=\s*("|'|)([^\2\s>]*)\2((?:\s*[^\s>]){0,}\s*>)

    //查找匹配的代码如下:
    String  patternStrs="(<\\s*a\\s+(?:[^\\s>]\\s*){0,})href\\s*=\\s*(\"|'|)([^\\2\\s>]*)\\2((?:\\s*[^\\s>]){0,}\\s*>)";
    PatternCompiler complier = new Perl5Compiler();
    PatternMatcher matcher = new Perl5Matcher();

    Pattern patternForLink = complier.compile(patternStrs,
                                              Perl5Compiler.
                                              CASE_INSENSITIVE_MASK);
    PatternMatcherInput input = new PatternMatcherInput(htmlContent);
    while (matcher.contains(input, patternForLink)) {
      MatchResult match = matcher.getMatch();
      //处理匹配的结果,是要替换还是要其他处理
    }

    第二:对其他的标签也类似只要把匹配的字符串改一下为要匹配的标签就可以了。(如IMG标签)
(<\s*img\s+(?:[^\s>]\s*){0,})src\s*=\s*("|'|)([^\2\s>]*)\2((?:\s*[^\s>]){0,}\s*>),这样就可以处理
<img.....................src="[url]"...............>的标签匹配,对其他的标签也一样......
总结:对于大量要处理的文本,建议还是用到正则表达式,而要处理的文本比较少时,用普通的字符串API处理函数就足够了。
 

扫描二维码推送至手机访问。

版权声明:本文由知了博客发布,如需转载请注明出处。

本文链接:https://www.webgou.info/?id=62

标签: 正则表达式
分享给朋友:

“Java正则表达式匹配、替换HTML内容( 转 )” 的相关文章

安卓获取设备信息

安卓获取设备信息 import java.net.NetworkInterface;import java.net.SocketException;import java.util.Enumeration; import android.app.Activity;import a…

详解Android源码的编译详解Android源码的编译

本文将为大家介绍的是如何设置Android源码的编译环境,包括Linux下的配置。主要基于Android 1.0环境,希望对大家了解Android开发有所帮助。本次编译过程主要参考官方文档(http://source.Android.com/download)和网上相关资料(如http://blog…

关于wince OS开发面试问题的总结系列之OAL

关于wince OS开发面试问题的总结系列之OAL…

Ubuntu 11.04(64-bit)安装flash player

Ubuntu 11.04(64-bit)安装flash player…

全方位解读Android多媒体框架源码

Android中对于图形界面以及多媒体的相关操作比较容易实现。而且对于大多数手机用户来说,他们主要也就是根据这些方面的功能来对系统那个进行修改。我们可以通过本文介绍的Android多媒体框架的源码解读,来具体分析一下这方面的基本知识。Android多媒体框架的代码在以下目录中:external/op…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。