htmlparser使用举例-白红宇

htmlparser使用举例

阅读量：4679 次

发布时间：2019-06-09

本文共 3920 字，大约阅读时间需要 13 分钟。

htmlparser使用举例

HTMLParser 一个解析web页面的开源类库, 他有两种主要使用方式, extraction和transformation. 前者就是从网页中萃取出你要的东西,后者就是把web页面中的一些内容改为(转换为)你想要的格式. 下面来看看这两种使用情况的各自特点.

Extraction

萃取例如下面的几种常见的使用方式:

* text extraction, 萃取web页面中的文本文字

* link extraction,萃取web页面中的连接包括url 和 email地址, 还可以自定义其他标签

* screen scraping, 抓去web页面内容

* resource extraction, 萃取web页面中的资源, 图片 , 声音文件......

* a browser front end, the preliminary stage of page display

* link checking, 确保连接是有效的

* site monitoring, 检查web页面的更改

使用一下几种机制来帮助你实现上面的功能:

filters, visitors and JavaBeans

Transformation

处理web页面的内容, 转换为你需要的.包含:

* URL rewriting, 更改一个web页面的部分连接or 全部连接为你想要的.

* site capture, 把远程的网站抓取到本地

* censorship, 检查web页面内容,移出你不想要的字词

* HTML cleanup, 整理html格式,

* ad removal, 过滤广告连接

* conversion to XML, 转换为xml格式的数据

另外: htmlparser还使用到了几种很好的设计模式.应用的恰到好处, 值得学习和借鉴一下.

这次对htmlparser的简单介绍先介绍到这里, 在以后的时间里根据具体的应用在写一些例子, 给大家参考一下(htmlparser源代码中也有几个例子,建议看看).

下面通过一个简单的htmlparser的使用举例，来学习htmlparser的使用。代码如下：

package com.amigo.htmlparser;

import java.io.*;

import java.net.URL;

import java.net.URLConnection;

import org.htmlparser.filters.*;

import org.htmlparser.*;

import org.htmlparser.nodes.*;

import org.htmlparser.tags.*;

import org.htmlparser.util.*;

import org.htmlparser.visitors.*;

/** *//**

* 测试HTMLParser的使用.

* @author <a href="liuqlmailto:liuql-ja@163.com">liuql</a>

* Creation date: 2008-6-5 - 上午11:44:22

public class HTMLParserTest {

/** *//**

* 入口方法.

* @param args

* @throws Exception

public static void main(String args[]) throws Exception {

String path = "http://www.163.com";

URL url = new URL(path);

URLConnection conn = url.openConnection();

conn.setDoOutput(true);

InputStream inputStream = conn.getInputStream();

InputStreamReader isr = new InputStreamReader(inputStream, "utf8");

StringBuffer sb = new StringBuffer();

BufferedReader in = new BufferedReader(isr);

String inputLine;

while ((inputLine = in.readLine()) != null) {

sb.append(inputLine);

sb.append("\n");

}

String result = sb.toString();

readByHtml(result);

readTextAndLinkAndTitle(result);

}

/** *//**

* 按页面方式处理.解析标准的html页面

* @param content 网页的内容

* @throws Exception

public static void readByHtml(String content) throws Exception {

Parser myParser;

myParser = Parser.createParser(content, "utf8");

HtmlPage visitor = new HtmlPage(myParser);

myParser.visitAllNodesWith(visitor);

String textInPage = visitor.getTitle();

System.out.println(textInPage);

NodeList nodelist;

nodelist = visitor.getBody();

System.out.print(nodelist.asString().trim());

}

/** *//**

* 分别读纯文本和链接.

* @param result 网页的内容

* @throws Exception

public static void readTextAndLinkAndTitle(String result) throws Exception {

Parser parser;

NodeList nodelist;

parser = Parser.createParser(result, "utf8");

NodeFilter textFilter = new NodeClassFilter(TextNode.class);

NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);

NodeFilter titleFilter = new NodeClassFilter(TitleTag.class);

OrFilter lastFilter = new OrFilter();

lastFilter.setPredicates(new NodeFilter[] { textFilter, linkFilter, titleFilter });

nodelist = parser.parse(lastFilter);

Node[] nodes = nodelist.toNodeArray();

String line = "";

for (int i = 0; i < nodes.length; i++) {

Node node = nodes;

if (node instanceof TextNode) {

TextNode textnode = (TextNode) node;

line = textnode.getText();

} else if (node instanceof LinkTag) {

LinkTag link = (LinkTag) node;

line = link.getLink();

} else if (node instanceof TitleTag) {

TitleTag titlenode = (TitleTag) node;

line = titlenode.getTitle();

}

if (isTrimEmpty(line))

continue;

System.out.println(line);

}

/** *//**

* 去掉左右空格后字符串是否为空

public static boolean isTrimEmpty(String astr) {

if ((null == astr) || (astr.length() == 0)) {

return true;

}

if (isBlank(astr.trim())) {

return true;

}

return false;

}

/** *//**

* 字符串是否为空:null或者长度为0.

public static boolean isBlank(String astr) {

if ((null == astr) || (astr.length() == 0)) {

return true;

} else {

return false;

}

转载于:https://www.cnblogs.com/MyDBlog/p/7344568.html

你可能感兴趣的文章

C语言-常量指针与指针常量

查看>>

20145303 《Java程序设计》第7周学习总结

查看>>

Linux内核如何装载和启动一个可执行程序

android入门之: SharedPreferences

转iOS UIAppearance使用详解

查看>>

winform中实现label的自动换行

查看>>

MFC .。。CReBar 上添加工具栏背景

查看>>

人工智能浪潮下，岗位及就业，技术分析 _证券交易员