超强正则表达式解析网页连接---可用于搜索引擎获得连接列表

来源:百度文库 编辑:神马文学网 时间:2024/05/08 00:17:16
package Com.J.SEO;
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/*
* 创建日期 2006-9-22
* Author:Lulu
* QQ:103003113
* 利用正则表达式,对网页内容进行筛选,输出所有页面连接................
可用于搜索引擎进行页面搜索获取连接列表..以便于进行下一层搜索.......
* Msn:smildlzj@hotmail.com
*/
public class test
{
public static void main(String[] args) throws IOException{
StringBuffer weatherBuffer = new StringBuffer();
//读入文件对象内容....需进行过滤的内容
String txt="";
//控制台输出过滤得出来的连接
System.out.println(RegexPattern("\\s*]*).*>.*",txt));
}
public static String RegexPattern(String pattern,String match){
StringBuffer re = new StringBuffer();
if(pattern!=null && !pattern.equals("")){
Pattern p = Pattern.compile(pattern,2); //参数2表示大小写不区分
Matcher m = p.matcher(match);
int i=0;
boolean result = m.find();
//使用循环将句子里所有匹配的内容找出并替换再将内容加到sb里
while(result) {
i++;
re.append(m.group(2)+"\n");
//继续查找下一个匹配对象
result = m.find();
}
System.out.println("total:"+(i+1));
}else{
return "";
}
return re.toString();
}
}