正文抽取所需正则

来源:百度文库 编辑:神马文学网 时间:2024/04/28 03:40:24
正文抽取所需正则
[ 2007-04-20 13:22:44 | Author:King ]
Font Size:Large |Medium |Small
工作中同事帮忙写的正则,主要被我用于网页正文提取 #region 相关正则表达式
///
/// 去掉所有html标签
///

private static readonly Regex FilterAll = new Regex(
@"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");])]*>[^<]{2,}(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");]))|(?