蛙蛙推荐：蛙蛙牌自动提取Tag算法 - 蛙蛙池塘 - 博客园

来源：百度文库编辑：神马文学网时间：2024/04/26 13:05:48

蛙蛙牌自动提取Tag算法

摘要：Tag系统是Web2.0的一个招牌应用，如果你有一个经营了好几年的论坛，是不是也想生成自己的一套TAG。别听他们说什么语义WEB，文本聚类算法，TIIDF，余弦定理，相似度算法啥的高深算法（我一个也没整明白），跟我来，简单的计算词频来提取tag的效果就很好。

分析；把每个帖子进行分词，然后把词的出现频率倒序排列，取出前N个就作为TAG了。当然要一个板块一个板块的提取tag，如果把军事板块和情感板块的帖子混杂在一起提取tag，提取出来的tag相关性比较差一些，如果分开提取，相关性要好一些，整体效果好。好多时候做训练算法，语料很重要。先分词吧，自己写分词算法也是弄个词库，自己用正向最大匹配来分词，或者两个两个字的来当词，所以还不如直接用中科院那套呢，直接使用了隐式马尔可夫算法，效果虽说不是很好吧，也能满足需求了，对吧。具体测试代码、分词组件、词库下载见以下链接
http://www.cnblogs.com/edison1024/archive/2006/05/03/390832.html
得点了他那个广告才能显示下载地址，你就点吧，人家提供下载也不容易。分词后要去除停止词，停止词自己从网上搜索一份，如果不去除停止词，最后肯定是“了”，“的”，“我”等词出现的频率最高，你不会把这些常用词做tags吧，呵呵。当然NICTCLAS是可以标注词性的，你可以分词后把语气词、副词等虚词去了，这样更好一些，但我就懒得做了，直接分词、去除停止词两步。
完了计算每个词出现的频率就好说了，弄一个全局的字典，每个词出现一次增加一个计数，第一次出现先添加到字典，并计数为0，最后把出现次数在某个阈值以上的词插入到数据库里，这就是你要的tag了，先来看一下我的效果吧（大家别笑哦，我是从一个美女贴图论坛提取了一些帖子的主题当语料的，为了不降低博客园的PR值，就贴图，不贴文字了）。

开始上代码
先贴分词

namespace WawaSoft.Search.Common
{
    public sealed class WawaSplitWorder
    {
        static List _stopWords = new List();
        static NICTCLAS _nictclas;
        public static void Init()
        {
            try
            {
                //1、初始化分词器
                _nictclas = new NICTCLAS();
                _nictclas.OperateType = eOperateType.OnlySegment;
                _nictclas.OutputFormat = eOutputFormat.PKU;

                //2、加载停止词
                using (StreamReader sr =
                    new StreamReader("data\\StopWords.txt", Encoding.Default))
                {
                    string temp;
                    while ((temp = sr.ReadLine()) != null)
                    {
                        _stopWords.Add(temp);
                    }
                }
            }
            catch (Exception ex)
            {
                Trace.TraceError("初始化分词器错误:{0}", ex);
            }
        }

        /**////

/// 分词并去除停止词

///

public static IEnumerable SplitWords(string input)

{

Console.WriteLine(input);

//预处理，不处理那个分词组件有可能内存读写错误，那玩意儿写的不太健壮，容错性8行的说，呵呵

input = input.Replace("/", "");

input = input.Replace(".", "");

string result = string.Empty;

List ret = null;

try

{

//1、分词

_nictclas.ParagraphProcessing(input, ref result);

ret = new List(

result.Split(new string[]

{ " " }, StringSplitOptions.RemoveEmptyEntries));

//2、去除干扰词

List needRemove = new List();

foreach (string word in ret)

{

foreach (string s in _stopWords)

{

if (string.Compare(s, word, false) == 0)

{

needRemove.Add(word);

break;

}

foreach (string removeWord in needRemove)

{

ret.Remove(removeWord);

}

catch (Exception ex)

{

//错误的时候除了打出错误详细信息后打出出错的上下文，传入的参数，临时变量等有助于从trace里分析错误，要不死了也不知道怎么死的

Console.WriteLine("{0}\r\n{1}",input,ex);

}

return ret;

}

计算词频

class AutoGenTag
{
    //大字典，保存每个词的词频,key是词，value是词频
    static Dictionary _hashlist = new Dictionary(10240);

    public static void Excute()
    {
        //1、取出帖子，越多越好，越多提取的准确性越高
        IEnumerable source = Dao.GetPostTitles();
        foreach (string str in source)
        {
            //2、把每个帖子主题分词
            IEnumerable words = WawaSplitWorder.SplitWords(str);
            if(words == null)
                continue;

            //3、把每个词插入到大字典里，以前存在就把词频加1
            foreach (string word in words)
            {
                if(_hashlist.ContainsKey(word))
                {
                    _hashlist[word]++;
                }
                else
                {
                    _hashlist.Add(word,0);
                }
            }
        }
        //4、把大于某个阈值(这里是20)的词插入数据
        foreach (KeyValuePair pair in _hashlist)
        {
            //如果一次循环插入几万个词,SQLSERVE每秒提交的批会很高，有可能CPU瞬间很高，Sleep(0)能让CPU长得慢点儿，Sleep(1)也行，不过我不知道这两个的区别。或者直接用sqlserver的bilkcopy性能也8错
            Thread.Sleep(0);
            if (pair.Value > 20)
            {
                Console.WriteLine("{0}-{1}",pair.Key,pair.Value);
                Dao.addtags(pair.Key, pair.Value);
            }
        }
    }
}

代码写的比较糙，大家凑合看，都是随手写的。最后写一个sql查出tag并按词频倒序排列，选出一个datatable,用datalist一绑定就O了。当然了，我这是提取标签的土法，大师们看了别吐，呵呵。

蛙蛙推荐：蛙蛙牌自动提取Tag算法 - 蛙蛙池塘 - 博客园蛙蛙推荐：ASP.NET MVC学习笔记 - 蛙蛙池塘 - 博客园蛙蛙推荐：《代码大全》第4-5章读书笔记 - 蛙蛙池塘 - 博客园雅蛙的池塘博客园 - 蛙蛙池塘 - 简单说一下我对这个CRM系统的设计方案哦 Word自动提取标题做页眉 Word自动提取标题做页眉qw Word 2002自动提取文档目录 Word自动提取标题做页眉55 Word 2002自动提取文档目录 tag tag 常用算法大全－贪婪算法2 - DotNet笔记 - 博客园让Word 2007自动提取数据制作成绩单! 让EXCEL自动从身份证号中提取出生日期和性别让EXCEL自动从身份证号中提取出生日期和性别 jQuery试卷自动排版系统 - ExSystem - 博客园博客要来一场tag革命博客要来一场Tag革命博客园 - ipointer - RETE算法的描述（原创）博客园 - 嚎叫一声 - 算法与竞赛遗传算法（Genetic Algorithm) - cutepig‘s 博客园 LZW压缩算法简介 - 爱东东 - 博客园 tag tag tag 啦啦啦