blog

来源:百度文库 编辑:神马文学网 时间:2024/04/28 10:38:33
Blog搜索在应用层与传统的baidu为代表的图书馆搜索有所不同。后者以精准资料获取为目标。根据blog posts的内容与结构特征,blog搜索更侧重信息的时效特征,以发掘群体正在谈论的、关注的主题为手段,力图反映社会生活正在发生的变化与趋势。
目前blog搜索可分为四类,一、以国内的8fang、feedsearch、奇波搜索 为代表,手工设定基于BSP列表的搜索范围,辅助以用户提交RSS或blog地址,除体现时效与相关度外在搜索结果上与百度等图书馆搜索并无实质差别。 二、利用搜索技术搭建的内容门户,例如:bolaa.com 解决blog信息分散,抽取精华信息满足漫无目的之读者浏览习惯。三、对posts的内容与结构进行深入分析,以国外的Technorati和 IceRocket为代表。通过对links、Tag的分析,将blogging作为群体思想、行为的风向标,反映现实社会的变化趋势。四、日报模式,以megite,memeorandum为代表,这是相关性搜索引擎,对特定的blog列表进行实时监测,通过追踪posts内的链接,挖掘blogger之间的交流脉络,并以对话的形式呈现。
绝大部分blog分散在BSP中,大量相同主题的个人posts没能以集中的方式形成社会性的影响力。blogging作为个体行为不以媒体为目的。但聚合后的blogging具有社会化的媒体效应,这与社会化网摘的实现过程有相似之处。 基于搜索技术搭建博客社区是解决问题的方法之一,并为blogger在加强与读者间互动、形成广泛人际关系圈等方面提供帮助。
而从另一角度观察,blog搜索是以用户产生的内容为目标的众多垂直搜索技术应用的分支。blog、社会化相册(flickr)、大众点评、分类广告等是用户产生内容的代
表。在另外一类服务中,用户是以收藏、投票等“行为方式”作为表达和传递个人意愿的工具。在众多用户信息搜索领域尤以blog搜索与分类广告搜索发展最为迅速。
无论是blog搜索,还是分类广告搜索,亦或是其他什么搜索。问题最终要回归到搜索技术与用户产生内容的结合到底能够满足人们的哪些需求和为满足这些需求而应该提供哪些服务。
BLOG
blog兴起与RSS广泛应用使互联网的信息发布源由企业、组织、机构延伸至个人。搜狐blog调查显示,目前国内blog写作内容以情感、生活为主。 IT类blog表现活跃。blogger从满足个人需求、表达自我出发,通过blog传递个人的观点,创作过程充满着个性与率真,作者重视自己独到的原创 见解,却不必追去内容的全面或是权威,大家通过blog写作进行着对话与交流。
大部分blogger并不想通过写blog使自己成名人,但更多的关注与交流是能够促进作者的原创。
用户内容产生于以交流为导向的创作过程中,这有可能聚合出社会化效应,这与传统门户所提供的内容具有明显区别。用户产生的内容是自给自足,是人们目的与需 求的主动描述,获致用户需求与满足用户需求同步发生,这比传统门户在观测用户需求后,进而提供内容满足需求更具优势。
blog同论坛一样蕴藏着数量巨大、分散的优质内容,高效集中的阅读方式能够帮助用户便捷的获取信息,利用内容吸引流量这是“入口”的作用。
内容广泛  Blog所记录的内容广泛,bolaa拥有16个大类(社会 军事 科技 商业 思想 情感 生活 文化 图片 互联网 旅游 体育 教育 娱乐 随笔 播客),每个大类还包含若干小类。几乎涵盖了传统新闻网站的所有信息类别。
信息量巨大  百度的调查结果显示,截止到2005年11月底,中文Blog站点达到3682万,Blogger达到1600万。若按2005年六-七月间搜狐blog调查结果显示,blogger一周更新3个以上超过60%计算,每日产生不低于400万posts。
心理特征  blogger的心理过程包含创作积累的成就感与读者增长的荣誉感。对心理满足的追求使blog有迎合既定读者群的趋向(转贴盛行)。对个人blog推广同样存在需求。
圈子与群组  溶入了作者感受、 观点、评价的blog写作具有明显的对话特征。在一个具有相同主题互为欣赏的blogger群体中彼此分享,引发共鸣者进行新的创作,社 会化成果产生于信息在这些关注相同主题的blogger群体中的快速传递、萃取与衍生创作中,但一个主题脉络下的内容却分散在各自作者的blog上。相关 主题的讨论也会成为干扰,普通读者缺少有效的工具梳理同一主题的交流脉络。blog圈是隐性的,而作者只能看到以自己为圆心的一对多的关系,却无法全面掌 握多对多的网状的blogger关系网。
blog=个人网络标识  MSN Space 以模块化的方式提供相册、文章列表、音乐列表等,blog具有完整的个性表现能力。
blogger=reader  blogger参与信息传递,为创作积累而进行主动阅读。blogger通过文章彼此交流。
link是blog的灵魂   blogger在posts中广泛应用超链接,超链接串连分散的posts形成不易察觉的脉络,跟踪反向链接帮助blogger发现与自己有关的blogs。构成posts评价体系基础。Technorati计算的方式被称为Net Attention,就是看有多少人链接了某用户的blog。
blog系统 以MSN Space 为例,包含的模块有:1、网络日志;2、照片;3、列表;4、音乐;5、档案文件;可能包含的内容有:1、个人描述;2、日记、评论;3、存档、分类;4、回复、trackback;5、好友列表;6、相册;7、mediaplay 播放列表;8、网摘收藏;9、文章转贴;10、Podcast;11、其他聚合内容。
主文章列表自动生成RSS,在其他blog系统中还会为分类文章、读者回复提供RSS输出,使读者能够以更细化的方式订阅内容。订阅某用户的RSS通常是指针对该RSS完成的。所以在某种程度上,blogger用户与缺省的RSS之间形成一一对应的关系,在第三方系统中例如:gougou,feedburner 中将用户之间的订阅关系作为人与人之间的社会关系描述出来。
blogroll是blogs提要的集合,大多数blog系统都会提供blogroll。引导读者到达主题相近、关系密切或是经blogger筛选的其他 blogs。blogroll方便网络上的沟通。大多数blog能够管理blogroll,当读者请求blogroll时产生相应的XML格式文档,例: opml。同样,大多数RSS阅读器都能够导入opml,并自动预定所包含的RSS。以某一blog为中心根据blogroll可绘制出Blog用户间的弱关系链图。
除了blog系统能够记录用户产生的信息外,还有另一类服务--关系导向的用户点评,同样是鼓励用户贡献信息,但比blog的目的性更明确,信息也具有结 构性,例如:flickr,asoboo等。而在另一些服务中,是以用户的行为作为评价和个性需求的标志,例如:社会化书签记录用户的收藏动作,digg 记录用户的投票动作。
目前越来越的互联网公司正通过各种服务(blog,点评,digg)或手段(搜索,建立用户关系与目的导向)获取用户产生的,具备足够规模效应的,不同数据类型(评论,blogposts,url,图片,书名,音乐)。用户产生的数据和网络行为包含更丰富和明确的用户需求描述与注意力趋向,但这些数据并没有以可直接利用的流量方式呈现,并且隐蔽在不可见的blog圈中。这有别于传统搜索与门户的广告模式。
对用户产生内容的利用,以tag,link,rss订阅关系,trackback回复关系,收藏行为,digg行为等的分析为基础,使blogger的社会关系网清晰可见,反映人们的注意力导向与需求趋势是进一步的应用。体现在以弥补个体注意力有限的日报模式(megite,memeorandum)与市场跟踪咨询模式(technorati)和集中阅读的信息入口模式(bolaa)。
blog搜索
一、以国内的8fang、feedsearch、feedss 为代表,手工设定基于BSP列表的搜索范围,辅助以用户提交RSS或blog地址,利用RSS作为入口获取全文。除体现时效与相关度外在搜索服务的目的上与百度等图书馆搜索并无实质差别。
特点:1、搜索结果按时间或相关度排列,搜索指定时间段内的数据。
2、提供类似google的高级搜索语法
3、搜索结果的RSS输出
4、搜索覆盖网摘(365key),相册(flickr)
5、与在线RSS阅读器合作,方便搜索结果订阅
6、目录搜索,搜索标题,结果为blog或网摘,图片等服务的个人页面
7、feed搜索,相关feed
8、feed中典型标签(tag),作为判断blog主题的依据
9、根据作者的blogroll绘制的blog关系图
10、tag搜索为主题搜索,以及相关主题
11、提交用户的RSS到搜索引擎
12、搜索结果的源feed及blog网址
13、作者搜索
14、将RSS作为搜索主体。实现rss的item拆分
二、利用搜索技术搭建的内容入口,例如:bolaa.com 解决blog信息分散,抽取精华信息满足漫无目的之读者浏览需求。缓解blog信息分散不易阅读。
特点:1、posts分类精选,推荐,突出作者。她能告诉读者什么好看,确无法回答blogger们正在谈论什么。
2、各种排行
3、播客联播
4、在社会,军事等栏目中大量收入信息为转贴新闻
5、内容覆盖论坛
6、提供网摘服务
在bolaa的服务介绍中,强调为blog作者带去流量并认为进而会产生更多的交流,但从排行的结果看,流量大的文章往往是转贴新闻,诱导blogger 过分关注流量,并不能促进原创,却会使转载文章数量增加。而转载文章只能引发读者评论,并不能促进blogger之间的交流,因为blogger之间是交 流是通过撰写blog实现的。
三、对posts内容中的链接,posts结构,tag进行分析,以Technorati和IceRocket为代表。通过对links、Tag的分析,获得群体思想、行为的风向标,反映现实社会的变化趋势。
technorati沿用了传统的page rank方式。作为统计方式。
在technorati中通过分析特定链接被作者引用的次数作为信息热门的评议标准。以此为基础在Popular中提供了新闻,书籍,电影的热门排行以及blog排行。
用户可自定义 watchlist 对自己感兴趣的关键字进行跟踪,而在tailrank中则是对个人订阅列表(opml)的热门排列,这样更实用,能够提高读者订阅的rss阅读效率。
Blog Finder  一种基于tag的方法,帮助人们在某一主题下发现最具权威的blogs。允许bloggers为自己的blog标记tag,作为他们认为最恰当的类别。能 否通过分析feed得到使用频率最高的若干tag作为该blog的典型tag并等同于blog的分类,从而避免为blog标记tag是而出现的定义污染。
technorati是即时性搜索引擎并发挥到极至,他的实时跟踪,可每1分钟刷新一次结果,与其将technorati归入搜索引擎,不如说他是一个实时跟踪引擎。
四、meme引擎,作为搜索一个活力十足的发展分支,这种日报模式,反映某个领域(技术、政治)的最新热门动态,类似google的新闻搜索。这类服务侧重将分散的blog舆论凝聚成媒体力量,当有突发事件出现时,这类服务会成为人们获取新闻的重要渠道。
问题
1、大多RSS搜索引擎采用类似Google的PageRank的机制来对结果进行评判和优化,但相关性并不能完全令人满意,需要更符合 blog写作和交流特性的信息评价机制。把在线阅读器的数据分析,网摘数据的分析,digg评议分析,作为结果相关度排列的权值也许是一个探索方向。
2、单纯搜索能够作为满足目的明确用户获取信息的需求,但不适应漫无目标的浏览。同时人们运用blog搜索的目的并不是为了获取精准资料,blog的写作 特点也决定不允许人们这样做。人们利用blog搜索更是想跟踪某一个主题的动态,实时了解正在发生的交流或事件。technorati的tag输出被广泛 订阅也说明了这点。
3、大多数blog搜索依然局限于满足精准资料获取,轻视搜索用户作为读者之间的交流,同时虽然搜索能够为blog带去流量,但无法将这种作用放大。
3、垃圾信息。technorati最新公布的调查数据显示,大约有9%的blog为spam。其中一些是由软件创建的blog或由软件自动发布posts。
4、一些支持多BSP的posts发布客户端提供嵌入式广告,广告链接是搜索分析link的干扰因素。
话题
1、搭建博客精选或采用日报模式结合搜索
2、为blog搜索引入用户系统
两条主线:1、获取用户对搜索结果的补充、评议和搜索历史并以个人页面的方式组织;2、通过补充的内容和评议反向发现用户。 关键字是中心。
1、用户为某个关键字的搜索结果提交补充链接与blog,设置公开与隐私,当其他用户搜索相同的关键字时,显示公开的补充结果、blog、用户ID
2、用户评论系统:1、用户对搜索结果进行评论并可trackback到源blog,2、为关键字提供类似帖吧的服务,其中包含该关键字的搜索频率,相关关键字,以该关键字作为典型tag的blog,以及用户评论
3、用户可挑选搜索结果,并结合个人提交的相关链接作为个人搜索历史,此个人提交同(1)中“补充”。被保存的搜索结果与关键字同样反作用于搜索结果的排序。
4、用户屏蔽spam
5、未注册用户可使用全部功能,当用户注册时,用户的信息不能丢失,保证用户平滑的过渡
6、能够将用户在搜索引擎中发布的内容,譬如:搜索历史,发布于自己的blog上。
7、用户可设置其个人的所在地域。地理关系是人际关系的表现。
8、搜索相同关键字的用户构成读者圈
9、具有相同典型tag的blogger,posts包含相同连接的blogger,构成的作者圈,
3、当blog圈能够清晰可见,职业流动、项目合作等能够在blog圈中展开。
4、搜索结果可提交主流网摘系统或显示该结果在主流网摘系统的收藏数量并作为结果排序的依据
5、关键字或Tag与blogger之间的对应关系,关键字或Tag对应的作者群或作者数
6、为主题提供backtrack地址,blogger可将自己的创作,发送到主题的创作区。
7、搜索时用户输入的关键字反映出人们的需求,也从另一个角度反映人们的注意力,关注趋向。
相关
1、与BSP或blog软件的关系
在technorati中采用ping服务自动获得blog更新。technorati与WP(被广泛使用的blog程序)同属一个联盟下,WP系统会自动发送Ping到Ping-o-Matic, 然后通过Ping-o-Matic来发送Ping到多达22个搜索引擎,其中自然包括technorati。
2、在线阅读器与blog搜索的关系
一个拥有大量RSS的在线服务做blog搜索基本都可以获得比较好的效果,例如:bloglines。基于一个比较大的数据积累,并能够记录用户的阅读和点击,再通过爬虫。这会成为blog搜索的主要竞争对手,但也可以转化为blog搜索的主要合作伙伴。
3、blog搜索与digg类服务之间的利益关系
将搜索直接提交类digg服务,为类digg服务带去资源与流量的同时,可通过投票获取用户对该搜索结果的评价并反作用于搜索结果的相关度排列。
目标
1、作为信息入口、交流通道,为blogger带去更多流量。
2、通过关键字或tag,link,将隐形的blog圈描述成清晰可见,并以圈为单位反映其中的相关主题(tag,关键字),圈中的作者。让读者送入自己关注的圈中,发现其喜欢的blog,或是以主题(关键字或tag)组织自己的阅读圈,创作圈,共享用户数据(为搜索结果提交的链接)。
3、联合其他网站为搜索结果的后续处理提供方便服务譬如网摘,digg,通过提供辅助服务,利用用户行为优化搜索结果排列。
4、将blog搜索引擎作为读者于blogger,blogger之间互动的桥梁
5、满足获知“谁谈论什么”的需求。 1、某个圈中,某个主题的脉络跟踪(RSS输出);2、以某个搜索结果出发反向追踪作者所属于的圈子,以及该文章的相关主题
6、反映人们的注意力趋向,掌握人们潜在需求。为其他行业提供社会需求数据。
既是面向专业人士。帮助这些人更深入了解一个公司或产品。例如:营销人员、广告商、分析师等。他们需要跟踪市场反馈的方法与手段,告诉这些人谁是评论公司或产品的最具影响力的公众人物。人们正在如何评价和讨论一个公司或产品,人们需要什么样的产品和有什么新的需求。
附:有趣的服务
1、blogger关心自己blog的运行状态。针对blog访问状态的跟踪服务 http://www.montastic.com/