博客搜索和博客联播发布:Search Engine搜索引擎研究

来源:百度文库 编辑:神马文学网 时间:2024/04/30 09:51:46
搜索引擎研究
Blog::Technology
« 垂直与水平 |主页 |上海,中文网志年会 »
October 25, 2005
博客搜索和博客联播发布::[Search Engine]



博客搜索一共收录了200多万的博客,一共索引600多万条记录。
博客联播是您随时发现新文章的一个来源,平均每天收录8万条记录,并且滚动播出(过滤程序将一些字数少于200,色情等的先过滤掉了),是中文博客的即时风向标。
Booso.com 最早是我在博客动力的时候业余时间利用refer 服务的数据制作的搜索引擎,今年年初因为事物繁忙,就逐渐荒废了开发,直到这次回国后才又有精力带领团队进行完善。Booso 从诞生到现在,一直是一个试验田,一共进行过如下的尝试:1]Referral 的服务 2]refer 和 关键词搜索的服务 3]自动分类引擎的测试 4]贴吧 5]新闻搜索服务 6] 新闻聚类服务 7]博客搜索服务 8]博客联播服务。虽然前前后后历经一年之久,很多服务也是中途夭折,但是基本上正是这些尝试,我和我们的团队得到了很多锻炼和经验,这些财富才是最值得收藏的。
对于这两个服务,我和我的团队还在完善中,如果有好的建议或者砖头请不要吝啬。
Posted at October 25, 2005 08:32 PM byLiang at08:32 PM |Comments (16) |TrackBack(1) |Booso!|Niu.la收藏!
Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/803
Trackbacked from http://wpt-en.bargarmetal.com with Very nice. You‘re site is very helpful. on .
Comments
第 1 楼:
liang,为啥我的条目的时间是1970年1月1日啊?
Posted by: zheng at October 26, 2005 12:07 AM from 220.162.203.76
第 2 楼:
zheng, 是我程序计算时间的时候没有拿到合理的格式,因此得到了默认的时间起始点.
你用feedburnner的服务吧?
Posted by: 6e at October 26, 2005 01:37 AM from 218.249.35.66
第 3 楼:
很不错! 更多的人现在从blog上获取信息.一个针对Blog的search engine 会是很多人需要的工具. 希望收录更多的英文blog....
Posted by: Xin Chen at October 27, 2005 09:50 AM from 210.82.111.222
第 4 楼:
楼长,你说的过滤是开什么玩笑吧?
联播里面第一页就21个相关美女、美眉、诱惑这样的内容
我想这个过滤实在不敢恭维啊
这样的结果假如也算过滤过的话
那么不过滤该怎么样?
Posted by: 移动商务伙伴 at October 28, 2005 05:44 AM from 219.157.155.252
第 5 楼:
搜索keso,没命中
搜索laobai,没命中
搜“搜索引擎研究”,还是没命中
结论,不好用。
不然就是我不会用?
Posted by: thethe at October 28, 2005 09:45 AM from 211.156.16.140
第 6 楼:
请楼上的两位认真对待,搜索keso和laobai都有很多的结果,不知道是否输入了正确的字符?
另外一页一共20条目,不会出现21条象您说的这样。
我刚才扩容到了30条,希望您不会发现31条数据。
:)
Posted by: 6e at October 28, 2005 11:22 AM from 220.207.87.136
第 7 楼:
中国政府不是禁止色情吗,为什么网上尤其是门户,社区,全是特色内容? Maybe I do not know enough about the real situations in China. I need to go back to China often. -2005 Roboo儒豹Meshfire
Posted by: Roboo儒豹Meshfire at October 28, 2005 01:37 PM from 24.6.199.68
第 8 楼:
不知道所谓的“认真对待”是什么意思。
比如我听说过laobai这个人的blog不错,但我不知道地址,刚好我知道了这个搜索引擎,我键入laobai,是,有很多结果,但是第一页看到底都没找到我想要的东西。我不知道我应该怎么“认真对待”才能找到。如果一个给普通人用的搜索引擎都需要在开发者的“认真对待”的提醒才有可能找到想要的东西,不知道这叫不叫好用。况且,我认真对来了,他还是不给我结果。不知道您的搜索引擎打算怎么定位。至少在以blog名搜索上,他失败了。
ps:我以为blog搜索不从tag这条路走,没大戏。
Posted by: thethe at October 30, 2005 02:31 AM from 211.156.12.123
第 9 楼:
卢亮,你好!我最近开发了一个类似lilina的xml新闻聚合系统,并应用在我的网站上——聚合了你的blog头两篇更新。如认为不妥,请联系feitiger###etang.com
Posted by: ahu at October 30, 2005 07:37 AM from 221.232.187.5
第 10 楼:
很不幸,楼主所说的“认真对待”我已经做到了。
我刚好就是看到一个页面上有30条显示,而且一条一条数出来的21条中包含楼主所说的“被过滤”的信息。楼主应该能够从我发文的时间判断出当时我看到的是20条/页还是30条/页,这个我是拿不出任何证据的,而楼主绝对是权威。
同时我还没有使用任何关键词什么的,就是打开那第一页,应该是最新被收录进的内容,印象中第一条好象是6(时间单位似乎是秒,不确定)前所收录的。
或许我访问那页面的时间不对吧,我想应该是这样的:那时间或者在楼主看来,正是红灯区开张的时候,所以在那时间段里面所收录到一些相关BLOG正是时候。
BTW:发文不要怕给人挑毛病,偶很认真的,但是不回太较真儿,不然我下次截个图给你,就怕你这里不给我贴啊.lol……
Posted by: 移动商务伙伴 at October 30, 2005 08:17 PM from 218.57.243.50
第 11 楼:
博客中国的RSS聚合服务的错误能不能在这里反应呢?
rss.bokee.com的Rss聚合功能貌似不能收录MSN Space的feed. 我试过很多次, 都提示有错误, 也许是Bokee的错, 也许是我的Space有问题. 可以试一下http://spaces.msn.com/members/bluemiles/feed.rss
喀喀, 有点冒失哈, 莫见怪
Posted by: bluemiles at October 31, 2005 10:40 PM from 220.249.19.65
第 12 楼:
不好意思哈,没经过允许就贴了你的文章,呵呵,看看,有什么不妥的回个信,我会立马删掉的:
http://famousky.com/article.asp?id=306
给站长免费做个宣传了,祝贵站红火!!
Posted by: famousky at November 1, 2005 05:58 AM from 218.22.44.222
第 13 楼:
>:全球著名调研公司Frost将我Roboo Meshfire儒豹列为内容过滤关健参与者(倒数第二段:The following is a list of key industry participants):
http://biz.yahoo.com/prnews/051005/uktu010.html?.v=30
Posted by: Roboo儒豹Meshfire at November 11, 2005 03:00 AM from 24.6.199.68
第 14 楼:
请问一下目前的最好的OPEN SOURCE的搜索引擎是哪一个呢?想自己搭一个学习学习
Posted by: henry at December 5, 2005 11:51 AM from 216.9.243.103
第 15 楼:
开源的全文搜索系统有Lucene:www.lucene.com.cn;
开源的搜索引擎系统有Nutch:www.nutch.org.
到这个网站可以找到更多的搜索引擎:www.aha360.com。
Posted by: aha360at January 19, 2006 12:15 PM from 218.104.69.99
第 16 楼:
编辑专业的医学保健文章,为广大人民服务
Posted by: 骨科医生 at January 27, 2006 01:34 AM from 60.1.136.231
Post a comment
所有发表
卢亮:致力于搜索引擎的算法研究和改善以及网页信息与信息的提取,提出了网页信噪比的概念并努力推广搜索引擎技术的平民化。 参与并设计了[博索 booso.com] 搜索引擎、新闻搜索引擎、博客搜索引擎等
我的中文Blog::六翼的天使
最近发表
Google‘s BigTable(1)
搜索引擎反spam(5)
垂直搜索(8)
RSS网络爬虫的时间规则(4)
垃圾邮件的防止(8)
迟到(0)
关于搜索引擎研究沙龙的公告(8)
相关搜索(2)
招聘:.net ,Linux 系统管理员(3)
搜索引擎战略大会(8)
集中/分布式搜索引擎的4种设计方案(6)
博客动力测试版上线(4)
Google 要通吃么?(7)
上海,中文网志年会(1)
博客搜索和博客联播发布(16)
垂直与水平(8)
Google的启示(12)
google talk in Gaim:开源的魅力(15)
博客手拉手(4)
搜索引擎的缓存机制(8)
搜索引擎研究::Blog of Sear[5]
车东 Che, Dong[4]
本周搜索引擎沙龙讨论主题:Misc搜索引[2]
Bloglines | Log In[1]
Google[1]
车东 Che, Dong[1]
http://www.gougou.co[1]
http://www.wespoke.c[1]
Find out who linked to you. -Booso.com
_xyz