垂直搜索引擎开发全过程[垂直搜索,Lucene相关]

来源:百度文库 编辑:神马文学网 时间:2024/04/27 23:24:36
 电讯业营收软件菜单图[JPG10张]
摘要:电讯业营收软件菜单图[JPG10张]    ——点击此处阅读全文
发表于 @2007年08月02日 00:39:00 |评论(0) |
2007年07月12日
  强烈收集意见和建议:试验项目,已经着手规划,欢迎朋友给我意见,诚挚的谢意[原创]
摘要:我想向您请教的问题是: 1. 如果在alibaba上做业务和采购容易吗?效果如何? 2. 如果类似baidu这样通过查询就能得到目标客户和供应商,你认为这种简单方式受欢迎吗? 3. 如果这样的网站存在,你会主动提交自己的产品信息和联络信息上去吗? 4. 你是否认为这样的搜索性质的产品网站没有必要? 5. 如果可以,请给我一些其它的参考意见也行。     ——点击此处阅读全文
发表于 @2007年07月12日 18:05:00 |评论(1) |
2007年07月05日
  三岁小孩开发搜索引擎,搜索引擎白热化[原创]
摘要:我现在的想法是做一个垂直的搜索引擎,名字叫>。将"黄页号码","企业与产品“信息进行整合。 具体思路是: 1.通过垂直搜索方式,从全世界的黄页类,商务类网站检索,抓取”黄页信息"和产品信息。 背景:由于公司或工厂现在面临很多电讯类供应商,他们的电话号码经常更换,现在的黄页(国内的最大为中国电讯和网通黄页),最大的缺点是不准确(客户更换造成)和更新慢(数量庞大的关系,还有电话号码过户和变更的原因)。 2.对公司级别,工厂级别的企业提供类聚的相关信息,其它的只提供电话号码。 类聚的意思就是说现在的黄页类网站只提供该企业的地址,电话,联系人,邮编。而无法提供其它信息。 而通常寻找一个供应商都是从产品或某种服务需求开始的,比如找配件或OEM代工,或直接购买其成品来做贸易。最开始都是比较模糊的意识。     ——点击此处阅读全文
发表于 @2007年07月05日 16:48:00 |评论(0) |
2007年08月07日
 你的博客为什么会吸引人[原创]
摘要:所以你的blog的原创与转帖文章必了在3:7我觉得是合适的。通常,我们都不是那么容易写出好的文章的,也就是说产量很低的,但我们的思维,需要学习很多,需要参考,既如此,我认为转载的文章达到这个比例是合适的。当然转载需要著名版权和原链接,注明作者署名,注明是转载,并取得作者同意,这个还是要尊重的。更多的,如果你是一个作者,你会从心底很高兴,因为你的文章得到别人评论,赏识,心理还是会很高兴的。这就是现在大家的文章都允许转载。一般的,我们认为,只有转载者大致同意或欣赏原作者的看法,或者文章对转载者本人,或他的群组有用时,他才会乐意转载,因为转载也是一种认可,也是一种宣传。    ——点击此处阅读全文
发表于 @2007年08月07日 17:48:00 |评论(0) |
 开发自己的搜索引擎--Lucene 2.0+Heriterx(目录)
摘要:第4章 Lucene搜索 86 4.1 使用IndexSearcher进行搜索 86 4.1.1 初始化IndexSearcher 86 4.1.2 IndexSearcher的最简单使用 86 4.1.3 IndexSearcher的多种search方法 87 4.2 Hits类详解 89 4.2.1 Hits类的公有接口 89 4.2.2 效率分析 90 4.2.3 Hits内部的缓存 93 4.2.4 Hits类的工作原理 95 4.3 对搜索结果的评分 96 4.3.1 文档与词条的向量空间 96 4.3.2 Lucene的文档得分算法 97 4.4 构建各种Lucene内建的Query对象 100 4.4.1 toString:查看原子查询 100 4.4.2 查询重写与权重 101     ——点击此处阅读全文
发表于 @2007年08月07日 06:42:00 |评论(0) |
 Google AdSense收入排行榜
摘要:据华盛顿邮报、纽约时报、雅虎及其它媒体综合资料,Google AdSense推出至今已经让很多人取得了丰厚的收入,而全球Google AdSense发布者中有8位的收入明显超过了其他人,以下是这些发布者的排名。    ——点击此处阅读全文
发表于 @2007年08月07日 04:44:00 |评论(0) |
2007年08月06日
 垂直搜索前途与命运的问题--复:爱游泳的鱼[原创]
摘要:即使google作了机票,生活类垂直搜索,但它仍然不可能花大力气来完善和改进。因为垂直的层面和切法实在太多,垂直搜索的做法和处理的繁杂使得平面搜索不可能随便抽调几个人就可以跟一个公司,一个团队,和一门心思来作某个层面的人相比。李彦宏说过,搜索引擎之所谓失败,就是心思不纯,心有旁骛。google现在是可以连NC也作,电子表格也作,甚至于手机也作,但我们看到,从企业管理角度讲,它现在的确是在走一段发展的上升陡线,还远远没到企业发展的平缓期。到平缓期时,机构庞大,产品众多,业务受到竞争者打压,市场过度竞争,市场饱和,股价低迷,如果真到这个阶段,必然会精简人力,调整产品线,紧缩开支,甚至裁撤部分。所以我本人对google的追捧者,fans的言论都是置之不理的。我想看问题应该不要信神话,应该分析事务的规律,实事求是的看待问题,看待新公司。用QQ PK MSN来反证我想是合适的。     ——点击此处阅读全文
发表于 @2007年08月06日 14:04:00 |评论(0) |
2007年08月05日
 从LiveJournal后台发展看大规模网站性能优化方法(推荐:有图示)
摘要:问题发现了,开始考虑如何解决。现在要做的就是把不同用户的数据分布到不同的服务器上进行存储,以实现数据的分布式存储,让每台机器只为相对固定的用户服务,以实现平行的架构和良好的可扩展性。为了实现用户分组,我们需要为每一个用户分配一个组标记,用于标记此用户的数据存放在哪一组数据库服务器中。每组数据库由一个master及几个slave组成,并且slave的数量在2-3台,以实现系统资源的最合理分配,既保证数据读操作分布,又避免数据过度冗余以及同步操作对系统资源的过度消耗。     ——点击此处阅读全文
发表于 @2007年08月05日 01:35:00 |评论(0) |
2007年08月04日
 垂直搜索引擎开发全过程[原创]
摘要:先在三五台电脑上试验你的模型,可通过有固定IP的地方挂一台电脑当服务器,或者托管一台电脑。在流量没有起来之前,你最多把它当一个试验品,不要冒然出动,最开始你的模型无法达到同类产品的水平,问题很多,比如蜘蛛当机,数据抓取不到,逻辑有矛盾,或者设计有重大缺陷。测试期间,你最好把在线服务器数量定在一台,不要太多,资金方面你无法承受,也是不必要的。因为你还没有访问者,最多就是几个熟人来测试。这个过程反复改进,也许半年,也许一年,也许两年。从单一的技术层面讲,抛开平面搜索的海量和高并发查询这两个因素,垂直搜索的技术复杂性和处理的步骤的繁杂不会低于平面搜索。因为垂直搜索面对更具体的运用,不是处理单一网页一种形式,是多维和多逻辑的。而且资料会准确到逻辑关系式的相等。    ——点击此处阅读全文
发表于 @2007年08月04日 14:42:00 |评论(0) |
2007年08月03日
 垂直搜索引擎蜘蛛的基本解决方案(编程实例:所以推荐)
摘要:作者用编程实例说明了一下问题:值得一看。 1、垂直搜索引擎的定义 2、蜘蛛的主要任务 2.1 检索器 2.2 页面获取 2.3 页面解析 2.4 页面JS解析 3 信息抽取 3.1 列表页面的处理 3.2 详细页面的处理     ——点击此处阅读全文
发表于 @2007年08月03日 23:41:00 |评论(0) |
 搜索启示录—关于垂直搜索的探讨(爱游泳的鱼/sina‘s blog)
摘要:这是和BlueBear的聊天记录,是我们在探讨垂直搜索的时候的记录,当然内容也有了些延伸,令我很爽的是和BlueBear的观点很多时候还很一致,嘿嘿! 垂直搜索相关。。引者注    ——点击此处阅读全文
发表于 @2007年08月03日 22:47:00 |评论(0) |
 知识检索的两种方式(超级有意思:通用搜索引擎[初筛-发现]和垂直搜索引擎[单一层面]+定向搜索[精准])
摘要://转载评论:我想未来搜索引擎中,平面搜索主要满足生活热点和普通搜索,而垂直搜索作某个行业,某些层面(不同的剖面都可以叫垂直),还得加上专用搜索(或者叫精准搜索),在我构想得概念里,可能应该有种叫:中国出版物和文献专业检索数据库 这样的搜索才适合专业人士,学者专家使用。 //关于keyword.在好的分词技术,新词发现技术,也是基于统计学的。比如说1000篇文章里同时出现了一个重复出现的文字块,这个文字小块可能就是派生词。比如"地球人都知道"这句广告词,这就是实例。如果很专业,特别是有些根本还未为大家接受,或者说还在论文阶段的词,可能无法收录,也会造成无法收录。比如”长尾“,在这个理论未发布前,这就不是一个词。搜索引擎也是在这个词(或字块)出现后的一段时间,通过统计分析发现这个可能的新词的。然后可能是经过人工再确认,才会参与切词的。大家才能搜索得到。    ——点击此处阅读全文
发表于 @2007年08月03日 22:34:00 |评论(0) |
 搜索技术开发人员:工作在中搜!(转载)
摘要:当我刚进中搜,看到架构组的各个同事是如何编程的时候,我的嘴巴张了一个星期! 头一个星期我的嘴巴是成O型看着他们编程的! 直到那个时候,我才直到,我以前最喜欢的C,C++,我在这上边的编程水平充其量是个刚毕业的!C原来是这么用!数据结构和算法原来是这么用!性能原来是这么省!1T的数据原来是这么处理!架构原来是这样设计!搜索引擎原来是这个样子! 在中搜的前三个月可能是我水平拔高最快的三个月了!基本每一个星期六,星期天我都是在公司度过的!看着前辈们的代码,兴奋啊!    ——点击此处阅读全文
发表于 @2007年08月03日 22:07:00 |评论(1) |
 搜索技术开发人员:九城关贸,雅蜂经历(转载)
摘要:两天时间,连个交接工作的时间都不够,意思已经特别的明显:这一块的将近一年的成果都不要了。为什么这么说那。从一个软件从业者的经验看,如果一个人走的时候没有交接工作,那么他负责的那一块的东西拾起来特别困难。 这是现阶段的大环境决定的。更何况这种的整个裁员!说是把工作交接给SEC部门,我估计,我们做的成果能够保留下来的概率很小。不说别的,单说搜索,这是我们7个人半年多的汗水的结晶!说放弃就放弃了!真是,有钱!这个产品基本上就可以上线了啊!可惜!比原来的单纯按照lucene来的在各个方面好多了!放弃!一夜回到解放前!    ——点击此处阅读全文
发表于 @2007年08月03日 22:03:00 |评论(0) |
 网站相争 搜索得利:诙谐地说,门户网站已经沦为内容打工者(转载)
摘要:依照如此分析,门户网站大有被悬空的趋势。上不着天,下不着地。而机构又如此庞大。但检索只是纯技术方式在工作,与内容提供者还是互为补充,相依为命的吧。只是搜索把持了鼠标,眼球,渠道。这对门户网站来说,实在可恶。试想,如果没有搜索,估计80%的人会从sina,yahoo,sohu的主页开始。想想,也是这些门户极大的悲哀,从经济获利还看是这样。    ——点击此处阅读全文
发表于 @2007年08月03日 21:37:00 |评论(0) |
 Ask.com值得借鉴的新思路(转载)
摘要:左边成为相关搜索,推荐搜索,同时根据搜索词在左边提供扩展搜索内容,在这一点上我同时比较喜欢新推出的搜索系统上的词语翻译功能,关于翻译我曾经在搜索引擎的翻译的增补思想里提过(应该说在线翻译工具实用价值还是非常大的,单从一些翻译软件和网站的合作增加的词量就可以看得出来,然而在使用上,常常不是尽如人意。抛开因为某个单词自己弄不懂需要上网查询的人以外。    ——点击此处阅读全文
发表于 @2007年08月03日 21:11:00 |评论(0) |
 一个开发人员谈他开发垂直搜索的感悟(转载)(推荐)
摘要:03年和04年,分别在国内做过三个垂直搜索的网站第一个是8848.com,copy对象是shopping.com 当时是兼职给他们打工做的,每个月干10天,给8000¥,做了3个月2004.1.1上线运营我做的时候就不认为这个方向有前途,该网站实质运营了一年,内部即宣告失败 ...    ——点击此处阅读全文
发表于 @2007年08月03日 20:26:00 |评论(0) |
 垂直搜索引擎的未来和出路(转载)
摘要:大概可以对上面提出的问题给出我的解答了,一个垂直搜索引擎,总体上存在三种出路:一、只做技术,不做垂直门户,向垂直门户出售技术服务。二、被资金实力更雄厚,互联网资源更丰富的大型门户网站廉价收购;三、自己运营一个或多个垂直门户网站,击败缺乏自有技术支撑的同类垂直门户,然后独立上市或高价出售。     ——点击此处阅读全文
发表于 @2007年08月03日 19:43:00 |评论(0) |
 《撬动地球的Google》——Google的第一桶金(转载)
摘要:瓦迪建议他们不要继续在免费搜索结果上方发布广告,而是将Google搜索结果页面用一条垂直线分开,2/3用来发布免费搜索结果,1/3置于右边,发布以文本为基础的广告。在同许多人探讨过这个意见之后,布林和佩奇采纳了这个建议。这个做法大幅增加了Google可用于发布广告的空间。它也增加了计算机用户点击广告的几率。他们最初担心这样的改变会使搜索结果的质量看起来降低了。不过,瓦迪这位在商业、财经以及技术领域摸爬滚打多年的老手使他们相信,只要免费搜索结果同广告是明确区分的,搜索结果的完整性就能够保证,而他们的网页看起来就还是干净的,收入则会以更快的速度流入Google。     ——点击此处阅读全文
发表于 @2007年08月03日 19:34:00 |评论(0) |
 百度渐堕利益深渊 关键字广告亟待规范(转载)
摘要:如果将搜索竞价排名广告由常规的右边显示逐渐向左边自然信息排名显示领域扩展看做是一种行业趋势的话,那么笔者认为至少应该有一些底线性行规:首先,广告链接数量一定要少,尤其是不能在首页显示信息的左边与右边都是显示广告,那么这就失去了区分的必要;其次,广告链接一定要置顶,一定要用特殊的背景颜色或字体给予标注,从而让网民将其与自然排序的信息区分开来;最后,搜索引擎厂商对于左边显示的竞价广告厂商的资质必须进行实质审核,以避免误捣或欺诈消费者事件的产生。    ——点击此处阅读全文
发表于 @2007年08月03日 11:10:00 |评论(0) |
 关键字广告:百度雅虎Google已三分天下(转载)
摘要:作为人们进入互联网的主要入口,搜索引擎承担着重要的社会职责,在国外,雅虎、Google、MSN养活了一大批Web2.0网站,网站站长做好网站获得较高的排名,通过来自搜索引擎的流量获得广告收入;在国内,雅虎搜索倡导关键字广告与搜索结果相区分的方式,优秀的个人网站,将由于用户的喜爱而获得较高的排名,获得流量,进而获得广告收入,这将在一定程度上促进、整合良性互联网生态的构建。     ——点击此处阅读全文
发表于 @2007年08月03日 10:57:00 |评论(0) |
 AdSense 收入 = 广告展示次数 x 点击率 x 点击单价 x 智能定价因素(转载)
摘要:1. AdSense 收入 = 广告展示次数 x 点击率 x 点击单价 x 智能定价因素(Smart Price) 2. 广告展示次数基于你的网站流量,该项代表Adsense广告展示次数。(译注:废话-。-!) 3. 点击率为广告被点击次数÷广告展示次数,基本范围为0.1%-30%,大多数为1%-10%(译注:中文广告偏低,大陆地区平均点击率约0.2%)。总共93条建议...     ——点击此处阅读全文
发表于 @2007年08月03日 10:51:00 |评论(0) |
2007年08月02日
 Facebook如何击溃Myspace,Yahoo!和Google?(转载)
摘要:在Facebook允许外部应用程序之前,就已有成百万的用户基本知悉了页面的内部秘密。一个典型的Facebook人每天会花上数小时以发送信息,写日志或博客条目,还有上传照片,以及和那些同样喜欢Decemberists(一支Indie摇滚乐队——译注)的菜鸟女孩进行有趣的交流。Facebook平台不过是扩展了这个交流世界。(据《华尔街时报》报道,从初创到现在,Facebook的主流用户人数已经跃升到了2400万到2700万的水平。)现在你可以查看本地的天气状况,或在线饲养一只虚拟宠物兔,也可以知晓你的朋友们都在听哪些音乐。    ——点击此处阅读全文
发表于 @2007年08月02日 18:33:00 |评论(0) |
 扎克伯格:不想出售公司 Facebook不是社交网络(搜狐IT)
摘要:扎克伯格:那天我读了苹果乔布斯的一篇访谈,他在里边说:“如果要做成一些事,你必须对它十分、十分热爱,否则就没有任何意义。” 建设Facebook需要付出很多很多,如果你不投入,如果你觉得不是很重要,那是不可思议的。Facebook给我乐趣的一个原因是,我们已经有了一个聪明的团队,他们来自不同的背景,有着不同的经验,以不同的方式思考。许多人老是把我们放在一个桶里:什么时候出售呢?你们要干什么?有什么发展战略?许多人更关心我们为何要招募一个股票专员。然而对我,或者是对于我周围的团队,他们并不是很感兴趣。我们所聚焦的事情正是建设Facebook。    ——点击此处阅读全文
发表于 @2007年08月02日 18:13:00 |评论(0) |
 100个非主流搜索引擎(Charles)
摘要:和其它的互联网产品一样,搜索引擎世界也是角色众多,只不过它们都活在Google、Yahoo!、微软Live及Ask四大巨头的背影下,并不显眼。我相信绝大多数的用户日常所使用的互联网搜索引擎应该就是这四个中的一个或多个。尽管几乎每个月都有打着"better than Google"的旗号的新搜索引擎问世,但近几年以来,能真正对四大搜索引擎造成威胁的并不多见。SEO专家Charles从众多的非主流搜索引擎里选出了100个,把它们当作后备搜索引擎而向大家推荐。    ——点击此处阅读全文
发表于 @2007年08月02日 16:52:00 |评论(0) |
2007年08月01日
 商业搜索:商业搜索对比分析(转载)
摘要:商业搜索对比分析以现状来看综合技术实力仅有bseek和b2b8具有可比性,但由于anyso的爬虫和实时索引的底层技术优势,所以在数据实时性和准确性上优势明显,至少领先半年。经两三个月的参数以数据量的扩充,以及前台功能完善,就可以超过所有对手。    ——点击此处阅读全文
发表于 @2007年08月01日 22:11:00 |评论(0) |
 雅虎商业搜索:注水肉而已(作者:江南SKY)(加评论)
摘要:相信大家差不多明白了吧?雅虎商业搜索与雅虎搜索结果非常相似,我也试着搜索“橘子”、“电脑”等关键字,搜索结果除了广告,排列的顺序几乎完全一样(不同的就是广告位置而已),雅虎的商业搜索的价值仅仅体现在了广告上而已,并没有任何“商业信息搜索引擎”的价值。    ——点击此处阅读全文
发表于 @2007年08月01日 21:45:00 |评论(0) |
2007年07月31日
 自己的搜索引擎:框架Spring+Hibernate+Struts2+FreeMarker+DWR+Lucene(转载)
摘要:好前一段时间,偶在Blog里面也说了,可以考虑Lucene,这不这几天重新拿起了书本来学习,今天在看书的过程中,书中提到Compass,遂下载了.不过还没有看,等慢慢掌握了Lucene再说.不过在本地建立索引有一个比较麻烦的事情就是双机,因为磁盘共享不适合现有系统的双机方案,难道把索引的东西放在数据库里面?或者还有别的存储?(还没有想到)     ——点击此处阅读全文
发表于 @2007年07月31日 20:28:00 |评论(0) |
2007年07月30日
 值得回味的文章:2004非主流搜索经济不完全盘点(转载)
摘要:所有人都看到了搜索市场的未来潜力和经济利益,很多人已经开始在搜索市场试水。搜索经济绝不仅仅指搜索引擎带来的商业机会,更多的是指搜索服务所可能产生的多种经济利益。作为后进者,如果你想发展成一个带来经济收益的“非主流搜索服务”,而不是做一个超越google或baidu的搜索引擎,那么这里有5条原则可供参考。 1.选择主流搜索引擎做不了、或不想做、或看不起的搜索服务。 2.明确定位你的用户并更好的满足他们的需求。 3.创新是最低成本且最高效的利器。 4.一定的技术支持。 5.较成熟的商业模式和阶段目标。    ——点击此处阅读全文
发表于 @2007年07月30日 20:14:00 |评论(0) |
 百度黄页:不可回避的盲区(来源:百当软件园)
摘要:然而,当百度黄页真的推出来了,它并没有如期地赢得用户的好评。有网民在自己的博客日志中这样记录下使用百度黄页搜索之后的感受:"结果只有两个字--‘失望‘,如果非要在这两个字前面加上一个修饰的话,那就是‘非常失望‘。"    ——点击此处阅读全文
发表于 @2007年07月30日 20:06:00 |评论(0) |