城市胡同: 搜索 Archives

来源:百度文库 编辑:神马文学网 时间:2024/04/16 22:52:53
加州大学伯克利分校图书馆的搜索教程 字串4
首页:http://www.lib.berkeley.edu/Teac ... ernet/FindInfo.html
基本策略:http://www.lib.berkeley.edu/Teac ... net/Strategies.html
―――很多著名大学图书馆都有做教搜索的主页,加州伯克利过去半年进步很大,在网上所有免费搜索教程中,已可稳居第一。特点是偏学术化,学生及专业人士更适用。对搜索基本策略的把握很出色,但对搜索引擎的的了解与使用不够。
《Searcher》杂志 http://www.infotoday.com/searcher/
《Online》杂志http://www.onlinemag.net/default.htm
―――互联网上,最优秀的搜索者、最新最高明的搜索经验在searcher杂志和online杂志。唯一的问题是它们是收费刊物,每期只提供少量文章的全文供免费阅读,但这已够你受用的。
Webmasterworld http://www.webmasterworld.com/
―――是互联网上关于搜索引擎的最好论坛。虽然主要讨论搜索引擎注册和排名,但它对搜索引擎的变化反应之快,对搜索引擎的细节挖掘之深,如云高手对搜索引擎的见解之精,"使人们对搜索引擎的认识达到了一种新的高度"――Pandia语。
Searchtools http://www.searchtools.com/
――― 互联网上最好的搜索产品研究网站,内容涉及搜索引擎技术和产品相关的新闻、评论、会议、调查、比较、选购、原理、源码、背景、设计、建议。这里的"搜索产品"定义比较广义,这里没有yahoo或google的地位,搜索者就不用去了,留给制作者、购买者、研究者吧。
Search Engine Conference http://www.infonortics.com/searchengines/
―――搜索引擎工业界的年度盛会。如果你要了解各搜索引擎和各大搜索引擎公司的技术动向,没有比这更好的地方了。
Researchindex http://citeseer.nj.nec.com/cs
―――收录了互联网上最丰富的搜索引擎技术论文。
Search Engine Watch http://searchenginewatch.com/
《Search Day》http://searchenginewatch.com/ searchday/archives.html
―――是互联网上关于搜索引擎的最大网站,偏搜索引擎新闻和注册排名。网站过去的积累适合了解搜索引擎的过去,杰出杂志《Search Day》适合了解搜索引擎的现在。
―――前面提到的都是英文网站,如果你需要中文的,那么,我推荐搜索论坛、搜索研究院、中文搜索引擎指南,搜索论坛有最多的高手,搜索研究院有最纯粹最高明的搜索技巧、中文搜索引擎指南有最全的资讯。
htpp//cn.swordofsearch.com 搜索利剑,搜索营销,垂直搜索研究
Posted by kevinwu 05:01 PM |全文 |评论 (0) |搜索(33)
March 26, 2007
The Lucene search engine: Powerful, flexible, and free
Easily add searching to your application with Lucene
By Brian Goetz, JavaWorld.com, 09/15/00
Don‘t let the low version number -- 0.04 as of August 2000 -- fool you. The Lucene search engine is a robust, powerful, and flexible search toolkit, ready to tackle many common search problems. And since it‘s now available under the more flexible LGPL open source license, the price (free!) is right too.
继续阅读 "The Lucene search engine: Powerful, flexible, and free" ?
Posted by kevinwu 09:26 PM |全文 |评论 (0) |JAVA(124) , |搜索(33)
GOOGLE搜索引擎剖析
撰文/Sergey Brin.   Lawrence Page     翻译/万思
文章来自《程序员》
英文原文可以在这里找到http://dev.csdn.net/develop/article/12/12657.shtm
关键字:WWW   搜索引擎   网络爬虫    PageRank     Google
作为一种功能强大的搜索引擎,Googic的背后似乎隐藏着巨大的奥秘,本文是Googic的两位创始人在1998年国际互联网大会上发表的论文,通过对Google进行完整地剖析,帮助读者理解Google的实现过程。
继续阅读 "GOOGLE搜索引擎剖析" ?
Posted by kevinwu 05:57 PM |全文 |评论 (0) |GOOGLE(63) , |搜索(33)
介绍了Google搜索原理的论文(二)
4.3抓网页运行
网络爬行机器人是一项具有挑战性的任务。执行的性能和可靠性甚至更重要,还有一些社会焦点。网络爬行是一项非常薄弱的应用,它需要成百上千的web服务器 和各种域名服务器的参与,这些服务器不是我们系统所能控制的。为了覆盖几十亿的网页,Google拥有快速的分布式网络爬行系统。一个URL服务器给若干 个网络爬行机器人(我们采用3个)提供URL列表。URL服务器和网络爬行机器人都是用Python实现的。每个网络爬行机器人可以同时打开300个链 接。抓取网页必须足够快。最快时,用4个网络爬行机器人每秒可以爬行100个网页。速率达每秒600K。执行的重点是找DNS。每个网络爬行机器人有它自 己的DNS cache,所以它不必每个网页都查DNS。每一百个连接都有几种不同的状态:查DNS,连接主机,发送请求,接收回答。这些因素使网络爬行机器人成为系 统比较复杂的部分。它用异步IO处理事件,若干请求队列从一个网站到另一个网站不停的抓取网页。运行一个链接到500多万台服务器的网页爬行机器人,产生 1千多万登陆口,导致了大量的Email和电话。因为网民众多,总有些人不知道网络爬行机器人是何物,这是他们看到的第一个网络爬行机器人。几乎每天我们 都会收到这样的Email“哦,你从我们的网站看了太多的网页,你想干什么?”还有一些人不知道网络搜索机器人避免协议(the robots exclusion protocol),以为他们的网页上写着“版权所有,勿被索引”的字样就会被保护不被索引,不必说,这样的话很难被web crawler理解。因为数据量如此之大,还会遇到一些意想不到的事情。例如,我们的系统曾经企图抓一个在线游戏,结果抓到了游戏中的大量垃圾信息。解决 这个问题很简单。但是我们下载了几千万网页后才发现了这个问题。因为网页和服务器的种类繁多,实际上不在大部分Internet上运行它就测试一个网页爬 行机器人是不可能。总是有几百个隐含的问题发生在整个web的一个网页上,导致网络爬行机器人崩溃,或者更糟,导致不可预测的不正确的行为。能够访问大部 分Internet的系统必须精力充沛并精心测试过。由于象crawler这样大型复杂的系统总是产生这样那样的问题,因此花费一些资源读这些 Email,当问题发生时解决它,是有必要的。
继续阅读 "介绍了Google搜索原理的论文(二)" ?
Posted by kevinwu 05:55 PM |全文 |评论 (0) |GOOGLE(63) , |搜索(33)
介绍了Google搜索原理的论文(一)
《The Anatomy of a Large-Scale Hypertextual Web Search Engine》
这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文 和超连接的数据库至少包含24000000个网页。我们可以从http://google.stanford.edu/ 下载。
设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜 索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。
继续阅读 "介绍了Google搜索原理的论文(一)" ?
Posted by kevinwu 05:53 PM |全文 |评论 (0) |GOOGLE(63) , |搜索(33)
March 16, 2007
不仅要流量,还有客户转化率
目前国内的SEO过多重视具体的排名技术研究,而忽视了营销知识的学习。石头写本文的目的,是通过一个小的例子来抛砖引玉,让更多的seo不仅关注技术,也关注基本的营销理论和效果评估分析方法。
最 近有一客户咨询,他希望能将他的站点流量翻一倍。进而提升站点的产品销售业绩。该客户是一个小行业细分的某一类产品销售,他的大部分关键词在各大搜索引擎 本身已经就在钱三名了。给我看了他的流量统计后,我就提问:“你有统计过你站点的客户转化率吗 ?”对方回答说不知道。他们根本不知道到底站点的访问量跟站点后台新增客户数量有什么关系,比例是多少。
所以我就再问:“既然如此,你怎么就判断你提升业绩目前的方法就是提升站点流量呢?也许通过搜索引擎找你这类产品的整个次数本身就很少,你的站点流量提升已经接近饱和了呢?”
以上举的就是一个小小的例子,想说明的是,对于一些销售具体产品或服务的站点,在对站点实施seo/sem,一定要简单地判断:
a. 目前整个行业大致的搜索量的范围和增长潜力 。
b.目前站点的搜索流量是多少。
c. 目前的客户转化率是多少。而整个行业的普遍转化率大概又是多少?
如 果转化率达到了正常水平,而通过关键词工具等发现搜索流量增长有巨大潜力,那么这个时候重点才是进一步提升流量。这种情况也是大部分站点遇到的情况。还有 一种情况是,站点的搜索流量在同行来说,已经不错。而转化率过低(比如低于3%),这个时候,通过修改站点的产品描述,购买流程,完善在线服务功能等提升 转化率,则比提升流量的效果更为明显!
当然上面这些还是比较简单的,如果更复杂的,还需要计算出每个客户的投入成本和平均收益。进而能衡量那一种营销方法更有效。
推荐:《站点转化率基础知识》  英文版,关于客户转化率等有比较详细的阐述。
Posted by kevinwu 12:17 AM |全文 |评论 (0) |搜索(33)
March 11, 2007
SEO FAQ
Q:到底使用那一個會比較好,連字型 ( - ),還是底線 ( _ )?
A: Google將連字型 ( - )當作空格。而底線 ( _ )則否。
因此,當您輸入搜尋引擎關鍵字“search_engine_optimization” 查尋時
搜尋引擎不會顯示“search engine optimization” 在搜尋結果頁( SERP)。
但是“search-engine-optimization” 卻會顯示。
因此結論是使用連字型 (- )會比較適當。
這個規則似乎適用於在目錄、檔案名稱和網域名稱。
继续阅读 "SEO FAQ" ?
Posted by kevinwu 10:23 AM |全文 |评论 (0) |搜索(33)
March 08, 2007
Search Engine Optimization for osCommerce Online Shops
Search engine optimisation is a form of marketing. It is the process of making a site or individual web pages relevant to particular keyword searches performed on search engines. In short, the better optimised the web page is, the higher the ranking it will achieve in search engine results.
Where should a Shop Owner start: Try to approach search engine optimisation with a plan. How would you search for your products? Which search engine would you use? Ask friends, colleagues and your current customers. Then you need to identify about 5 to 10 words and phrases that people are most likely to use in a search for your site. These are your keywords and key phrases. This might apply to your site as a whole or an individual page showing a particular product.
继续阅读 "Search Engine Optimization for osCommerce Online Shops" ?
Posted by kevinwu 09:54 PM |全文 |评论 (0) |搜索(33)
November 16, 2006
Google热门关键词
http://www.google.com/intl/en/press/intl-zeitgeist.html#cn
Posted by kevinwu 03:53 PM |全文 |评论 (0) |搜索(33)
November 11, 2006
What‘s an SEO?
What‘s an SEO? Does Google recommend working with companies that offer to make my site Google-friendly?
Search Engine Optimizers
SEO is an abbreviation for "search engine optimizer." Many SEOs provide useful services for website owners, from writing copy to giving advice on site architecture and helping to find relevant directories to which a site can be submitted. However, a few unethical SEOs have given the industry a black eye through their overly aggressive marketing efforts and their attempts to unfairly manipulate search engine results.