垂直搜索开发,博客推广,电讯营业分析,SQL导入方法 文章列表

来源:百度文库 编辑:神马文学网 时间:2024/04/28 04:25:49
 电话号码的节点标识系统[原创/草稿]
摘要:今天接到客户需求要作一个电话号码的节点标识系统,来快速查找节点并排除故障,搜了几下没找到资料,就自己写了个草稿。 1. 关于电话号码节点查询子系统通讯实体分为:主干信息,机房信息,配线箱信息,联接电缆信息,用户入户信息注意:光纤,xDSL,等同步考虑。 ...     ——点击此处阅读全文
发表于 @2007年08月17日 00:08:00 |评论(0) |
 搜索引擎开发,垂直搜索开发:问题探讨[原创]
摘要:搜索引擎开发,垂直搜索开发:问题探讨 聊天纪录。内容很长。    ——点击此处阅读全文
发表于 @2007年08月17日 00:02:00 |评论(0) |
2007年08月16日
 推荐站点:今天在看我的文章被转载情况,偶然得到该站,不错--人工智能,数据挖掘,数据库(可能是人工收录)
摘要:推荐站点:今天在看我的文章被转载情况,偶然得到该站,不错--人工智能,数据挖掘,数据库(可能是人工收录)    ——点击此处阅读全文
发表于 @2007年08月16日 02:21:00 |评论(0) |
 中国电讯,电讯营运商:客户流失的深层次原因分析[原创]
摘要:而我们主要的固话部分的主导客户是:企事业,工厂,公司,商铺,个人家庭。一般而言,虽然在手机和移动座机普遍存在的情况下,使得固话部分实际消费额连年下降,而电话号码作为一个单位,个人家庭的标致性还是没有改变。一般的家庭必须得有一部电话,虽然人人都跨着手机。我们可以看出,在企事业,工厂,公司,商铺这四种实体中,日常业务还是主要以固话为主。手机只是个辅助。因为手机目前还只是个人随身使用,没出现固定使用的移动座机概念(在农村比较普遍,电讯和移动的无线座机都存在)。而手机由于使用话费比较高,商业实体普遍使用限制消费额或业务员包月等形式限制个人滥用手机通话,所以除部分出差在外必须使用外,他们会尽可能使用固定电话。所以这些手机消费额造成的整个实体的话费降低值,也应该排除在分析之外。    ——点击此处阅读全文
发表于 @2007年08月16日 01:50:00 |评论(0) |
2007年08月15日
 垂直搜索:主题搜索理论(转)
摘要:利用计算机软件代替人工将资源采集到本地,形成一个数据库,再经过人工评价,将评价结果返回用户.半自动方式的工作流程是:用户交互-----选择恰当的关键词----自动采集相关资源----形成主题资源数据库-----资源建设者对结果评价选择-----结果反馈给用户-----结束任务或修正检索式以开始新一轮的采集.与手工方式一样,半自动方式也同样不适合大规模的资源建设.     ——点击此处阅读全文
发表于 @2007年08月15日 01:21:00 |评论(0) |
2007年08月14日
 基于JAVA技术的搜索引擎的研究与实现(转载)
摘要:网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。    ——点击此处阅读全文
发表于 @2007年08月14日 03:09:00 |评论(0) |
 推荐一个数据挖掘讨论组:沿着里面的文章你能找到更多的知识点
摘要:数据挖掘综述 数据挖掘方法论 数据挖掘技术和算法 数据挖掘的一个完整过程 数据挖掘计划的例子     ——点击此处阅读全文
发表于 @2007年08月14日 00:08:00 |评论(0) |
2007年08月13日
 Web搜索引擎设计和实现分析(转载)
摘要:这里我们主要来介绍一个具有基本功能的Web引擎的实现。本文,我们以类C 语言的形式来描述Web引擎如何采集网页并存放到数据库中的过程。同时描述了如何根据用户输入的关键字查询数据库并得到相关网页的过程。     ——点击此处阅读全文
发表于 @2007年08月13日 23:39:00 |评论(0) |
 网页模糊归类算法的应用与实现(转载)
摘要:在归类过程中,采用三级模糊综合评判。一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集(词性)包括:名词, 动词, 形容词, 副词, 介词, 连词, 助词, 数字, 符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0), V2(不太可能属于0.25), V3(可能属于0.5), V4(很可能属于0.75), V5(属于1)}。     ——点击此处阅读全文
发表于 @2007年08月13日 23:28:00 |评论(0) |
 网站防止数据被采集的十点黄金建议(转载)
摘要:很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。 相同点:a. 两者都需要直接抓取到网页源码才能有效工作,b. 两者单位时间内会多次大量抓取被访问的网站内容;c. 宏观上来讲两者IP都会变动;d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。    ——点击此处阅读全文
发表于 @2007年08月13日 22:37:00 |评论(1) |
 Spider技术:设计Spider时要解决的几个问题(渡渡鸟工作室)
摘要:礼貌的抓取具体表现在:网站不让抓取的网页就不要抓取,控制好访问网站的频率,spider的抓取行为不能影响正常用户的访问。因此spider在抓取时要: (1)限制单位时间内对一个网站抓取网页的数量。 (2)限制同时对同一个网站抓取的线程/进程的数量。(3)控制对同一个网站抓取的时间间隔。(4)遵循robots、META Tag 、sitemap.htm协议 ,对不允许访问的目录不访问。(5)在抓取网页的时发送的请求中,通过User-agent、Form字段,标识spider的身份、联系Email、spdier注意事项页面URL。    ——点击此处阅读全文
发表于 @2007年08月13日 22:10:00 |评论(0) |
 SQL,SQL2000:为何将DTS包转成作业时就会出错?(转载)
摘要:为什么DTS包成了作业以后就不能正确运行了呢?我们从企业管理器中运行的时候一切正常,但我们把它当成一个作业的时候就不行了。因为它运行不同的环境里,这个环境指的是security context,安全环境或安全上下文。作为程序员你可以在一台工作站前运行程序,那DTS所处的环境就是你面前机器的环境,但如果作为作业,它始终运行在服务器上。    ——点击此处阅读全文
发表于 @2007年08月13日 17:58:00 |评论(0) |
2007年08月11日
 商业战略分析:九城关贸为何裁撤搜索引擎部门[原创]
摘要:我们可以总结一句话:九城关贸不是想作什么惊天动地的大事,所以会让andylin这样的从事搜索开发的精英失望。而且据闪电般裁员来看,基本就是放弃搜索技术了。它是想购买跟自己业务关系最近的出口贸易企业资料,走捷径而步入B2B领域。如果从这些外贸企业的贡献率来讲,猜想如果有10w家注册企业的话,这个交易还是很划算的,简直太划算了。    ——点击此处阅读全文
发表于 @2007年08月11日 19:10:00 |评论(0) |
 网页去重:搜索引擎重复网页的算法(转载)
摘要:这个是北大天网搜索引擎的去重算法(可以参考:《搜索引擎--原理、技术与系统》一书),以上5种算法运行的时候,算法的效果取决于N,就是关键词数目的选取。当然啦,选的数量越多,判断就会越精确,但是谁知而来的计算速度也会减慢下来。所以必须考虑一个计算速度和去重准确率的平衡。据天网试验结果,10个左右关键词最恰当。     ——点击此处阅读全文
发表于 @2007年08月11日 04:11:00 |评论(0) |
 网页去重:搜索引擎重复网页发现技术分析(转载)
摘要:目前这个领域里面很多工作借鉴类似于信息检索的方法来识别相似文档,其本质和SHINGLE等是相同的,都是比较两个文档的重合程度,但是区别是SHINGLE是将若干单词组成片断,粒度比较大,而信息检索类方法其实是用单词作为比较粒度,粒度比较小,粒度越大计算速度越快,而粒度越小计算速度越慢,所以信息检索类方法是不实用的,而且对SHINGLE的改进以及新提出的方法的发展趋势也是粒度越来越大,这样才能解决实际使用中速度的问题。    ——点击此处阅读全文
发表于 @2007年08月11日 03:46:00 |评论(0) |
2007年08月10日
 基于第四层交换技术的负载均衡(转载)
摘要:在发出一个服务请求时,第四层交换机通过判定TCP开始,来识别一次会话的开始。然后它利用复杂的算法来确定处理这个请求的最佳服务器。一旦做出这种决定,交换机就将会话与一个具体的IP地址联系在一起,并用该服务器真正的IP地址来代替服务器上的VIP地址。    ——点击此处阅读全文
发表于 @2007年08月10日 21:47:00 |评论(0) |
 减压分流:谈IDC机房的负载均衡服务(转)
摘要:但是,只对本地服务器(也就是指本机房服务器)进行负载均衡是不够的,大部分需要负载均衡服务的站点并发访问量都较大,这些站点多数都有异地镜像服务器,因此一些更加专业的 IDC 机房采用的负载均衡设备还可以穿透网络路由,进行异地镜像站点之间的负载均衡,这类负载均衡就称为异地负载均衡(Website Load Balancing)。    ——点击此处阅读全文
发表于 @2007年08月10日 21:35:00 |评论(0) |
 用户上网习惯研究系列:网民上网主要都在干些什么?(转载)
摘要:已经工作的网民中,学历在大专以上,月收入大于3000元的网民。这一族群的网民大多是高学历、高收入的事业有成者,其中本科及以上学历的比例达到68%,他们的平均年龄约32岁,有相当一部分人是中国最早接触互联网的精英分子,网络早已成为他们工作和生活中不可或缺的一部分。他们在网上浏览新闻、使用搜索引擎和收发电子邮件的比例都高达70%以上,而其他娱乐类活动如聊天、玩游戏的频率则明显偏低。    ——点击此处阅读全文
发表于 @2007年08月10日 19:13:00 |评论(0) |
 站长必须研究的问题:我们的网站入口流量从何而来----普通人的上网习惯(转载)
摘要:最多人的首页是hao123或者265,网址站好多网民的上网首页首选。虽然网址站多如牛毛,好多网址站推广都是恶意的,但是用的最多的还是前面提到的两家。再大的网站推出的网址站也无法与这两家抗争了。hao123的访问量惊人我曾经听到过这样一句戏言,如果hao123吧新浪和搜狐的排名换换位置,恐怕他们的世界排名也要颠倒一下了。    ——点击此处阅读全文
发表于 @2007年08月10日 19:07:00 |评论(0) |
 说说大型高并发高负载网站的系统架构(转载)
摘要:html静态化也是某些缓存策略使用的手段,对于系统中频繁使用数据库查询但是内容更新很小的应用,可以考虑使用html静态化来实现,比如论坛中论 坛的公用设置信息,这些信息目前的主流论坛都可以进行后台管理并且存储再数据库中,这些信息其实大量被前台程序调用,但是更新频率很小,可以考虑将这部分 内容进行后台更新的时候进行静态化,这样避免了大量的数据库访问请求。    ——点击此处阅读全文
发表于 @2007年08月10日 18:53:00 |评论(0) |
 博客推广:如何提交自己的博客,赢得更多的目标读者的访问(转载)
摘要:快速提高博客访问量的22条军规 44个能够提高博客影响力的方法 九大方法提高博客的影响力(一) 九大方法提高博客的影响力(二) 博客推广的终极方式     ——点击此处阅读全文
发表于 @2007年08月10日 15:45:00 |评论(0) |
2007年08月09日
 商业情报将是未来突显互联网网页挖掘和网页类聚的价值的方向(转载)
摘要:在美国的酒类管理体制中,酒基本上被分成了啤酒、葡萄酒和烈酒三类,而且每种酒的进口或批发都需要专门的许可证或执照。这就给我们带来了很大的麻烦,因为无法确定某一家公司到底是经营葡萄酒还是Vodka,到底是进口商还是批发商,在YellowPage中查询到的最小分类是酒(Liquor),而没有更细的分类。当我们找到美国加州酒类管理中心的网站(www.abc.ca.gov)时,这些问题都迎刃而解了。这里不仅按酒的类别、字母的顺序、不同的地域对每个公司进行了分类,而且对于每个公司的信息都有详尽的记录,包括:公司名称、申请人姓名、地址、许可证的种类、许可证的使用期限、经营历史、电话号码等等,真是一个信息宝库。    ——点击此处阅读全文
发表于 @2007年08月09日 14:12:00 |评论(0) |
 迅雷创业与生存密码(节选自网络)
摘要:迅雷由美国杜克大学毕业生邹胜龙和程浩2003年创办于深圳,原名三代科技。邹胜龙出任CEO,程浩则为COO(首席运营官)。依靠他们独有的P2SP技术以及流行的P2P技术为用户提供下载服务。受到众多互联网用户热烈欢迎,同时却让几乎所有互联网宽带提供商切齿痛恨的所谓BT下载,即据于P2P技术。所谓的P2P下载,简单解释,就是下载不再像传统方式那样只能依赖服务器,内容的传递完全在网络的各个终端机器中进行,它使用户拥有“平等”的地位和功能。用户的PC既是服务器也是客户机,所有用P2P软件联接起来的电脑都做到了这一点,因此,用户所能得到的信息不仅仅来自网络中的服务器,同样也可以来自于其他网友的PC机,PC中所有的信息可以让其他网友共享。    ——点击此处阅读全文
发表于 @2007年08月09日 11:59:00 |评论(0) |
2007年08月08日
 SQL远程数据同步与数据导入的常用方法[原创]
摘要:在大量数据传递过程,我们经常遇到txt文本到table的import和export 。txt既是通用的形式,也常常是系统之间隔离的最好方法。这里我们讲如何实现本地数据库和远程数据库的同步。1. 远程数据自动定时export到FTP上2. 本地安装CuteFTP软件,设置帐号密码,然后设置两个文件夹同步。自然是本地同步于远程。同步规格为“只要文件更新日期比现在的新则覆盖”。3. 计算时间差,即远程文件到出成文本的时间点,下载到本地的时间,然后在本地设置最合适的启动作业时间。    ——点击此处阅读全文
发表于 @2007年08月08日 05:57:00 |评论(0) |
 电讯营业分析报表系统--菜单图示[JPG5张]
摘要:电讯营业分析报表系统,开发时间1年,用户50人,升级越40次。table251张,存储器42个。数据由DTS或insert bulk 与总公司数据库的文件自动同步。JPG5张图    ——点击此处阅读全文
发表于 @2007年08月08日 04:07:00 |评论(0) |
2007年08月07日
 你的博客为什么会吸引人[原创]
摘要:所以你的blog的原创与转帖文章必了在3:7我觉得是合适的。通常,我们都不是那么容易写出好的文章的,也就是说产量很低的,但我们的思维,需要学习很多,需要参考,既如此,我认为转载的文章达到这个比例是合适的。当然转载需要著名版权和原链接,注明作者署名,注明是转载,并取得作者同意,这个还是要尊重的。更多的,如果你是一个作者,你会从心底很高兴,因为你的文章得到别人评论,赏识,心理还是会很高兴的。这就是现在大家的文章都允许转载。一般的,我们认为,只有转载者大致同意或欣赏原作者的看法,或者文章对转载者本人,或他的群组有用时,他才会乐意转载,因为转载也是一种认可,也是一种宣传。    ——点击此处阅读全文
发表于 @2007年08月07日 23:08:00 |评论(0) |