Linux网络连接故障排除(上)

来源:百度文库 编辑:神马文学网 时间:2024/04/19 21:44:11
Linux网络连接故障排除(上)http://www.dnwx.com 2006年8月11日 来源/作者: 网络/不详
--------------------------------------------------------------------------------  一、Linux网络结构特点  由于Linux是在Internet上发展成熟的操作系统,因此,它具有与生俱来的网络功能,特别在Internet和Intranet的功能上有明显优势。但是由于Linux的桌面应用和Windows的差距,除了一些Linux专门实验室之外大多数企业应用Linux系统时:往往是Linux和Windows或Unix等操作系统共存形成异构网络。掌握Linux TCP/IP的网络模型(见图-1所示),掌握OSI网络模型、TCP/IP模型及相关服务对应的层次对于Linux网络故障分析与排除是非常重要的。据统计,Linux网络故障有35%在物理层、25%在数据链路层、10%在网络层、10%在传输层、10%在对话、7%在表示层、3%在应用层。由此可以看出,网络故障通常发生在网络七层模型的下三层,即物理层、链路层和网络层。对应于实际网络也就是使用的网络线缆、连接模块、网卡、交换机、路由器等设备故障。这些故障可能因为硬件的质量或性能、磨损老化、人为误操作、不正确的网络协议设置、管理问题、Linux软件的BUG、系统受到黑客攻击和Linux病毒等原因造成。OSI的层次结构为网管员分析和排查故障提供了非常好的组织方式。由于各层相对独立,按层排查能够有效地发现和隔离故障,因而一般使用逐层分析和排查的方法。 
图-1 Linux TCP/IP四层模型和OSI七层模型对应  把OSI七层模型和Linux TCP/IP四层网络模型对应,然后将各种网络协议也规档,这样有利于网络故障的排除。TCP/IP模型各个层次的功能和协议见表-1。
 
        
 
    需要重点说明的是: TCP/IP与OSI最大的不同在于OSI是一个理论上的网络通信模型,而TCP/IP则是实际运行的网络协议。图2示出TCP/IP的主要协议分类情况。 图-2  图-3 Linux网络拓扑图   丛图3中可以看出这是一个典型的中型Linux异构以太网络。包括各种服务器、防火墙。网络节点在300个左右,对于这个网络故障应当丛网络硬件传输问题开始,然后检查软件设定问题。  二、Linux网络故障  1.网络硬件传输问题  网络硬件传输问题引起的故障主要指连通性故障。  (1)网络线缆   在图-3中可以发现,网络接口设备中使用最多的是网络线缆 。由于网络线缆 经常接在墙角和门缝处,有可能被压坏。所以,需要注意网线是否因被截断、网线过度扭曲变形、自制网络接头(如RJ-45跳线头)品质不良造成讯号不良;网络接头与设备(如集线器、路由器、交换机)接触不良等。网络线缆的检测通常使用网络线缆测试仪。它主要用于测试目前大家常用的遮敝式双绞线、非遮敝式双绞线及同轴缆线等。一般来讲网络线缆测试仪都有侦测缆线错误状态功能,网线是否开路,是否短路以及相反、交叉、分离等即可就可辨别,同时在一定的范围内还可量测缆线的长度,更主要的是用它来核对双绞线末端到末端连接是否符合 EIA/TIA 568商业建筑电信布线标准。    (2)网卡、集线器、路由器、交换机、ADSL调制解调器等网络硬件设备   1、网卡不稳定、品质不佳,或者与整体系统的兼容性不佳; 各网络设备的接触不良,造成讯号衰减; 网络设备使用方法不良,造成设备功能衰减等都会造成传输问题。网卡的检测可以通过网卡的Link灯代表网线的好坏或者与Hub的连接是否正确,网卡的100M灯代表是否是100M连接。
  2、高品质的路由器、交换机一般都有液晶显示菜单,实时显示运行状态,可以从中看出设备的故障情况。大部分网络设备的物理层的信息虽然标识一样,但在细节上很不相同,需要仔细研读产品说明书来了解。另外可以在交换机上观察各以太口上获得的MAC地址来判断故障。链路层的信息一般和物理层的信息交织在一起,除非出现误码率高和设备运行状态不稳定等,都不需要对链路层进行排障。
  3、ADSL调制解调器:POWER: 当ADSL路由器接上电源后,电源LED指示灯会亮起。如果LED指示灯熄灭的话,请检查您的电源接线是否正确。STATUS: 当ADSL Modem与局端设备握手时会闪烁,连线后会常亮。LINE 当广域网线路联通时,指示灯会亮起;在线路有数据传送时会闪烁。PC 局域网联机LED指示灯。当联机上以太网时,此灯会亮起;在未连接以太网时,此灯是熄灭的。以太网有数据传输时闪烁。 TEST 测试用,常灭。   (3) 网络设备配置的规则
 
  各个网络设备的配置都是有规则的。太长的网络线会造成讯号的衰减,导致网络联机的时间太长甚至无法联机。 例如100兆以太网要遵守5-4-3-2-1网络标准:5-最多有5个网段且干线总长最大为2469m。4-最多连4个中继器。 3-其中3个干线段上连工作站,一个干线最多100个工作站,中继器相当于一个工作站,干网的每一端均需50欧姆的端界器,其中一个必须接地。2-有两个网段只用来扩长而不连任何工作站,1-由此组成一个局域网,工作站到收发器最大距离50m,收发器最小间距2.5m。  (4)UPS电源   UPS电源是一个容易被忽视的环节。由于核心路由器、大型交换机、基带式“猫”等网络设备对电压和接地都非常敏感,因此,对于这些网络,应当使用性能优良的在线式UPS作为供电电源,对于服务器10个以上,节点在300个以上的中型网络最好使用10000W功率以上的,从而可以将所有的网络设备都连接在同一电源,避免不同设备间的电压差别。此外,机房和机柜要有非常好的接地措施,并为所有设备建立一条地线保证接地电压相同,确保网络设备正常进行。  2.软件问题   (1)网卡的IP地址设定错误
  网卡是Linux网络中的最常用设备,通常Linux服务器要安装两块以上网卡。网卡IP地址的设定不当是导致网络故障的最常见原因。例如,同一个IP在同一个网段中出现造成IP冲突、子屏蔽网络设定错误等。   (2)路由问题(Router)
  这方面的问题出在网关的设定错误,或者是路由设定不正确,导致资料封包没有办法顺利地送出去。路由器是   (3)网络负荷问题(Loading)
  当黑客对网络实施拒绝服务攻击时,同时有大量的信息包涌服务器或交换机和路由器,就有可能造成网络的停顿甚至挂起。许多Linux网络故障是由于Linux服务器遭到系统攻击引起的。  (4)NAT问题   NAT 无法正确的工作原因有很多,不过,如果您确定您的局域网络联机已经正常,而且主机可以正确的连上 Internet,另外,客户端的 DNS 设定也是正确的,那么可能发生的问题大概就是没有将转发功能打开,使用命令:   #echo 1 > /proc/sys/net/ipv4/ip_forward   如果使用采用iptables作为NAT服务器接入网络,还要通过NAT将内网IP转换为外网IP,隐藏内部网络
  iptables -t nat -A POSTROUTING -o eth0 -p tcp --dport 110 -j SNAT --to-source 202.112.133.119   iptables -t nat -A POSTROUTING -o eth0 -p udp --dport 110 -j SNAT --to-source 202.112.133.119   其中:该入服务器的eth0接口连外网,IP地址为202.112.133.119。eth1接口连局域网,IP地址为192.168.0.1;局域网内部有一台Web服务器,IP地址为192.168.0.100。   (5)其它
  防火墙是Linux网络安全的关键部件,能够探测和阻挡的攻击。以Redhat Linux为例安装时已经内至三种不同级别(标准、高、无防火墙)的防火墙。有时候选择最高级别防火墙会让一些通信端口被防火墙挡住了,造成无法执行某些网络资源。如果没有指定具体情况,系统应用默认的防火墙级别即高级别防火墙,是指系统指允许DHCP网络链接、技术消息服务(IRC)和实时音频处理。中级别防火墙禁止运行远程会话、远程NFS 、FTP、SSH、HTTP、Telnet和端口好低于1023的如何连接。  对于如何选择你自己的安全级别,要从您的工作需求决定。如果你目前只是学习Linux基础知识和编程,可以将级别降低一下,一旦你准备将企业应用或关键应用放到Linux平台上时,则应提高安全级别。另外在代理服务器(Squid)、文件服务器(Samba)等故障中也要考虑防火墙设定问题。  另外Linux内核存在的漏洞问题;应用程序中BUG;以及不同的操作系统的兼容性问题;设备驱动的缺少也是发生Linux网络故障的原因。Linux网络连接故障排除(下)http://www.dnwx.com 2006年8月11日 来源/作者:网络/不详
--------------------------------------------------------------------------------  三、Linux网络故障的解决问题的思路  Linux网络故障排除应当遵循先硬件后软件的方法。因为硬件如果出现物理损坏那么如何设定网络都不能解决故障。解决问题的方法可以从自身Linux计算机的网卡查起,然后到服务器、集线器、路由器等硬件。如果确定硬件没有问题了,再来考虑软件的设定。  1、检查网卡工作状况   Linux下的网卡不能工作可能是以下原因之一:
  1. 网卡没有被Linux检测到;
  2. 没有与之相应的内核模块;
  3. 该模块没有被加载;
  4. Linux系统不支持你的网卡。  详细情况可以参考笔者的:Linux服务器网卡驱动安装及故障排除(链接:http://www.ccw.com.cn/server/yyjq/htm2005/20050817_15OF4.htm )需要补充一点是:调整自适应工网卡的作模式,现在的网卡大多是自适应工作模式,在配置网卡参数时我们很少考虑它的工作模式,但是在路由器、交换机、代理服务器等通信量比较大的关键设备上,应该为它指定正确的工作模式,这样可以避免故障。在Linux环境下,我们可以使用系统自带的工具mii-tool命令来配置网卡工作模式。  mii-tool [-VvRrwl] [-A media,... | -F media] [interface ...]   media: 100baseTx-FD, 100baseTx-HD, 10baseT-FD, 10baseT-HD, 100baseTx,  10baseT   主要选项:  
  -V 表示查看网卡现在的工作模。
  -F 表示强行修改。
  -r 恢复网卡的自适应工作模式。
  -w 显示监测链路状态。
  -A 使用高级修改模式。
  -l 表示将修改记录写入syslog日志文件。
  media可选的模式有100baseTx-FD、100baseTx-HD、10baseT-FD、10baseT-HD等。   Interface代表所选择的网卡,如eth0、eth1等。
  (1)强制网卡工作在100M双工模式下,输入命令:
  mii-tool -F 100baseTx-FD eth0   (2)恢复网卡的自适应工作模式,输入命令:   mii-tool -r eth0   2、确认局域网内网络连接情况  网卡设定确认没有问题之后,接下来要确认局域网内网络连接情况。根据图-2网络拓扑结构,对集线器1组成的局域网的要求有下面几点:  (1)客户机IP的设定
  假设子网为192.168.1.0/24,那么局域网内所有计算机的IP应该介于192.168.1.1~192.168.1.254,且所有的计算机子屏蔽网络均为255.255.255.0,IP在所有的计算机都不可以重复。   (2)网关
  假设Linux IP为192.168.1.2,那么局域网内所有客户机的网关是192.168.1.2 。   (3)Windows端的通信协议
  局域网内其它的Windows系统的通信协议仅需要TCP/IP及NetBUEI即可,如果安装过多的通信协议可能会造成联机过慢。   (4)Windows 端工作组与计算机名称
  假如需要资源共享,那么就必须在Windows系统中建立文件共享,并且所有的计算机工作组必须相同,但计算机名称不能相同。  3、DNS故障排除   Linux域名服务器使用的是Bind9版本。域名服务器包含数据库的部分段的信息,并可提供被称之为解析器的客户来访问。DNS域名解析服务是网络的基础服务,承担着将域名翻译为计算机可以识别的IP地址,以及寻找IP地址对应的逆向翻译工作。一旦DNS服务出现故障,用户就无法通过采用域名的方式进行互联网访问,同时相应的邮件服务器也会由于无法进行正常的域名解析而出现故障。由于DNS服务对于网络非常重要,所以也成为网络故障排除的重要任务。如果在Linux网络中无法进行域名解析,很可能是没有在本地指定有效的域名服务器,通常这种情况比较常见。大多数DNS故障是因为配置文件的语法错误,或者是对计算机分配了错误的地址造成的。DNS就是Domain Name System, DNS服务器可以分为三种,高速存服务器(Cache-only server)、主服务器(Primary Name server)、辅助服务器(Second Name Server)。 Linux 下主要DNS配置文件:Linux上的域名服务由named守护进程控制,该进程从主文件:/etc/named.conf中获取信息。  它包括一族将主机名称映射为IP地址的各种文件:下面是named配置文件族详细内容。表-2 named配置文件族(请看附件)  当进行DNS故障诊断时,可参照下面的步骤:
  (1)对全部记录检查和确认主机名称的拼写,记住绝对地址是以“.”结尾的.
  (2)如果在区文件中做了任何修改,务必修改SOA记录中的序列号,这将保证服务器正确地重新上载文件。
  (3)确定输入到主区的名称和IP地址匹配反向指针文件中的反向指针信息.
  (4)检查防火墙相关程序。
  (5)使用命令检查。(ping、dig、nslookup、named-checkzone、named-checkconf)
  (6)使用dlint软件检查DNS故障。dlint是一个专门检查DNS配置文件开放源代码软件。最新版本:1.4.0,官方网址:http://www.domtools.com/dns/dlint.shtml
  (7)另外如果客户端无法进行域名解析,最可能原因是没有在本地指定有效的域名服务器,这种情况比较常见。解决办法:一般修改和域名服务相关的文件如/etc/hosts或 /etc/resolv.conf,在这些文件中添加有效的域名服务器的IP地址就可以解决。如果判断不是本地域名解析的问题,例如在本地可以解析公司域名,但外面的客户无法正常解析公司域名,则需要和域名注册服务提供商联系,一同解决问题。因为此种情况的发生,可能是公司系统中的IP地址和注册的域名不对应的原因造成的。   4、对于Linux服务器攻击造成网络故障
  对于Linux服务器来说,最大的危险是黑客攻击。对Linux服务器攻击的定义是:攻击是一种旨在妨碍、损害、削弱、破坏Linux服务器安全的未授权行为。攻击的范围可以从服务拒绝直至完全危害和破坏Linux服务器。最严重的是远程用户获得根权限。Linux网络中超级用户拥有最高权限。一旦远程用户获得根权限你的网络随时可能被摧毁。所以部署IDS是防止这类网络故障的选择。当然你还要采取其他措施:一个配置适当的防火墙不仅是系统有效应对外部攻击的第一道防线,也是最重要的一道防线。在新系统第一次连接上Internet之前,防火墙就应该被安装并且配置好。防火墙配置成拒绝接收所有数据包,然后再打开允许接收的数据包,将有利于系统的安全。防火墙的具体设置方法请参见iptables使用方法。  5、Linux病毒造成网络故障的排除   Linux操作系统一直被认为是Windows系统的劲敌,因为它不仅安全、稳定、成本低,而且很少发现有病毒传播。但是,随着越来越多的服务器、工作站和个人电脑使用Linux软件,电脑病毒制造者也开始攻击这一系统。对于Linux系统无论是服务器,还是工作站的安全性和权限控制都是比较强大的,这主要得力于其优秀的技术设计,不仅使它的作业系统难以宕机,而且也使其难以被滥用。Unix经过20多年的发展和完善,已经变得非常坚固,而Linux基本上继承了它的优点。在Linux里,如果不是超级用户,那么恶意感染系统文件的程序将很难得逞。当然,这并不是说Linux就无懈可击,病毒从本质上来说是一种二进制的可执行的程序。冲击波(Blast)等恶性程序虽然不会损坏Linux服务器,但是却会传播给访问它的Windows系统平台的计算机。  Linux平台下的病毒分类:   1.可执行文件型病毒。   
  2.蠕虫(worm)病毒。   
  3.脚本病毒。
  4.后门程序:在广义的病毒定义概念中,后门也已经纳入了病毒的范畴。活跃在Windows系统中的后门这一入侵者的利器在Linux平台下同样极为活跃。从增加系统超级用户账号的简单后门,到利用系统服务加载,共享库文件注射,rootkit工具包,甚至可装载内核模块(LKM),Linux平台下的后门技术发展非常成熟,隐蔽性强,难以清除。是Linux系统管理员极为头疼的问题。  综合以上介绍,可以看到总体来说计算机病毒对Linux系统存在较小的危险。但是由于各种原因在企业应用中往往是Linux和Windows操作系统共存形成异构网络。在服务器端大多使用Linux和Unix的,桌面端使用Windows 。所以为Linux的防范病毒策略分成两个部分:   1.针对Linux本身(服务器和使用其作为桌面的计算机)防范策略。  可执行文件型病毒、蠕虫(worm)病毒、脚本病毒的防范通过安装GPL查杀病毒软件基本可以防范。服务器端可以使用AntiVir(http://www.hbedv.com/)它是工作在命令行下的,运行时可以较少占用系统资源。桌面用户可以选择tkantivir(http://www.sebastian-geiges.de/tkantivir/)是用Tcl/Tk写的,可以运行在任何X-Windows环境下面,比如KDE或Gnome等。  对于后门程序防范可以采用LIDS(http://www.lids.org/)和Chkrootkit(http://www.chkrootkit.org/),LIDS是Linux内核补丁和系统管理员工具(lidsadm),它加强了Linus内核。可以保护dev/目录下的重要文件。而Chkrootkit可以检测系统的日志和文件,查看是否有恶意程序侵入系统,并且寻找关联到不同恶意程序的信号。最新版本的Chkrootkit0.45可以检测出sniffers、Trojans、worms、rootkit等59种。  2.针对使用Linux服务器后端的Windows系统的病毒防范策略。  许多企业使用代理服务器接入互联网,许多用户Windows系统进行都是在进行HTTP网页浏览和文件下载时感染病毒,所以可以在代理服务器上加挂一个病毒过滤器,对用户浏览的HTTP网页进行病毒检测,发现有用户浏览网页感染病毒的状况即由代理服务器进行阻断,丢弃带有病毒的请求,将不安全的进程阻止在代理服务器内,禁止带有病毒的数据向客户端计算机传播。squid是一款非常优秀的代理服务器软件,但是并没有专门的病毒过滤功能。可以考虑使用德国开放源码爱好者开发的一款基于Linux的病毒过滤代理服务器——HAVP(http://www.server-side.de/)。HAVP病毒过滤代理服务器软件既可以独立使用,也可以与Squid串联使用,增强Squid代理服务器的病毒过滤功能。  提供邮件服务是Linux服务器中重要应用。可以使用ClamAV(http://www.clamwin.com/),ClamAV 全名是 Clam AntiVirus,它跟Liunx一样强调公开程序代码、免费授权等观念,ClamAV 目前可以侦测超过40,000 种病毒、蠕虫、木马程序,并且随时更新数据库,有一组分布在世界各地的病毒专家,24小时更新及维护病毒数据库,任何人发现可疑病毒也可以随时跟她们取得 联系,立刻更新病毒码,在极短的时间内,网络上采用ClamAV的邮件服务器就完成最新的防护动作。  6、Linux系统本身漏洞及其软件的BUG造成网络故障  操作系统是计算机系统灵魂,维护着系统的底层,对内存、进程等子系统进行管理和调度。如果操作系统本身出现了漏洞,其影响将会是致命的。操作系统的内核,对于网络安全是至关重要的。目前,内核的维护主要分两种模式:对于私有操作系统,如Windows/Solaris等,由于个人用户不能直接接触其源代码,其代码由公司内部开发人员维护,其安全性由同样的团队保证,内核的修正与其他应用程序一样,以patch/SP包的方式发布。对于Linux这样的开放式系统,是一种开放的结构。应该说,开放的模式是双刃剑。从机制上讲,全世界的开发人员都能获得源代码,从而找出其中的纰漏,似乎安全性应该更好;但是同时,如果网络管理人员不能及时更新内核,也会留下安全隐患。Linux服务器运行的软件主要包括:Samba,Ftp,Ssh,Mysql,Php,Apache等,这些软件,大都是开源软件,而且都在不停升级,稳定版和测试版交替出现。在www.apache.org 上,最新的ChangeLog中都写着:bug fix, security bug fix的字样。所以Linux网管员要经常的关注相关网站的bug fix和升级,及时升级或添加补丁。  总结:  掌握OSI模型、TCP/IP分层模型及相对应的相关协议和正确网络拓扑结构,对于Linux网络故障分析与排除是非常重要的,另外Linux网络往往比较复杂需要你对多种网络操作系统都比较熟悉,还需要采取多种措施。如果能够配合使用一些网络检测工具(例如网络测试仪、网络嗅探器等),对于网络故障分析与排除也是非常有用的。