Informix 几种数据去重的方法 - Unix爱好者家园

来源:百度文库 编辑:神马文学网 时间:2024/04/28 05:52:51
 Informix 几种数据去重的方法   作者:play123456  出处:Unix爱好者家园unix-cd.com  更新时间: 2005年12月07日 
在数据处理中经常会遇到去除重复数据的需要,由于数据格式的不同每次总是需要进行不同的操作。结合平时的运用,总结了几种简单方法。


一.利用数据库

    数据量小的话可以用Access,大的话使用大型些的,如informix等。首先建立一个与源数据结构完全相同的表,根据去重的条件建立唯一索引。然后将数据通过导入工具导入该表,access将自动将插入不成功的数据过滤,对于按照索引重复的数据只能插入一条,轻易达到去重目的。此法适用于小数据量,不想写程序,一次性行为。对于大数据量的可以通过"大功率"的数据库系统采用类似的方法进行处理,如使用informix的dbload工具,忽略导入错误进行装入。

二.unix环境的shell命令

    先使用sort指令将文件中的数据按照要求的索引进行排序,然后使用uniq指令将重复数据去掉得到想要的结果。如有个文件a.txt中有重复行,需要去除重复行时执行如下指令: 
    #sort a.txt > b.txt;
    #uniq b.txt > c.txt
    c.txt文件就是所需数据了.

三.编写程序

    使用数据结构丰富的脚本语言可能更为方便,比如python,利用其中的字典数据结构,将索引作为Key值其它数据项作为value将数据导入内存,遇到重复时忽略错误很快就可以完成。
Informix 几种数据去重的方法 - Unix爱好者家园 Informix 几种数据去重的方法 - Unix爱好者家园 Informix 几种数据去重的方法 Informix 数据库灵活备份的探讨 - Unix爱好者家园 Informix 中求时间间隔的函数 - Unix爱好者家园 几个常用的 Informix 命令 - Unix爱好者家园 Informix 数据库一致性检查 - Unix爱好者家园 Informix 培训教材整理之04 OnLine 的设置对性能的影响 - Unix爱好者家园 实现 Informix 的 ontape 零级备份自动完成 - Unix爱好者家园 安装 Informix 的产品时需要设置哪些环境变量 - Unix爱好者家园 Informix 培训教材整理之02 CPU虚处理器的配置 - Unix爱好者家园 Informix 如何更加有效的创建主键和外键 - Unix爱好者家园 实现 Informix 的 ontape 零级备份自动完成 - Unix爱好者家园 如何综合掌握 DB2 和 Informix - Unix爱好者家园 Informix-SQL 从入门到精通 - Unix爱好者家园 Informix ON-Bar 备份解决方案 - Unix爱好者家园 Informix-SQL语言复习笔记(3) - Unix爱好者家园 Informix 7.31 For SCO 5 安装脚本 - Unix爱好者家园 SCO UnixWare 7.1.4下安装 Informix - Unix爱好者家园 Informix 培训教材整理之01产品介绍 - Unix爱好者家园 Informix sql 函数使用说明大全(附:例子) - Unix爱好者家园 Informix 数据库函数库及其用法 - Unix爱好者家园 Informix sql 函数使用说明大全(附:例子) - Unix爱好者家园 Informix 7.30 for AIX4.3.3 系统安装文档 - Unix爱好者家园