长篇连载(四):对微软侵权的专家比较分析意见

来源:百度文库 编辑:神马文学网 时间:2024/04/27 18:25:41
我的专利与微软技术的专家比较分析意见
从2001年1月9日的传真发出到2002年8月,经过了一年半多的等待,我再也没有收到微软公司一个字的回复。为了讨个说法,我决定启动法律程序。2002年8月26日,我聘请律师向微软中国公司发出了律师函,再次要求微软中国公司就专利侵权问题与发明人进行正式磋商。在等待了一个半月没有结果之后,我于2002年10月11日向上海市第一中级人民法院提起诉讼,要求微软中国公司上海分公司和微软中国公司停止侵权行为。在我的诉状递交之后,2002年10月16日才收到了微软中国公司委托律师的回函,继续拒不承认侵权事实。在举证期间,为了明确双方技术的异同,我向上海市高新技术成果转化服务中心西部分中心提出申请,请求推荐专家对89105313.1发明专利技术和微软公司文字处理技术进行专家鉴定。应邀参加鉴定的两位专家都是国内外知名的计算机科学领域具有广泛社会影响力的权威专家:一位是计算机人工智能领域的专家、上海交通大学的长江学者特聘教授;另一位是计算机中文信息处理领域的专家,上海市计算机学会第四届理事会学术委员会副主任、中国中文信息学会理事,前《中文信息学报》副主编、上海市计算技术研究所研究员。2002年11月6日,经专家鉴定做出分析比对意见,全文如下:
关于曲声波“语言文字信息处理与交换设备”发明专利技术
与微软公司文字处理技术的比较分析意见
本比较分析意见是通过对曲声波“语言文字信息处理与交换设备”发明专利(专利号:ZL 89105313.1)所述的语言文字信息处理技术(下称“89105313.1号发明专利技术”)和微软公司文字处理技术进行分析,比较二者的异同,判断后者在技术上是否包含有前者的主要技术特征。
本比较分析意见所依据的材料是:
1、“语言文字信息处理与交换设备”发明专利说明书(包括权利要求书、说明书及附图)。
2、利用微软公司产品Windows XP中的“微软拼音输入法用户自造词工具”造词时生成的用户自造词文件显示界面的屏幕图(附件一)。
3、利用Windows系统提供的文本编辑工具记事本,使用Unicode编码格式打开用户自造词文件,显示结果的屏幕图(附件二)。
4、利用16进制编辑工具软件UltraEdit-32打开上述用户自造词文件的屏幕图(附件三和附件四)。
一、“语言文字信息处理与交换设备”发明专利的核心技术
89105313.1号发明专利技术是一项关于在计算机中对语言文字信息进行处理的技术。其权利要求书的独立权利要求1内容为:“一种使用计算机设备实现各种语言文字信息处理或交换的方法,其特征在于信息处理或交换过程中采用以词处理为基础的字词兼容代码,并且利用设置在计算机存储器中的词库存储器组实现词汇代码与构成对应词汇的字符串代码的互相转换。”
89105313.1号发明专利所保护的文字信息处理方法的技术特征主要有两个:其一,信息处理或交换过程中采用以词处理为基础的字词兼容代码;其二,利用设置在计算机存储器中的词库存储器组实现词汇代码与构成对应词汇的字符串代码的互相转换。
根据独立权利要求1的叙述,根据《说明书》第1页的第二段、第1页的技术方案1、第2页技术方案3和第2页的优点(1)一段有关字符和词汇的叙述,可以看出,89105313.1号发明专利技术的核心是一种在计算机设备中把字符串代码转换为词汇代码来处理的方法。根据89105313.1号发明专利《说明书》可以看出这里定义的语言文字信息处理不仅限于汉语的处理。这里的词汇代码所称“词汇”也不仅仅是普通汉语意义上的词汇,而是指的是作为一个整体语言单位的一组字符串或一组字位串。这里的词既包括由多个汉字组合而成的汉语词,也包括由多个拼音文字字母组合而成的单词或音节,例如,多个英语字母组合而成的英语单词和多个汉语拼音字母组合而成的汉语拼音音节。89105313.1号发明专利技术权利要求书所说的词汇编码,实质上是对由单个字符进行组合而形成的一个整体语言单位进行的编码;权利要求书所说的词处理,也是对这种意义上的词汇编码的处理,是相对于传统的语言文字处理技术以字符为基础而言的。
二、微软文字处理技术分析
由于微软公司对其系统源程序实行严格保密,外人一般无法通过直接分析系统源程序来确认其是否采用了其它具有专利权的文字处理技术。本意见书通过对Windows XP “微软拼音输入法用户自造词工具”功能模块进行分析,针对微软windows系统在计算机内码中对汉语拼音(即汉字发音的表达)的处理方式,与89105313.1号发明专利提出的“以词处理为基础”的处理方法进行分析比较。为了便于比较,本意见书中所涉及的16进制编码不考虑计算机的字节顺序规定,全部采用相关文件中原始字节顺序,使用单下划线表示Unicode编码,双下划线表示词汇编码。具体分析步骤如下:
1.利用微软拼音输入法用户自造词工具生成一个包含“中国专利”、“专利发明人”、“微软中国公司”三个词组的用户自造词文件,显示结果见附件一。
2.利用Windows系统提供的文本编辑工具记事本,使用Unicode编码格式打开用户自造词文件,显示结果见附件二。
3.为了查看该文件使用的代码体系和存储结构,利用16进制编辑工具软件UltraEdit-32打开上述用户自造词文件,显示结果见附件三和附件四。
附件一上半部分是上述用户自造词文件在微软拼音输入法用户自造词工具中的显示结果,左边是用户自造的词组,右边是带有声调的汉语拼音,用数字表示声调。下半部分是Windows的资源管理器中显示的上述用户自造词文件在Windows文件夹中的存放位置,文件名是Windows系统根据用户名自动生成的,文件的扩展名为UPT。
附件二的右上部是使用记事本打开文件时的设置选项,其中的“编码”一项选择为Unicode。附件二下部的记事本窗口是上述用户自造词文件在记事本中使用Unicode编码格式显示的结果,第一行中只有上述三个词组的汉字“中国专利”、“专利发明人”、“微软中国公司”可以正确显示。由此可见,Windows系统提供的文本编辑工具记事本能够正确显示Unicode编码格式的文字内容。假如用户自造词文件使用的是Unicode编码,与这三个词组中每个汉字对应的汉语拼音,也应当能够正确显示为对应的汉语拼音字母串。但是,从附件二的记事本窗口中完全看不到附件一右半部分的汉语拼音字符串,只能看到一些不可理解的“乱码”。例如, zhong1显示为“?”,guo2显示为“?”,zhuan1显示为“?”,li4显示为“兰”,等等。很明显,这是因为这些汉语拼音都没有采用Unicode的编码格式。同时,这里列举的四个“乱码”字符在需要显示对应汉语拼音的地方重复再现,这表明Windows系统文件中对每个汉语拼音有其确定的编码表示。由此可以得出结论:Windows系统文件中在使用Unicode编码的同时,还使用了另外一套不同于Unicode的编码来表示汉语拼音字符串。附件二的记事本窗口第一行之后,显示了很多包含声调的汉语拼音字符串,每个字符串之前也有一个“乱码”,关于这一点留在附件三和附件四中分析。
Unicode代码是一种16bit的定长代码,不论是汉字还是英语等拼音文字的字母,包括汉语拼音字母,每个字符都要占用两个字节的存储空间。通过16进制编辑工具软件UltraEdit-32查看结果附件三和附件四可以看出:在上述用户自造词文件中,4组16bit定长代码2D 4E FD 56 13 4E 29 52分别是“中国专利”4个汉字的国际标准Unicode代码。与“中国专利”4个汉字对应的汉语拼音“zhong1 guo2 zhuan1 li4” (数字表示声调),包括音节之间的3个空格共有22个字符,如果使用Unicode代码存储,需要占用44个字节的存储空间。事实上,在上述用户自造词文件中,仅用了4组16bit定长代码E4 BA 28 34 84 BB 70 51(共8个字节),就代表了 “中国专利”4个汉字的汉语拼音“zhong1 guo2 zhuan1 li4”。这里,与汉字“中”对应的16bit定长代码E4 BA代表包含声调的汉语拼音“zhong1”,应该认定为词汇代码(附件三)。同样,28 34是包含声调的汉语拼音“guo2”的词汇代码(附件四),84 BB是包含声调的汉语拼音“zhuan1”的词汇代码,70 51是包含声调的汉语拼音“li4”的词汇代码,……。这里列出的4个词汇代码在“微软中国公司”和“专利发明人”两个词组的汉语拼音部分对应汉字的位置重复出现。
在附件三和附件四的下半部分,显示了上述词汇代码与其对应的包含声调的汉语拼音字符串的国际标准Unicode代码的对照表。附件三显示了对照表中代码E4 BA与其对应的包含声调的汉语拼音字符串zhong1的国际标准Unicode代码的部分;附件四显示了对照表中代码28 34与其对应的包含声调的汉语拼音字符串guo2的国际标准Unicode代码的部分。可以看出,在这个对照表中,对长度不等的词汇(汉语拼音音节字符串)采用了按照最长的词预留存储空间的存储办法,对于长度不足8个字母的汉语拼音音节,使用Unicode代码的“空格”字符20 00填充。这个对照表就是以上在附件二中看到的前面有“乱码”的包含声调的汉语拼音字符串,前面的“乱码”实际上是上述词汇代码,字符串之的空格就是填充的Unicode代码“空格”字符。
微软拼音输入法用户自造词工具必须利用这种对照表,才能把自造词文件中的词汇代码转换为包含声调的汉语拼音字符串代码,在自造词工具的显示窗口中显示出附件一所见到的汉字词组与汉语拼音对照的结果。
三、微软文字处理技术和89105313.1号发明专利技术的比较
根据以上分析,我们可以看出,微软文字处理技术已经在系统中同时采用了字符编码和词汇编码两种编码方式,构成了“语言文字信息处理与交换设备”发明专利独立权利要求一所说的字词兼容代码。同时,众所周知,在计算机的运行过程中,所有的程序和数据都必须存储在计算机的存储器中,上述表示包含声调的汉语拼音的16bit定长代码与对应汉语拼音字母字符串之间的对应关系的对照表在计算机的存储器中形成一组存储器单元,用来实现拼音音节代码(词汇代码)和构成对应拼音音节的字符串代码的互相转换。这种储存拼音音节代码对照表的一组计算机存储器单元,也就是“语言文字信息处理与交换设备”专利独立权利要求一所说的词库存储器组。
由以上对比分析可以认为,微软文字处理技术已经包含有89105313.1号发明专利技术的两个主要技术特征,实质上已经实施了该专利技术。
附件1:

附件2:

附件3:

附件4:

_xyz