蒙哥马利（Montgomery）算法简介

来源：百度文库编辑：神马文学网时间：2024/04/27 00:37:03

2010年05月04日星期二 20:17
最近在看一款芯片的DataSheet的时候，在加密处理部分集成了蒙哥马利协处理器。在我印象里，蒙哥马利不是个将军么，我又土了一回～google后才知道是做RSA打算运算中用以快速计算模乘的，收集了一篇不错的文章，以供参考：
前言
俺曾经查阅了网上找得到的各种用于实现RSA 的大数运算库，然而最终还是决
定自己动手写一个。因为凡是效率高速度快的代码（crypto++、miracl、freelip、
rsaref等），要么使用的数据结构过于复杂，要么编码风格杂乱无章，俺的水平和
耐心都实在是有限，以至于无法读懂这些东西。而俺读得懂的一些代码，其实现方
式却又过于幼稚，效率极低速度一塌糊涂。俺觉得像俺这样的人不在少数，于是决
心写一个清晰易懂，效率也过得去的东西奉献给大家。
这个函数库刚做好的时候，生成1024位的随机密钥耗时大约5 分钟，俺认为是
可以接受的。但后来找到一个叫tE! 的老外用miracl库写的RsaTools，发现其生成
1024位的密钥耗时不超过三秒钟！于是俺针对俺的代码开始了艰苦的优化工作，希
望能达到甚至超过这一水平。一周之后1024位密钥的平均生成时间已经降至5 秒左
右，但是单单依靠优化代码来进一步提高速度也非常困难了。于是俺开始借助金山
词霸来查阅能够通过google找到的一切与RSA 算法相关的论文，但是网上关于RSA
算法的论述绝大多数都是用于硬件实现的，将其算法流程用软件设计语言来实现极
其繁琐。而且俺发现这样做下去俺只会离自己的初衷越来越远：俺的代码将不再清
晰易懂。所以俺一度准备放弃。
准备放弃之后，心态平静了许多，再回头去看那些原来不太能够理解的RSA 算
法原理，却发现其实也不是那么高深莫测，不急不躁地慢慢看，慢慢想，突然就一
下子全明白了。一番改进之后，现在这个版本的函数库同样具有非常简单而清晰的
结构，速度也不算慢，生成1024位的密钥在俺PIII 900的笔记本上平均耗时不超过
两秒。程序使用C++ 编写，可在VC6.0 下直接编译通过，希望大家喜欢。如果发现
Bug 或者有好的修改建议，俺将非常感谢您能够给俺一个Mail。
最后，感谢看雪论坛，感谢雪兄多次热心相助，俺在此学到了很多知识，当然
还要乘机拍拍马屁，感谢俺家甜甜的支持！
afanty@vip.sina.com
原理介绍
RSA 原理：
选取两个不同的大素数p、q，并计算N=p*q
选取小素数d，并计算e，使d*e % (p-1)(q-1)=1
对于任意A若B=A**d % N
则A=B**e % N
可见d、e形成了非对称秘钥关系，加密者用公钥d加密，解密者可用私钥e解密，第
三者即使拦截了密文B、公钥d和N，在不知道p、q的前提下，无法推算出e，从而无
法获得明文A。当N取非常大的值时，将其因式分解成p、q是非常困难的，例如当N
为1024 bit时，据分析，需动用价值数千万美金的大型计算机系统并耗费一年的时
间。
RSA 密钥的选取和加解密过程都非常简洁，在算法上主要要实现四个问题：
1、如何处理大数运算
2、如何求解同余方程 XY % M = 1
3、如何快速进行模幂运算
4、如何获取大素数
实际上，在实现RSA 算法的过程中大家会发现后三个问题不是各自独立的，它们互
有关联，环环相套，相信届时你会意识到：RSA算法是一种“优美”的算法！
大数存储
RSA 依赖大数运算，目前主流RSA 算法都建立在1024位的大数运算之上。而大
多数的编译器只能支持到64位的整数运算，即我们在运算中所使用的整数必须小于
等于64位，即：0xffffffffffffffff，也就是18446744073709551615，这远远达不
到RSA 的需要，于是需要专门建立大数运算库来解决这一问题。
最简单的办法是将大数当作数组进行处理，数组的各元素也就是大数每一位上
的数字，通常采用最容易理解的十进制数字0—9。然后对“数字数组”编写加减乘
除函数。但是这样做效率很低，因为二进制为1024位的大数在十进制下也有三百多
位，对于任何一种运算，都需要在两个有数百个元素的数组空间上多次重循环，还
需要许多额外的空间存放计算的进退位标志及中间结果。另外，对于某些特殊的运
算而言，采用二进制会使计算过程大大简化，而这种大数表示方法转化成二进制显
然非常麻烦，所以在某些实例中则干脆采用了二进制数组的方法来记录大数，当然
这样效率就更低了。
一个有效的改进方法是将大数表示为一个n 进制数组，对于目前的32位系统而
言n 可以取值为2 的32次方，即 0x100000000，假如将一个二进制为1024位的大数
转化成0x10000000进制，就变成了32位，而每一位的取值范围不再是二进制的0—1
或十进制的0—9，而是0-0xffffffff，我们正好可以用一个32位的DWORD （如：无
符号长整数，unsigned long）类型来表示该值。所以1024位的大数就变成一个含
有32个元素的 DWORD数组，而针对 DWORD数组进行各种运算所需的循环规模至多32
次而已。而且0x100000000 进制与二进制，对于计算机来说，几乎是一回事，转换
非常容易。
例如大数18446744073709551615，等于 0xffffffff ffffffff，就相当于十进
制的99：有两位，每位都是0xffffffff。而18446744073709551616等于0x00000001
00000000 00000000，就相当于十进制的100：有三位，第一位是1 ，其它两位都是
0 ，如此等等。在实际应用中，“数字数组”的排列顺序采用低位在前高位在后的
方式，这样，大数A 就可以方便地用数学表达式来表示其值：
A=Sum[i=0 to n](A*r**i)，r=0x100000000，0<=A其中Sum 表示求和，A表示用以记录A 的数组的第i 个元素，**表示乘方。
任何整数运算最终都能分解成数字与数字之间的运算，在0x100000000 进制下
其“数字”最大达到0xffffffff，其数字与数字之间的运算，结果也必然超出了目
前32位系统的字长。在VC++中，存在一个__int64 类型可以处理64位的整数，所以
不用担心这一问题，而在其它编译系统中如果不存在64位整形，就需要采用更小的
进制方式来存储大数，例如16位的WORD类型可以用来表示0x10000 进制。但效率更
高的办法还是采用32位的 DWORD类型，只不过将0x100000000 进制改成0x40000000
进制，这样两个数字进行四则运算的最大结果为 0x3fffffff * 0x3fffffff，小于
0xffffffffffffff，可以用一个双精度浮点类型（double，52位有效数字）来储存
这一中间结果，只是不能简单地用高位低位来将中间结果拆分成两个“数字”。
加减乘除
设有大数A、B和C，其中A>=B：
A=Sum[i=0 to p](A*r**i)
B=Sum[i=0 to q](B*r**i)
C=Sum[i=0 to n](C*r**i)
r=0x100000000，0<=A,B,C=q
则当C=A+B、C=A-B、C=A*B时，我们都可以通过计算出C来获得C：
C=A+B，显然C不总是等于A+B，因为A+B可能>0xffffffff，而C
必须<=0xffffffff，这时就需要进位，当然在计算C[i-1]时也可能产生了进位，所
以计算C时还要加上上次的进位值。如果用一个64位变量result来记录和，另一
个32位变量carry来记录进位，则有：
carry=0
FOR i FROM 0 TO p
result=A+B+carry
C=result%0x100000000
carry=result/0x100000000
IF carry=0 n=p
ELSE n=p+1
C=A-B，同理C不总是等于A-B，因为A-B可能<0，而C必须>=0，
这时就需要借位，同样在计算C[i-1]时也可能产生了借位，所以计算C时还要减
去上次的借位值：
carry=0
FOR i FROM 0 TO p
IF A-B-carry>=0
C=A-B-carry
carry=0
ELSE
C=0x100000000+A-B-carry
carry=1
n=p
WHILE C[n]=0 n=n-1
C=A*B，首先我们需要观察日常做乘法所用的“竖式计算”过程：
A3 A2 A1 A0
* B2 B1 B0
-------------------------------
= A3B0 A2B0 A1B0 A0B0
+ A3B1 A2B1 A1B1 A0B1
+ A3B2 A2B2 A1B2 A0B2
-------------------------------
= C5 C4 C3 C2 C1 C0
可以归纳出：C=Sum[j=0 to q](A[i-j]*B[j])，其中i-j必须>=0且<=p。当然这
一结论没有考虑进位，虽然计算A[i-j]*B[j]和Sum的时候都可能发生进位，但显然
这两种原因产生的进位可以累加成一个进位值。最终可用如下算法完成乘法：
n=p+q-1
carry=0
For i FROM 0 TO n
result=carry
For j FROM 0 TO q
IF 0<=i-j<=p result=result+A[i-j]*B[j]
C=result%0x100000000
carry=result/0x100000000
IF carry!=0
n=n+1
C[n]=carry
对于C=A/B，由于无法将B 对A“试商”，我们只能转换成B[q]对A[p]的试商来得到
一个近似值，所以无法直接通过计算C来获得C，只能一步步逼近C。由于：
B*(A[p]/B[q]-1)*0x100000000**(p-q)令：X=0，重复A=A-X*B，X=X+(A[p]/B[q]-1)*0x100000000**(p-q)，直到A则：X=A/B，且此时的A=A%B
注意对于任意大数A*0x100000000**k，都等价于将A 的数组中的各元素左移k 位，
不必计算；同样，A/0x100000000**k则等价于右移。
欧几里得方程
在RSA 算法中，往往要在已知A、N的情况下，求 B，使得 (A*B)%N=1。即相当
于求解B、M都是未知数的二元一次不定方程 A*B-N*M=1 的最小整数解。
而针对不定方程ax-by=c 的最小整数解，古今中外都进行过详尽的研究，西方
有著名的欧几里德算法，即辗转相除法，中国有秦九韶的“大衍求一术”。事实上
二元一次不定方程有整数解的充要条件是c为a、b的最大公约数。即当c=1时，a、b
必须互质。而在RSA算法里由于公钥d为素数，素数与任何正整数互质，所以可以通
过欧几里德方程来求解私钥e。
欧几里德算法是一种递归算法，比较容易理解：
例如：11x-49y=1，求x
（a） 11 x - 49 y = 1 49%11=5 ->
（b） 11 x - 5 y = 1 11%5 =1 ->
（c） x - 5 y = 1
令y=0 代入（c）得x=1
令x=1 代入（b）得y=2
令y=2 代入（a）得x=9
同理可使用递归算法求得任意 ax-by=1（a、b互质）的解。实际上通过分析归
纳将递归算法转换成非递归算法就变成了大衍求一术：
x=0,y=1
WHILE a!=0
i=y
y=x-y*a/b
x=i
i=a
a=b%a
b=i
IF x<0 x=x+b
RETURN x
模幂运算
模幂运算是RSA 的核心算法，最直接地决定了RSA 算法的性能。针对快速模幂
运算这一课题，西方现代数学家提出了大量的解决方案，通常都是先将幂模运算转
化为乘模运算。
例如求D=C**15 % N，由于：a*b % n = (a % n)*(b % n) % n，所以：
C1 =C*C % N =C**2 % N
C2 =C1*C % N =C**3 % N
C3 =C2*C2 % N =C**6 % N
C4 =C3*C % N =C**7 % N
C5 =C4*C4 % N =C**14 % N
C6 =C5*C % N =C**15 % N
即：对于E=15的幂模运算可分解为6 个乘模运算，归纳分析以上方法可以发现
对于任意E，都可采用以下算法计算D=C**E % N：
D=1
WHILE E>=0
IF E%2=0
C=C*C % N
E=E/2
ELSE
D=D*C % N
E=E-1
RETURN D
继续分析会发现，要知道E 何时能整除 2，并不需要反复进行减一或除二的操
作，只需验证E 的二进制各位是0 还是1 就可以了，从左至右或从右至左验证都可
以，从左至右会更简洁，设E=Sum[i=0 to n](E*2**i)，0<=E<=1，则：
D=1
FOR i=n TO 0
D=D*D % N
IF E=1 D=D*C % N
RETURN D
这样，模幂运算就转化成了一系列的模乘运算。
模乘运算
对于乘模运算 A*B%N，如果A、B都是1024位的大数，先计算A*B，再% N，就会
产生2048位的中间结果，如果不采用动态内存分配技术就必须将大数定义中的数组
空间增加一倍，这样会造成大量的浪费，因为在绝大多数情况下不会用到那额外的
一倍空间，而采用动态内存分配技术会使大数存储失去连续性而使运算过程中的循
环操作变得非常繁琐。所以模乘运算的首要原则就是要避免直接计算A*B。
设A=Sum[i=0 to k](A*r**i)，r=0x10000000，0<=AC = A*B = Sum[i=0 to n](A*B*r**i) %N
可以用一个循环来处理：
C=0;
FOR i=n to 0
C=C*r
C=C+A*B
RETURN C
这样将一个多位乘法转换成了一系列单位乘法和加法，由于：
a*b %n = (a%n * b%n) %n
a+b %n = (a%n + b%n) %n
所以，对于求C=A*B %N，我们完全可以在求C的过程中完成：
C=0;
FOR i=n to 0
C=C*r %N
C=C+A*B %N
RETURN C
这样产生的最大中间结果是A*B 或C*r，都不超过1056位，空间代价会小得
多，但是时间代价却加大了，因为求模的过程由一次变成了多次。对于孤立的乘模
运算而言这种时间换空间的交易还是值得的，但是对于反复循环的乘模运算，这种
代价就无法承受，必须另寻出路。

蒙哥马利模乘
由于RSA 的核心算法是模幂运算，模幂运算又相当于模乘运算的循环，要提高
RSA 算法的效率，首要问题在于提高模乘运算的效率。不难发现，模乘过程中复杂
度最高的环节是求模运算，因为一次除法实际上包含了多次加法、减法和乘法，如
果在算法中能够尽量减少除法甚至避免除法，则算法的效率会大大提高。
设A=Sum[i=0 to k](A*2**i)，0<=A<=1，则：
C= A*B = Sum[i=0 to k](A*B*2**i)
可用循环处理为：
C=0
FOR i FROM k TO 0
C=C*2
C=C+A*B
RETURN C
若令 C'= A*B*2**(-k)，则：
C'= Sum[i=0 to k](A*B*2**(i-k))
用循环处理即：
C'=0
FOR i FROM 0 TO k
C'=C'+A*B
C'=C'/2
RETURN C'
通过这一算法求A*B*2**(-k)是不精确的，因为在循环中每次除以2都可能有余
数被舍弃了，但是可以通过这一算法求A*B*2**(-k) %N的精确值，方法是在对C'除
2之前，让C'加上C'[0]*N。由于在RSA中N是两个素数的积，总是奇数，所以当C'是
奇数时，C'[0]=1，C'+C'[0]*N 就是偶数，而当C'为偶数时C'[0]=0，C'+C'[0]*N
还是偶数，这样C'/2 就不会有余数被舍弃。又因为C'+N %N = C' %N，所以在计算
过程中加若干次N，并不会影响结果的正确性。可以将算法整理如下：
C'=0
FOR i FROM 0 TO k
C'=C'+A*B
C'=C'+C'[0]*N
C'=C'/2
IF C'>=N C'=C'-N
RETURN C'
由于在RSA中A、B总是小于N，又0<=A,C'[0]<=1，所以：
C' = (C'+A*B+C'[0]*N)/2
C' < (C'+2N)/2
2C' < C'+2N
C' < 2N
既然C'总是小于2N，所以求C' %N 就可以很简单地在结束循环后用一次减法来
完成，即在求A*B*2**(-k) %N的过程中不用反复求模，达到了我们避免做除法的目
的。当然，这一算法求得的是A*B*2**(-k) %N，而不是我们最初需要的A*B %N。但
是利用A*B*2**(-k)我们同样可以求得A**E %N。
设R=2**k %N，R'=2**(-k) %N，E=Sum[i=0 to n](E*2**i)：
A'=A*R %N
X=A'
FOR i FROM n TO 0
X=X*X*R' %N
IF E=1 X=X*A'*R' %N
X=X*1*R' %N
RETURN X
最初：
X = A*R %N，
开始循环时：
X = X*X*R' %N
= A*R*A*R*R' %N
= A**2*R %N
反复循环之后：
X = A**E*R %N
最后：
X = X*1*R' %N
= A**E*R*R' %N
= A**E %N
如此，我们最终实现了不含除法的模幂算法，这就是著名的蒙哥马利算法，而
X*Y*R' %N 则被称为“蒙哥马利模乘”。以上讨论的是蒙哥马利模乘最简单，最容
易理解的二进制形式。蒙哥马利算法的核心思想在于将求A*B %N转化为不需要反复
取模的A*B*R' %N，但是利用二进制算法求1024位的A*B*R' %N，需要循环1024次之
多，我么必然希望找到更有效的计算A*B*R' %N的算法。
考虑将A表示为任意的r进制：
A = Sum[i=0 to k](A*r**i) 0<=A<=r
我们需要得到的蒙哥马利乘积为：
C'= A*B*R' %N R'=r**(-k)
则以下算法只能得到C'的近似值
C'=0
FOR i FROM 0 TO k
C'=C'+A*B
C'=C'/r
IF C'>=N C'=C'-N
RETURN C'
因为在循环中每次C'=C'/r 时，都可能有余数被舍弃。假如我们能够找到一个
系数 q，使得(C' + A*B + q*N) %r =0，并将算法修改为：
C'=0
FOR i FROM 0 TO k
C'=C'+A*B+q*N
C'=C'/r
IF C'>=N C'=C'-N
RETURN C'
则C'的最终返回值就是A*B*R' %N的精确值，所以关键在于求q。由于：
(C' + A*B + q*N) %r =0
==> (C' %r + A*B %r + q*N %r) %r =0
==> (C'[0] + A*B[0] + q*N[0]) %r =0
若令N[0]*N[0]' %r =1，q=(C'[0]+A*B[0])*(r-N[0]') %r，则：
(C'[0] + A*B[0] + q*N[0]) %r
= (C'[0]+A*B[0] - (C'[0]+A*B[0])*N[0]'*N[0]) %r) %r
= 0
于是我们可以得出r为任何值的蒙哥马利算法：
m=r-N[0]'
C'=0
FOR i FROM 0 TO k
q=(C'[0]+A*B[0])*m %r
C'=(C'+A*B+q*N)/r
IF C'>=N C'=C'-N
RETURN C'
如果令 r=0x100000000，则 %r 和 /r 运算都会变得非常容易，在1024位的运
算中，循环次数k 不大于32，整个运算过程中最大的中间变量C'=(C'+A*B+q*N)
< 2*r*N < 1057位，算法效率就相当高了。唯一的额外负担是需要计算 N[0]'，使
N[0]*N[0]' %r =1，而这一问题前面已经用欧几里德算法解决过了，而且在模幂运
算转化成反复模乘运算时，N是固定值，所以N[0]'只需要计算一次，负担并不大。

素数测试方法
数论学家利用费马小定理研究出了多种素数测试方法，目前最快的算法是拉宾
米勒测试算法，其过程如下：
（1）计算奇数M，使得N=(2**r)*M+1
（2）选择随机数A（3）对于任意i（4）或者，若A**M % N = 1，则N通过随机数A的测试
（5）让A取不同的值对N进行5次测试，若全部通过则判定N为素数
若N 通过一次测试，则N 不是素数的概率为 25%，若N 通过t 次测试，则N 不
是素数的概率为1/4**t。事实上取t 为5 时，N 不是素数的概率为 1/128，N 为素
数的概率已经大于99.99%。
在实际应用中，可首先用300—500个小素数对N 进行测试，以提高拉宾米勒测
试通过的概率，从而提高整体测试速度。而在生成随机素数时，选取的随机数最好
让r=0，则可省去步骤（3）的测试，进一步提高测试速度。
素数测试是RSA 选取秘钥的第一步，奇妙的是其核心运算与加解密时所需的运
算完全一致：都是模幂运算。而模幂运算过程中中所需求解的欧几里德方程又恰恰
正是选取密钥第二步所用的运算。可见整个RSA 算法具有一种整体的和谐。

蒙哥马利（Montgomery）算法简介蒙哥马利蒙哥马利蒙哥马利名人传记：蒙哥马利 “沙漠之鼠”蒙哥马利 “沙漠之鼠”蒙哥马利周总理与蒙哥马利谁更会说话英国元帅蒙哥马利如是说蒙哥马利盛赞毛泽东001 “蒙哥马利之问”的现实答案（思想纵横）蒙哥马利说：巴顿是萤火虫，毛泽东是太阳蒙哥马利奉劝自由世界别和中国打仗海外版望海楼：“蒙哥马利之问”的现实答案：“蒙哥马利之问”的现实答案股市梅花易数绝算法简介股市梅花易数绝算法简介股市梅花易数绝算法简介探究文革是与非（三）毛泽东对话蒙哥马利：接班人刘少奇第一邓小平第二二战元帅蒙哥马利向毛泽东敬了两个军礼英国元帅蒙哥马利说：巴顿是萤火虫，毛泽东是太阳 - 世界历史 - 铁血社区英国元帅蒙哥马利说：巴顿是萤火虫，毛泽东是太阳 - 世界历史 - 铁血社区抗美援朝后：英国元帅蒙哥马利奉劝世界不要跟中国打仗阅抗美援朝后：英国元帅蒙哥马利奉劝世界不要跟中国打仗