一种改进的大素数乘法的设计与实现论文

发布时间：2023-04-17 10:38:27 文章来源：SCI论文网我要评论

SCI论文（www.lunwensci.com）

　　摘要：RSA 算法作为应用较为广泛的非对称加密算法,经过蒙哥马利模乘等算法的优化后主要基于有限域运算中大数的加法运算和乘法运算,数位规模通常在 1024 位甚至更高。大数的乘法运算随着参与运算位数的增加会导致 RSA 算法的运行时间效率下降。随着多核处理器架构的普及,如何在多核多线程并行运算背景下提高 RSA 算法效率就成为解决 RSA 算法性能瓶颈的关键。本文通过多核并行运算背景下分析大数乘法算法从而提出一种改进的适应多核运算的大数相乘算法,依靠此算法提高 RSA 算法和大规模科学计算中高精度浮点数运算效率。

　　关键词：非对称加密算法,RSA,大数乘法运算,COMBA 算法

　　Design and Implementation of an Improved Multiplication of Large Prime Numbers

　　 DA Simeng

　　(Ordos Human Resources and Social Security Bureau, Ordos Inner Mongolia 017400)

　　【Abstract】： As a widely used asymmetric encryption algorithm, the RSA algorithm is mainly based on the addition and multiplication of large numbers in finite field operations after the optimization of Montgomery modular multiplication and other algorithms. The digital scale is usually 1024 bits or even higher. The multiplication of large numbers will lead to a decrease in the running time eﬃciency of the RSA algorithm as the number of bits involved in the operation increases. With the popularization of multi-core processor architecture, how to improve the eﬃciency of RSA algorithm in the context of multi-core and multi-thread parallel computing has become the key to solving the performance bottleneck of RSA algorithm. This paper analyzes the multiplication algorithm of large numbers in the context of multi-core parallel computing, and proposes an improved multi-core multiplication algorithm for large numbers. Relying on this algorithm, it improves the eﬃciency of high-precision ﬂoating-point arithmetic in RSA algorithm and large-scale scientiﬁc computing.

　　【Key words】： asymmetric encryption algorithm;RSA;big integer multiplication;COMBA algorithm

　　0 引言

　　RSA 密码算法作为迄今最成熟最广泛应用的公钥密码体制,由于其安全性高、抗数学攻击能力强等优点而被广泛用于 SoC 智能芯片等各领域 [1]。

　　RSA 算法的安全性是基于数论和计算复杂性理论, 即计算两个大素数乘积是十分容易的,但是想要很快将两个大素数的乘积分解,求出它的因子在计算上是困难的,至今还没有一种方法能够很好地将其破解 [2]。计算机科学领域近年来涌现出了很多关于 RSA 算法研究, 包括了软件和硬件领域。作为 RSA 算法的提出人Rivest 提出了硬件思路, 而 Shamir and Adleman 则提出了先进的模运算的算法 [3]。RSA 加密算法迄今为止已经成功商业运营超过 40 年,由于计算性能和 RSA 算法研究的深入进行,在 2001 年 Lenstra and Verheul 得出结论表明如果想要在 2040 年仍然确保 RSA 算法的安全性,就要将目前流行的 1024 位的秘钥扩大三倍 [4]。随着多核多线程架构的诞生和普遍使用。由于 RSA 算法的使用范围非常广泛,且很多项目并没有专门针对 RSA 算法的硬件加速器支持,因此本文聚焦在多核并行计算背景下从纯软件角度提升 RSA 算法运行的时间性能。

　　RSA 算法的运行性能的关键点在于模幂运算即 C=Me mod n 和 M=Cd mod n。模幂运算通常会被分解为一系列的模乘运算实现优化。许多现代密码学算法都强烈依赖于对大整数的模运算,所需大整数通常是素数或两个素数的乘积。因此提升 RSA 算法性能相关研究的一个重点方向在于有限域中如何提升大数运算性能。在模幂运算中通常有大概 25% 的运算时间用于乘法操作 [5] ,因此近年来关于大数相乘算法的研究一直是 RSA 算法性能提升的重点。

　　提高加密算法效率的一种有效方式是在有限域中提高大数乘法的效率 [6]。目前软件提高大整数乘法算法的研究主要集中在两方面：(1)基于现有大数乘法运算较为成熟的算法例如基线算法、Karatsuba 算法、Toom-Cook3 算法进行算法优化和性能调优;(2)随着多核多线程 CPU 的普及, 通过提高算法的并行度进而提升算法的时间性能。本文结合上述两种研究思路,通过引入一种更适应多核多线程运算规则的大数乘法算法,从而提高整个 RSA 算法的运行时间效率。

　　1 大数相乘算法效率比较与改进的大数相乘算法

　　目前的处理器对于二进制数位的移位运算会比乘法要快很多,因此可以使用左移位操作代替乘以 2 的次幂, 乘以不同数的乘法也可以用一连串的移位和加减法来代替。大数相乘的算法主要有基线算法、傅立叶相乘算法、 Karatsuba 乘法、Toom-Cook3 相乘算法。Karatsuba 乘法和 Toom-Cook3 相乘算法的核心思路是一致的,只不过在应用分治操作时 Karatsuba 乘法是分为两部分, 而 Toom-Cook3 相乘算法则是分为三部分。由于中国余数定理使得 RSA 算法的操作数的规模减小了一半,因此即使 4096 位的大数运算也可以减半位 2048 位,因此本文基于上述原因对于所需位数十分庞大的傅立叶相乘不做过度赘述。我们分别对多线程运行情况下在运算规模被分解为较小位数的情况下对 Karatsuba 乘法、Toom- Cook3-way 相乘和基线相乘法进行性能分析并比较其在 64 位、128 位、512 位、768 位、1024 位、1536 位、 2048 位等 7 种较常见情况下的理论复杂度和消耗时间 [6]。

　　下面我们介绍 COMBA 算法,想要了解 COMBA 技术首先来看一下两个大数相乘的过程。例如需要对 X 和 Y 两个 5 位的大数相乘,每一个大数位为 b 个二进制位。其结果存放在目标数组 T 里面,则在构造 T[n] 的元素时对其中所要存放的元素在得到两个相乘的大数的时候已经可以确定了,并且它们之间满足如公式(1)所示的关系：

　　X0Yn-1+X1Yn-2+X2Yn-3 ……+Xn-1Y0=T[n-1] (1)

　　也就是说 T 的元素的位置也就是 n-1 等于上述公式里面的等式左边的 X 和 Y 的下标的和。因此就可以在没有进行完整的大数相乘的时候,甚至是任何时候,得到想得到的任何一个位置上的目标数组 T 的值,也就是 X×Y 的任何位置上的值(此时可以不考虑进位)。这就是 COMBA 算法优势所在。下面通过 COMBA 算法的大数相乘的伪代码进行比较来说明其效率明显提升的原因,下面再看一下 COMBA 算法的伪代码。

　　我们看到在 CombaMul (a,d,T) 函数里, 和前面的基线算法相比具有两个重大的优点。

　　(1) CombaMul 函数的运算过程是垂直式的运算, 在运算 T[i] 的时候可以利用公式(1)的等式来构造出该列的值,也就是 T[i] 的值。同时由于 Temp 值可以常驻 CPU 寄存器,因此可以降低内存访问次数。这在乘法运算当中起着非常关键的作用。

　　(2) 基线算法需要在每一次的 Temp 的计算结果后进行一次 mod 操作取个位和位移操作取进位的过程, 也就是说在需要 k2 次的 mod 操作和位移操作,而在 CombaMul 函数中由于只是在每一列的结束的时候才进行 mod 操作和位移操作,因此其次数只是需要 2k-1 次。从而提升了效率。如表 1 所示展示了基线算法、 Karatsuba 算法与 COMBA 算法在 n 位大数相乘时所需乘法、加法、存储操作的次数。

　　2 性能测试与分析

　　笔者基于英特尔酷睿 i7-10700F 处理器(8 核心 16线程, 主频 2.90GHz) 和 Win32 平台 MSVC 编译器环境对上述程序 COMBA 大数相乘算法进行代码实现,并与基线算法、Karatsuba 算法、TOMMCOOK-3 算法在不同大数规模(分别为 64 位、128 位、512 位、768 位、1024 位、1536 位、2048 位) 下相乘结果进行了比较,结果如图 1 所示(运算结果时间单位为毫秒,循环次数为 10000 次)。

　　从图 1 中可以看出多核多线程背景下在 64 位到 2048 位大数相乘过程中 COMBA 算法始终保持着时间效率的优势。其中在 64 位时比效率排名第二的基线算法提高 88.6%,在 128 位时比效率排名第二的基线算法提高 83.8%,在 256 位时比效率排名第二的基线算法提高 70%,在 512 位时比效率排名第二的基线算法提高 51.7%,在 768 位时比效率排名第二的基线算法提高 41%,在 1024 位时比效率排名第二的基线算法提高 33.7%,在 1536 位时比效率排名第二的基线算法提高 30.6%, 在 2048 位时比效率排名第二的 Karatsuba 算法提高 24.2%。从上述数据可以看出随着相乘大数规模的增加 COMBA 算法的比较优势也在下降,从 64 位大数运算中提高 88.6% 到 2048 位大数运算中提高 24.2%,随着大数位数的增加其算法优势呈线性降。

　　3 总结

　　本文设计的 COMBA 大数乘法运算算法通过采用不进位的垂直式运算和降低内存访问次数的方法在大数乘

　　法中大大的减少了在多核多线程的纯软件环境下的耗时且次数庞大的位移操作。本算法可以在无特殊硬件加速器的情况下提高 RSA 算法中大数相乘运算的运行效率。该算法将大数乘法运算的效率在 64 位大数运算中提高了 88.6%,在 2048 位大数运算中提高了 24.2%。

　　参考文献

　　[1] 刘莺迎.基于余数系统抗MESD攻击的RSA算法[J].计算机应用与软件,2021(4):324-327.

　　[2] 周金治,高磊.SSS基于多素数和参数替换的改进RSA算法研究[J].计算机应用研究,2019.36(2):495-498.

　　[3] JOPPE W BOS,MARTIJN STAM.Computational Cryptography Algorithmic Aspects of Cryptology[M]. 2020:226-228.

　　[4] LENSTRA A K,VERHEUL E R.Selecting Cryptographic Key Sizes[J].Journal of Cryptology,2001.14(4):255-293. [5] DENIS T S,ROSE G.BigNum:math:Implementing Cryptographic Multiple Precision Arithmetic[M].2006: 91-92.

　　[6] KOVTUN V,OKHRIMENKO A.Approaches for the Performance Increasing of Software Implementation of Integer Multiplication in Prime Fields[J].IACR Cryptology Eprint Archive,2012.3(2):170-175.

关注SCI论文创作发表，寻求SCI论文修改润色、SCI论文代发表等服务支撑，请锁定SCI论文网！

文章出自SCI论文网转载请注明出处：https://www.lunwensci.com/jisuanjilunwen/54714.html

本文标签：非对称加密算法 ,RSA ,大数乘法运算 ,COMBA 算法

发表评论

点击排行

Learning to Explain: An

　可解释性是一个非常重要的标准。机器学习模型...　详细>>

SCI论文范文

中国地方政府环境治理

如何设计有效的环境治理政策, 是学术界和政策...　详细>>

一种改进的大素数乘法的设计与实现论文

相关内容

发表评论

点击排行

SCI论文范文