书写高效的正则表达式，正则表达式性能优化方法

影响 NFA 类正则表达式（常见语言：GNU Emacs,Java,ergp,less,more,.NET语言,PCRE library,Perl,PHP,Python,Ruby,sed,vi ) 其实主要是它的“回溯”，减少“回溯”次数（减少循环查找同一个字符次数），是提高性能的主要方法。

演示

源字符串：<script type="text/javascript">adsfadfsdasfsdafdsfsadfsa</script>
匹配要求：匹配 <script….>….</script> 标签里面所有内容，包括改标签

因为 <script 后面可能出现字符、空白、特殊符号等，还有标签里面也可能出现各种 js 代码。

我们简单方法是，正则表达式：<script.*?>.*?</script> (测试工具使用了：regexBuddy)

总共花费 115 步，回溯了：48 次。因为我们使用 . 字符，匹配默认情况下除了 \n 之外所有字符。

我们分析特点发现，<script…> 后面，应该是除了 > 之外都可以字符，然后一对 <script> 标签里面 js 内容。可以定义为除了 < 之外。正则表达式：<script[^?>]+>[^<]+</script>

19 步，0 次回溯！，步骤只有原先的 15 %左右，性能几倍的提升了！从上面我们看到，不同正则表达式，对通用字符配平，性能相差会很大。减少“回溯”是最好的方法，减少回溯其中最主要的方法是：”用最小范围的元字符，尽量避免用过大的元字符！”。

一般规律如下：

如：我想匹配一些英文字母，它后面接的是数字，如：abc1234。我可以写 \w+\d+，也可以写 [a-zA-Z]+\d+ ，其中第一个 \w+ 会先匹配所有 abc1234，然后回溯，匹配满足 \d+ 格式，一共4步，而后面这个只需要 2 步，步骤减少一半了！