什么是正则表达式中的非捕获组？

Question

更多

never_had_a_name

问题

什么是正则表达式中的非捕获组？

非捕获组，即(?:)，如何在正则表达式中使用，它们有什么用？

entpnerd

已编辑的问题 27日八月 2019 в 8:07

编程

解决方案/答案

18日八月 2010 в 1:24

更多

你可以使用捕获组来组织和解析一个表达式。非捕获组具有第一个好处，但没有第二个好处的开销。例如，你仍然可以说一个非捕获组是可选的。

假设你想匹配数字文本，但有些数字可以写成1st、2nd、3rd、4th、...。如果您想捕获数字部分，但不捕获（可选）后缀，您可以使用非捕获组。

([0-9]+)(?:st|nd|rd|th)?

这将匹配的数字形式1，2，3... 或1，2，3，......等形式的数字。但它只能捕获数字部分。

163

0

RC.

18日八月 2010 в 1:22

更多

?:在你想对一个表达式进行分组，但你不想把它保存为字符串的匹配/捕获部分时使用。

一个例子是要匹配一个IP地址的东西。

/(?:\d{1,3}\.){3}\d{1,3}/

请注意，我并不关心保存前3个八位数，但(?:...)分组使我能够缩短铰链，而不产生捕获和存储匹配的开销。

100

0

sepp2k

18日八月 2010 в 1:23

更多

它使该组成为非捕获组，这意味着该组所匹配的子串将不包括在捕获的列表中。用ruby中的一个例子来说明两者的区别。

"abc".match(/(.)(.)./).captures #=> ["a","b"]
"abc".match(/(?:.)(.)./).captures #=> ["b"]

35

0

Gaurav

1日三月 2016 в 9:43

更多

好吧，我是一个JavaScript开发人员，将尝试解释其与JavaScript相关的意义。

考虑一个场景，你想匹配 "猫是动物"。当你想把猫和动物匹配起来，并且两者之间应该有一个 "是 "字。

 // this will ignore "is" as that's is what we want
"cat is animal".match(/(cat)(?: is )(animal)/) ;
result ["cat is animal", "cat", "animal"]

 // using lookahead pattern it will match only "cat" we can
 // use lookahead but the problem is we can not give anything
 // at the back of lookahead pattern
"cat is animal".match(/cat(?= is animal)/) ;
result ["cat"]

 //so I gave another grouping parenthesis for animal
 // in lookahead pattern to match animal as well
"cat is animal".match(/(cat)(?= is (animal))/) ;
result ["cat", "cat", "animal"]

 // we got extra cat in above example so removing another grouping
"cat is animal".match(/cat(?= is (animal))/) ;
result ["cat", "animal"]

Alan Moore

编辑本段答案1日三月 2016 в 10:00

8

0

RBT

15日七月 2017 в 3:13

更多

我遇到的一个有趣的事情是，你可以在一个非捕获组中拥有一个捕获组。请看下面的regex来匹配网站URL。

var parse_url_regex = /^(?:([A-Za-z]+):)(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;

输入网址字符串。

var url = "http://www.ora.com:80/goodparts?q#fragment";

我的regex中的第一组(?:([A-Za-z]+):)是一个非捕获组，它与协议方案和冒号:字符相匹配，即：http:。 http:但是当我运行下面的代码时，我看到返回数组的第1个索引包含了字符串http，而我想http和冒号:都不会被报告，因为它们在一个非捕获组中。

console.debug(parse_url_regex.exec(url));

[！[在此输入图像描述][1]][1]

我想如果第一个组(?:([A-Za-z]+):)是一个非捕获组，那么为什么它在输出数组中返回http字符串。

所以如果你注意到在非捕获组里面有一个嵌套组([A-Za-z]+)。那个嵌套组([A-Za-z]+)本身就是一个捕获组(开头没有?:)，在非捕获组(?:([A-Za-z]+):)里面。这就是为什么文本http仍然会被捕获，但冒号:字符在非捕获组内，但在捕获组外，不会在输出数组中被报告。

[1]: https://i.stack.imgur.com/uJher.png

RBT

编辑本段答案15日七月 2017 в 3:34

5

0

Harini

23日五月 2017 в 1:40

更多

我想我会给你答案的。不要在没有检查匹配是否成功的情况下使用捕获变量。

除非匹配成功，否则捕获变量、$1等是无效的，而且它们也不会被清除。

#!/usr/bin/perl  
use warnings;
use strict;   
$_ = "bronto saurus burger";
if (/(?:bronto)? saurus (steak|burger)/)
{
    print "Fred wants a  $1";
}
else
{
    print "Fred dont wants a $1 $2";
}

在上面的例子中，为了避免捕捉到$1中的布朗图，使用了(?:)。如果模式被匹配，那么$1将作为下一个分组模式被捕获。因此，输出结果如下。

Fred wants a burger

如果你不想保存火柴，它是有用的。

2

0

AmerllicA

7日五月 2018 в 3:50

更多

打开你的谷歌浏览器devTools，然后打开控制台标签。然后输入以下内容。

"Peace".match(/(\w)(\w)(\w)/)

运行它，你就会知道。

["Pea", "P", "e", "a", index: 0, input: "Peace", groups: undefined]

JavaScriptRegExp引擎捕获了三组，索引为1,2,3的项目。现在使用非捕获标记查看结果。

"Peace".match(/(?:\w)(\w)(\w)/)

结果是：{{{7395924}}。

["Pea", "e", "a", index: 0, input: "Peace", groups: undefined]

这很明显，什么是非捕获组。

2

0

Naved Ahmad

7日一月 2019 в 8:02

更多

它非常简单，我们可以理解与简单的日期的例子，假设如果日期被提到作为2019年1月1日或2019年5月2日或任何其他日期，我们只是想将其转换为dd/mm/yyyy格式，我们将不需要月'的名称，这是1月或2月的问题，所以为了捕获数字部分，但不是（可选）后缀，你可以使用一个非捕获组。

所以正则表达式将是

([0-9]+)(?:January|February)?

就这么简单

Naved Ahmad

编辑本段答案7日一月 2019 в 8:08

1

0

添加问题

岚，巗峃，。

全部

技术

文化/娱乐

生活/艺术

科学

专业的

业务

用户

全部

新的

编辑：

按照要求，让我也试着解释一下组。

好吧，组有很多用途。它们可以帮助你从更大的匹配中提取精确的信息（也可以命名），它们可以让你重新匹配之前的匹配组，还可以用于替换。让我们试试一些例子，好吗？

好吧，想象一下你有某种XML或HTML（要知道[regex可能不是最好的工具][1]，但它作为一个例子是不错的）。你想解析这些标签，所以你可以这样做（我加了空格，以便于理解）。

<！--语言。 none -->

   \<(?<TAG>.+?)\> [^<]*? \</\k<TAG>\>
or
   \<(.+?)\> [^<]*? \</\1\>

第一个regex有一个命名组(TAG)，而第二个regex使用一个普通组。两种regex都做了同样的事情：它们使用第一组的值（标签的名称）来匹配关闭标签。它们使用第一个组的值（标签的名称）来匹配关闭标签。不同的是，第一条使用名称来匹配值，而第二条使用组索引（从1开始）。

让我们'现在尝试一些替换。考虑下面的文本。

<！--语言。 none -->

Lorem ipsum dolor sit amet consectetuer feugiat fames malesuada pretium egestas.

现在，让我们在它上面使用这个愚蠢的regex。

\b(\S)(\S)(\S)(\S*)\b

这个 regex 匹配至少有 3 个字符的单词，并使用组来分隔前三个字母。结果是这样的。

Match "Lorem"
     Group 1: "L"
     Group 2: "o"
     Group 3: "r"
     Group 4: "em"
Match "ipsum"
     Group 1: "i"
     Group 2: "p"
     Group 3: "s"
     Group 4: "um"
...

Match "consectetuer"
     Group 1: "c"
     Group 2: "o"
     Group 3: "n"
     Group 4: "sectetuer"
...

所以，如果我们应用替换字符串。

<！--语言： none -->

$1_$3$2_$4

... 在它上面，我们试图使用第一组，添加一个下划线，使用第三组，然后是第二组，再添加一个下划线，然后是第四组。由此产生的字符串就会像下面这样。

<！--语言。 none -->

L_ro_em i_sp_um d_lo_or s_ti_ a_em_t c_no_sectetuer f_ue_giat f_ma_es m_la_esuada p_er_tium e_eg_stas.

你也可以使用命名组来进行替换，使用${name}。

要想玩转 regex，我推荐 [http://regex101.com/][2]，它提供了大量关于 regex 工作原理的细节。它还提供了一些 regex 引擎供您选择。

[1]: https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags [2]: http://regex101.com/