Существует ли регулярное выражение для обнаружения правильного регулярного выражения?

Question

Существует ли регулярное выражение для обнаружения правильного регулярного выражения?

В classpath jar и package (directory) - это те же структуры. Просто jar более полезен для перемещения между компьютерами, чем каталог.

679

regex

задан xav 8 January 2016 в 12:58

6 ответов

Хотя совершенно возможно использовать рекурсивный regex, поскольку MizardX отправил, для такого рода вещей это намного более полезно синтаксический анализатор. Regexes были первоначально предназначены, чтобы использоваться с регулярными языками, быть рекурсивными или имеющими группами балансировки является просто патчем.

язык, который определяет допустимый regexes, является на самом деле контекстно-свободной грамматикой, и необходимо использовать соответствующий синтаксический анализатор для обработки его. Вот пример для университетского проекта для парсинга простого regexes (без большинства конструкций). Это использует JavaCC. И да, комментарии находятся на испанском языке, хотя имена методов довольно очевидны.

SKIP :
{
    " "
|   "\r"
|   "\t"
|   "\n"
}
TOKEN : 
{
    < DIGITO: ["0" - "9"] >
|   < MAYUSCULA: ["A" - "Z"] >
|   < MINUSCULA: ["a" - "z"] >
|   < LAMBDA: "LAMBDA" >
|   < VACIO: "VACIO" >
}

IRegularExpression Expression() :
{
    IRegularExpression r; 
}
{
    r=Alternation() { return r; }
}

// Matchea disyunciones: ER | ER
IRegularExpression Alternation() :
{
    IRegularExpression r1 = null, r2 = null; 
}
{
    r1=Concatenation() ( "|" r2=Alternation() )?
    { 
        if (r2 == null) {
            return r1;
        } else {
            return createAlternation(r1,r2);
        } 
    }
}

// Matchea concatenaciones: ER.ER
IRegularExpression Concatenation() :
{
    IRegularExpression r1 = null, r2 = null; 
}
{
    r1=Repetition() ( "." r2=Repetition() { r1 = createConcatenation(r1,r2); } )*
    { return r1; }
}

// Matchea repeticiones: ER*
IRegularExpression Repetition() :
{
    IRegularExpression r; 
}
{
    r=Atom() ( "*" { r = createRepetition(r); } )*
    { return r; }
}

// Matchea regex atomicas: (ER), Terminal, Vacio, Lambda
IRegularExpression Atom() :
{
    String t;
    IRegularExpression r;
}
{
    ( "(" r=Expression() ")" {return r;}) 
    | t=Terminal() { return createTerminal(t); }
    | <LAMBDA> { return createLambda(); }
    | <VACIO> { return createEmpty(); }
}

// Matchea un terminal (digito o minuscula) y devuelve su valor
String Terminal() :
{
    Token t;
}
{
    ( t=<DIGITO> | t=<MINUSCULA> ) { return t.image; }
}

7

ответ дан Santiago Palladino 8 January 2016 в 12:58

Хороший вопрос. Истинные регулярные языки не могут решить произвольно глубоко вложенную хорошо сформированную круглую скобку. Т.е., если Ваш алфавит содержит' (' и')' цель состоит в том, чтобы решить, имеет ли строка их правильно построенную круглую скобку соответствия. Так как это - необходимое требование для регулярных выражений, которые ответ нет.

Однако: если Вы ослабляете требование и добавляете рекурсию, можно, вероятно, сделать это. Причина состоит в том, что рекурсия может действовать как 'стек', позволяющий Вам 'считать' текущую глубину вложения путем продвижения на этот стек.

Russ Cox записал замечательный трактат на regex реализации механизма: Регулярное выражение, Соответствующее, Может Быть Простым И Быстрое

40

ответ дан I GIVE CRAP ANSWERS 8 January 2016 в 12:58

1

@Chris: Вы заявляете, что Утверждения не должны использоваться для проверки параметра. Существует ли причина этого? Я склонен выдавать исключения для проверок параметра особенно в конструкторах, когда я ввожу зависимые объекты. Однако I' m сказанный использовать Утверждения. Я don' t имеют логическое объяснение к использованию исключений, а не утверждений. В состоянии Вы для разъяснения? Аплодисменты – Gavin Chin 23 September 2009 в 06:41

Нет, если Вы строго говоря о регулярных выражениях и не включая некоторые реализации регулярного выражения, которые являются на самом деле контекстно-свободными грамматиками.

существует одно ограничение регулярных выражений, которое лишает возможности писать regex, который соответствует всем и только regexes. Вы не можете соответствовать реализациям, таким как фигурные скобки, которые соединяются. Regexes используют много таких конструкций, позволяет, берут [] в качестве примера. Каждый раз, когда существует [должно быть соответствие]. Достаточно простой для regex" [.*]".

то, Что лишает возможности regexes, - то, что они могут быть вложены. Как можно записать regex, который соответствует вложенным скобкам? Ответ - Вы, не может без бесконечно длинного regex. Можно соответствовать любому количеству вложенного parens через грубую силу, но Вы никогда не можете соответствовать произвольно длинному набору вложенных скобок.

Эта возможность часто упоминается как рассчитывающий (Вы считаете глубину вложения). regex по определению не имеет возможности рассчитать.

РЕДАКТИРОВАНИЕ: Законченная запись сообщения в блоге об этом: Ограничения Регулярного выражения

157

ответ дан Community 8 January 2016 в 12:58

1

Утверждения могут использоваться для проверки параметра внутренний вызовы метода (названный кодом, принадлежащим тому же компоненту) методы, в противоположность внешним вызовам метода (названный другим компонентом). Например, я мог бы утверждать, что параметр закрытого метода типа Удваивает isn' t NaN. – RoadWarrior 31 October 2008 в 11:48

Вряд ли.

Оценивают его в try..catch или независимо от того, что Ваш язык обеспечивает.

242

ответ дан Dan 8 January 2016 в 12:58

1

Хорошая ссылка, спасибо. – topright gamedev 14 May 2010 в 09:17

Следующий пример Пола Макгуайра, первоначально взятый из вики-сайта pyparsing, но теперь доступный только через Wayback Machine , дает грамматику для синтаксического анализа some регулярные выражения для целей возврата набора совпадающих строк. Таким образом, он отклоняет те re, которые включают неограниченное повторение терминов, таких как '+' и '*'. Но это должно дать вам представление о том, как структурировать синтаксический анализатор, который будет обрабатывать re.

# 
# invRegex.py
#
# Copyright 2008, Paul McGuire
#
# pyparsing script to expand a regular expression into all possible matching strings
# Supports:
# - {n} and {m,n} repetition, but not unbounded + or * repetition
# - ? optional elements
# - [] character ranges
# - () grouping
# - | alternation
#
__all__ = ["count","invert"]

from pyparsing import (Literal, oneOf, printables, ParserElement, Combine, 
    SkipTo, operatorPrecedence, ParseFatalException, Word, nums, opAssoc,
    Suppress, ParseResults, srange)

class CharacterRangeEmitter(object):
    def __init__(self,chars):
        # remove duplicate chars in character range, but preserve original order
        seen = set()
        self.charset = "".join( seen.add(c) or c for c in chars if c not in seen )
    def __str__(self):
        return '['+self.charset+']'
    def __repr__(self):
        return '['+self.charset+']'
    def makeGenerator(self):
        def genChars():
            for s in self.charset:
                yield s
        return genChars

class OptionalEmitter(object):
    def __init__(self,expr):
        self.expr = expr
    def makeGenerator(self):
        def optionalGen():
            yield ""
            for s in self.expr.makeGenerator()():
                yield s
        return optionalGen

class DotEmitter(object):
    def makeGenerator(self):
        def dotGen():
            for c in printables:
                yield c
        return dotGen

class GroupEmitter(object):
    def __init__(self,exprs):
        self.exprs = ParseResults(exprs)
    def makeGenerator(self):
        def groupGen():
            def recurseList(elist):
                if len(elist)==1:
                    for s in elist[0].makeGenerator()():
                        yield s
                else:
                    for s in elist[0].makeGenerator()():
                        for s2 in recurseList(elist[1:]):
                            yield s + s2
            if self.exprs:
                for s in recurseList(self.exprs):
                    yield s
        return groupGen

class AlternativeEmitter(object):
    def __init__(self,exprs):
        self.exprs = exprs
    def makeGenerator(self):
        def altGen():
            for e in self.exprs:
                for s in e.makeGenerator()():
                    yield s
        return altGen

class LiteralEmitter(object):
    def __init__(self,lit):
        self.lit = lit
    def __str__(self):
        return "Lit:"+self.lit
    def __repr__(self):
        return "Lit:"+self.lit
    def makeGenerator(self):
        def litGen():
            yield self.lit
        return litGen

def handleRange(toks):
    return CharacterRangeEmitter(srange(toks[0]))

def handleRepetition(toks):
    toks=toks[0]
    if toks[1] in "*+":
        raise ParseFatalException("",0,"unbounded repetition operators not supported")
    if toks[1] == "?":
        return OptionalEmitter(toks[0])
    if "count" in toks:
        return GroupEmitter([toks[0]] * int(toks.count))
    if "minCount" in toks:
        mincount = int(toks.minCount)
        maxcount = int(toks.maxCount)
        optcount = maxcount - mincount
        if optcount:
            opt = OptionalEmitter(toks[0])
            for i in range(1,optcount):
                opt = OptionalEmitter(GroupEmitter([toks[0],opt]))
            return GroupEmitter([toks[0]] * mincount + [opt])
        else:
            return [toks[0]] * mincount

def handleLiteral(toks):
    lit = ""
    for t in toks:
        if t[0] == "\\":
            if t[1] == "t":
                lit += '\t'
            else:
                lit += t[1]
        else:
            lit += t
    return LiteralEmitter(lit)    

def handleMacro(toks):
    macroChar = toks[0][1]
    if macroChar == "d":
        return CharacterRangeEmitter("0123456789")
    elif macroChar == "w":
        return CharacterRangeEmitter(srange("[A-Za-z0-9_]"))
    elif macroChar == "s":
        return LiteralEmitter(" ")
    else:
        raise ParseFatalException("",0,"unsupported macro character (" + macroChar + ")")

def handleSequence(toks):
    return GroupEmitter(toks[0])

def handleDot():
    return CharacterRangeEmitter(printables)

def handleAlternative(toks):
    return AlternativeEmitter(toks[0])


_parser = None
def parser():
    global _parser
    if _parser is None:
        ParserElement.setDefaultWhitespaceChars("")
        lbrack,rbrack,lbrace,rbrace,lparen,rparen = map(Literal,"[]{}()")

        reMacro = Combine("\\" + oneOf(list("dws")))
        escapedChar = ~reMacro + Combine("\\" + oneOf(list(printables)))
        reLiteralChar = "".join(c for c in printables if c not in r"\[]{}().*?+|") + " \t"

        reRange = Combine(lbrack + SkipTo(rbrack,ignore=escapedChar) + rbrack)
        reLiteral = ( escapedChar | oneOf(list(reLiteralChar)) )
        reDot = Literal(".")
        repetition = (
            ( lbrace + Word(nums).setResultsName("count") + rbrace ) |
            ( lbrace + Word(nums).setResultsName("minCount")+","+ Word(nums).setResultsName("maxCount") + rbrace ) |
            oneOf(list("*+?")) 
            )

        reRange.setParseAction(handleRange)
        reLiteral.setParseAction(handleLiteral)
        reMacro.setParseAction(handleMacro)
        reDot.setParseAction(handleDot)

        reTerm = ( reLiteral | reRange | reMacro | reDot )
        reExpr = operatorPrecedence( reTerm,
            [
            (repetition, 1, opAssoc.LEFT, handleRepetition),
            (None, 2, opAssoc.LEFT, handleSequence),
            (Suppress('|'), 2, opAssoc.LEFT, handleAlternative),
            ]
            )
        _parser = reExpr

    return _parser

def count(gen):
    """Simple function to count the number of elements returned by a generator."""
    i = 0
    for s in gen:
        i += 1
    return i

def invert(regex):
    """Call this routine as a generator to return all the strings that
       match the input regular expression.
           for s in invert("[A-Z]{3}\d{3}"):
               print s
    """
    invReGenerator = GroupEmitter(parser().parseString(regex)).makeGenerator()
    return invReGenerator()

def main():
    tests = r"""
    [A-EA]
    [A-D]*
    [A-D]{3}
    X[A-C]{3}Y
    X[A-C]{3}\(
    X\d
    foobar\d\d
    foobar{2}
    foobar{2,9}
    fooba[rz]{2}
    (foobar){2}
    ([01]\d)|(2[0-5])
    ([01]\d\d)|(2[0-4]\d)|(25[0-5])
    [A-C]{1,2}
    [A-C]{0,3}
    [A-C]\s[A-C]\s[A-C]
    [A-C]\s?[A-C][A-C]
    [A-C]\s([A-C][A-C])
    [A-C]\s([A-C][A-C])?
    [A-C]{2}\d{2}
    @|TH[12]
    @(@|TH[12])?
    @(@|TH[12]|AL[12]|SP[123]|TB(1[0-9]?|20?|[3-9]))?
    @(@|TH[12]|AL[12]|SP[123]|TB(1[0-9]?|20?|[3-9])|OH(1[0-9]?|2[0-9]?|30?|[4-9]))?
    (([ECMP]|HA|AK)[SD]|HS)T
    [A-CV]{2}
    A[cglmrstu]|B[aehikr]?|C[adeflmorsu]?|D[bsy]|E[rsu]|F[emr]?|G[ade]|H[efgos]?|I[nr]?|Kr?|L[airu]|M[dgnot]|N[abdeiop]?|Os?|P[abdmortu]?|R[abefghnu]|S[bcegimnr]?|T[abcehilm]|Uu[bhopqst]|U|V|W|Xe|Yb?|Z[nr]
    (a|b)|(x|y)
    (a|b) (x|y)
    """.split('\n')

    for t in tests:
        t = t.strip()
        if not t: continue
        print '-'*50
        print t
        try:
            print count(invert(t))
            for s in invert(t):
                print s
        except ParseFatalException,pfe:
            print pfe.msg
            print
            continue
        print

if __name__ == "__main__":
    main()

6

ответ дан 19 December 2019 в 20:21

Другие вопросы по тегам:

regex

Похожие вопросы:

@Chris: Вы заявляете, что Утверждения не должны использоваться для проверки параметра. Существует ли причина этого? Я склонен выдавать исключения для проверок параметра особенно в конструкторах, когда я ввожу зависимые объекты. Однако I' m сказанный использовать Утверждения. Я don' t имеют логическое объяснение к использованию исключений, а не утверждений. В состоянии Вы для разъяснения? Аплодисменты — Gavin Chin, 23 September 2009 в 06:41
Утверждения могут использоваться для проверки параметра внутренний вызовы метода (названный кодом, принадлежащим тому же компоненту) методы, в противоположность внешним вызовам метода (названный другим компонентом). Например, я мог бы утверждать, что параметр закрытого метода типа Удваивает isn' t NaN. — RoadWarrior, 31 October 2008 в 11:48

score 663 · Accepted Answer

/
^                                             # start of string
(                                             # first group start
  (?:
    (?:[^?+*{}()[\]\\|]+                      # literals and ^, $
     | \\.                                    # escaped characters
     | \[ (?: \^?\\. | \^[^\\] | [^\\^] )     # character classes
          (?: [^\]\\]+ | \\. )* \]
     | \( (?:\?[:=!]|\?<[=!]|\?>)? (?1)?? \)  # parenthesis, with recursive content
     | \(\? (?:R|[+-]?\d+) \)                 # recursive matching
     )
    (?: (?:[?+*]|\{\d+(?:,\d*)?\}) [?+]? )?   # quantifiers
  | \|                                        # alternative
  )*                                          # repeat content
)                                             # end first group
$                                             # end of string
/

Это - рекурсивный regex и не поддерживается многими regex механизмами. PCRE базировался, должны поддерживать его.

Без пробела и комментариев:

/^((?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>)?(?1)??\)|\(\?(?:R|[+-]?\d+)\))(?:(?:[?+*]|\{\d+(?:,\d*)?\})[?+]?)?|\|)*)$/

<час>

.NET не поддерживает рекурсию непосредственно. ((?1) и (?R) конструкции.) Рекурсия должна была бы быть преобразована в подсчет сбалансированных групп:

^                                         # start of string
(?:
  (?: [^?+*{}()[\]\\|]+                   # literals and ^, $
   | \\.                                  # escaped characters
   | \[ (?: \^?\\. | \^[^\\] | [^\\^] )   # character classes
        (?: [^\]\\]+ | \\. )* \]
   | \( (?:\?[:=!]
         | \?<[=!]
         | \?>
         | \?<[^\W\d]\w*>
         | \?'[^\W\d]\w*'
         )?                               # opening of group
     (?<N>)                               #   increment counter
   | \)                                   # closing of group
     (?<-N>)                              #   decrement counter
   )
  (?: (?:[?+*]|\{\d+(?:,\d*)?\}) [?+]? )? # quantifiers
| \|                                      # alternative
)*                                        # repeat content
$                                         # end of string
(?(N)(?!))                                # fail if counter is non-zero.

Уплотненный:

^(?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>|\?<[^\W\d]\w*>|\?'[^\W\d]\w*')?(?<N>)|\)(?<-N>))(?:(?:[?+*]|\{\d+(?:,\d*)?\})[?+]?)?|\|)*$(?(N)(?!))

That' s также положительная сторона. Трудные требования к производительности часто приводят к менее разъединенной архитектуре, чем Вы могли бы иначе иметь. — munificent, 10 February 2010 в 13:39