Огромная разница между точностью обучения и точностью оценки с использованием класса наборов данных Tensorflow + Keras

@SocialCensus. Пример, который вы указали в комментарии к MarkusQ, где вы выбрали «рядом с», не работает с примером, который MarkusQ дал прямо над этим, если мы изменим sam на sam's : (test, «запятая», «bob», «sam's», здесь) не имеет сопоставления с (,) (? = (?: [^ "'] | [" |' ] [^ "'] ") $). На самом деле сама проблема: «Я действительно не забочусь о одиночных или двойных кавычках», неоднозначна. Вы должны четко понимать, что вы имеете в виду цитируя либо «или с». Например, разрешено вложенность или нет? Если да, то сколько уровней? Если только один вложенный уровень, что происходит с запятой вне внутренней вложенной цитаты, но внутри внешней котировки вложенности? Вы также должны учитывать, что одиночные кавычки происходят сами по себе как апострофы (т. Е., Как и контр-пример, который я дал ранее с помощью самса). Наконец, регулярное выражение, которое вы сделали, на самом деле не рассматривает одиночные кавычки на пар с двойными кавычками, так как предполагает, что последний тип кавычки обязательно является двойной цитатой - и замена этой последней двойной кавычки на ['| "] также имеет проблему если текст не содержит правильного цитирования (или если используются апострофы), я полагаю, что мы, вероятно, могли бы предположить, что все кавычки правильно определены.

Регулярное выражение MarkusQ отвечает на вопрос: найдите все запятые, которые имеют четное количество двойных кавычек после него (т. е. вне двойных кавычек) и игнорировать все запятые, которые после него имеют нечетное число двойных кавычек (т. е. находятся внутри двойных кавычек). Это, как правило, то же самое решение, что и вы, вероятно, хотите , но давайте посмотрим на несколько аномалий. Во-первых, если кто-то перестает отмечать кавычки в конце, то это регулярное выражение находит все неправильные запятые, а не находит нужные или не соответствует никаким. Конечно, если двойная кавычка отсутствует, все ставки отключены, так как может быть неясно, если t он пропустил один из них в конце или вместо этого принадлежит в начале; однако есть закон, который является законным, и где регулярное выражение может провалиться (это вторая «аномалия»). Если вы отредактируете регулярное выражение для перехода по текстовым строкам, вы должны знать, что цитирование нескольких последовательных абзацев требует, чтобы вы поместили одну двойную кавычку в начале каждого абзаца и не оставили цитату в конце каждого абзаца, за исключением конец последнего абзаца. Это означает, что в пространстве этих абзацев регулярное выражение не удастся в некоторых местах и ​​преуспеть в других.

Примеры и краткие обсуждения цитат с параграфами и вложенных цитат можно найти здесь http: / /en.wikipedia.org/wiki/Quotation_mark.

1
задан woody_gobluecat 14 March 2019 в 02:52
поделиться