Я нашел что-то в журналах elasticsearch
:
Caused by: org.apache.lucene.search.BooleanQuery$TooManyClauses: maxClauseCount is set to 1024
Возможно, нужно отредактировать значение elasticsearch.yml
Заключить разделу в кавычки 2.3 из RFC 3986:
"Символы, которые позволяются в URI, но не имеют зарезервированной цели, называют незарезервированными. Они включают прописные и строчные буквы, десятичные цифры, дефис, точка, подчеркивает, и тильда".
ALPHA DIGIT "-" / "." / "_" / "~"
Обратите внимание, что RFC 3986 перечисляет меньше зарезервированных знаков пунктуации, чем более старый RFC 2396.
Вы лучше всего сохраняете только некоторые символы (белый список) вместо того, чтобы удалить определенные символы (черный список).
Можно технически позволить любой символ, пока Вы правильно кодируете его. Но, для ответа в духе вопроса необходимо только позволить эти символы:
Все остальное имеет потенциально особое значение. Например, можно думать, что можно использовать +, но это может быть заменено пространством. И опасно также особенно, если использование некоторых переписывает правила.
Как с другими комментариями, проверьте стандарты и спецификации для полных деталей.
От контекста Вы описываете, я подозреваю, что то, что Вы на самом деле пытаетесь сделать, является чем-то позвонившим 'краткий заголовок SEO'. Лучшая общая известная практика для тех:
Так, как пример, статья, названная "Использование! $ %* для Представления Приведения к присяге Комиксов" получил бы краткий заголовок "usage-represent-swearing-comics".
Существует два набора символов, которые необходимо не упустить: зарезервированный и небезопасный.
Зарезервированные символы:
Символы, которые обычно рассматривают небезопасными:
Я, возможно, забыл один или несколько, который приводит ко мне повторяющий ответ V Carl. В конечном счете Вы - вероятно, более обеспеченное использование "белого списка" допустимых символов и затем кодирования строки вместо того, чтобы пытаться идти в ногу с символами, которые запрещены серверами и системами.
Формат для URI определяется в RFC 3986. Посмотрите раздел 3.3 для деталей.
С точки зрения SEO дефисы предпочтены по символам нижнего подчеркивания. Преобразуйте в нижний регистр, удалите все апострофы, затем замените все неалфавитно-цифровые строки символов с единственным дефисом. Обрежьте избыточные дефисы от запуска и конца.
Я думаю, что Вы ищете что-то как "Кодирование URL" - кодирование URL так, чтобы было "безопасно" использовать в сети:
Вот ссылка для этого. Если Вы не хотите специальных символов, просто удаляете кого-либо, которые требуют кодирования URL: