В моем веб-сайте все могут отправить некоторые ссылки на другие хорошие сайты. Все ссылки в моей базе данных должны уникальным, но некоторые ссылки с 'www'. префикс и некоторые без. Некоторые концы для '/', некоторые нет. Например:
и другие проблемы могут быть с https или http.
Я знаю, что должен изменить адрес прежде, чем сохранить к базе данных, но какой стандарт я должен использовать?
Я думаю, самый короткий, например domain.com . Но если у вас есть ftp://domain.com , вам нужно добавить в вашу БД дополнительные столбцы протокола.
Ну, вы не можете обязательно рассматривать http://www.example.com
и http://example.com
как один и тот же сайт, потому что они могут обслуживать разное содержимое (хотя это нарушит ожидания многих людей)
Аналогично http://
и https://
адреса не должны рассматриваться как указывающие на одно и то же содержимое. Если сервер настроен правильно, дублирующие URL-адреса будут иметь каноническое перенаправление, чтобы указывать один на другой. Если сервер настроен неправильно, будет очень сложно определить, является ли дублирование намеренным или случайным.
Лучшим подходом будет следовать любому URL, который вам дадут, и посмотреть, не перенаправляет ли он на другой. Что бы ни случилось, используйте тот URL, на который вы попали после всех перенаправлений.
Я бы использовал http://domain.com
. Какой бы стандарт вы ни выбрали, просто придерживайтесь его во всем коде.