Алгоритмы, распознающие физический адрес на веб-странице

Нет, ссылочные предложения могут быть только HTTP или HTTPS.

Если ваш чип подсказок ссылается на внешний сайт (используя addSuggestionLink или linkOutSuggestion), целевой сайт должен быть проверен и использовать тот же протокол (http против https), что и URL. blockquote>

(Источник: https://developers.google.com/actions/assistant/responses#suggestion_chip )

6
задан Fabian Steeg 28 January 2009 в 00:12
поделиться

7 ответов

Платформа выделения именованных сущностей, такая как ЛОГИЧЕСКИЙ ЭЛЕМЕНТ, по крайней мере, занялась проблемой извлечения информации для местоположений, которым помогает географический справочник известных мест помочь решить распространенные вопросы. Если страницы не были машиной, сгенерированной из общего источника, Вы собираетесь найти регулярные выражения немного слабыми для задания.

11
ответ дан 8 December 2019 в 04:56
поделиться

Если также необходимо обработать международные адреса, Вы находитесь в для мира головных болей; международные форматы адреса удивительно варьируются.

3
ответ дан 8 December 2019 в 04:56
поделиться

Если у Вас есть надлежащая разметка — и не только текст от страницы — я второй Красивое предложение Супа выше. В частности, тег адреса должен обеспечить самый низкий из низко висящего плода. Также изучите adr микроформат. Я был бы только falll назад к regexes, если первые два не вытягивали достаточно информации, или у меня не было необходимых данных для поиска первых двух.

4
ответ дан 8 December 2019 в 04:56
поделиться

Я предположил бы, что Google проявляет два подхода шага к проблеме (по крайней мере это - то, что я сделал бы). Сначала они используют некоторый шаблон довольно общего поиска для выбирания всего, что могло быть адресом, и затем они используют свою базу данных карты, чтобы искать ту строку и видеть, получают ли они какие-либо соответствия. Если они делают это - вероятно, адрес, если они не делают этого, вероятно, не. Если можно использовать базу данных карты в коде, который, вероятно, сделает жизнь легче.

Если Вы не можете ограничить географическое положение адресов, я предполагаю, что в значительной степени невозможно идентифицировать строку как адрес только путем парсинга его, просто из-за огромного изменения форматов адреса, используемых во всем мире.

3
ответ дан 8 December 2019 в 04:56
поделиться

Не используйте регулярные выражения. Используйте существующий синтаксический анализатор HTML, например, в Python, который я настоятельно рекомендую BeautifulSoup. Даже если Вы используете регулярное выражение для парсинга элементов HTML захваты BeautifulSoup.

Если Вы делаете это со своим собственным regexs, не только необходимо волноваться о нахождении данных, которых Вы требуете, необходимо волноваться о вещах как недопустимый HTML и большом количестве других очень неочевидных проблем, которые Вы споткнетесь..

2
ответ дан 8 December 2019 в 04:56
поделиться

Снова, регулярные выражения должны добиться цели.

Из-за большого разнообразия адресов можно только предположить, является ли строка адресом или не по выражению как" (число), (имя) Street|Boulevard|Main", и т.д.

Можно рассмотреть изучение некоторых расширений Firefox, которые имеют целью отображать адреса, которые, как находят в тексте, видели, как они работают

0
ответ дан 8 December 2019 в 04:56
поделиться

То, что Вы спрашиваете, является действительно настоящей тяжелой проблемой, если Вы хотите получить ее прекрасный. В то время как простой regexp получит его главным образом правильный большинство из них время, пишущий то, которое доберется, это точно прямо каждый раз жестоко твердо. Существует много странных угловых случаев и в нескольких случаях нет никакого единственного однозначного ответа. Большинство веб-сайтов, которые я видел к довольно безнадежному делу, обрабатывающему всех кроме самых простых URL.

Если Вы хотите спуститься по маршруту regexp, Ваш лучший выбор состоит в том, чтобы, вероятно, проверить исходный код http://metacpan.org/pod/Regexp::Common::URI::http

1
ответ дан 8 December 2019 в 04:56
поделиться
Другие вопросы по тегам:

Похожие вопросы: