Как действительно удовлетворяют механизмы исследования, как работа Calais Zemanta и Open?

Для чисел с плавающей запятой существует стандарт (IEEE754) : поплавки - 32 бит, а удваивается 64. Это аппаратный стандарт, а не стандарт C ++, поэтому компиляторы теоретически могут определить float и double на какой-то другой размер, но на практике я никогда не видел архитектуры, которая использовала что-то другое.

5
задан JoshDM 7 August 2013 в 16:43
поделиться

3 ответа

Откройте Calais, вероятно, используют технологию синтаксического анализа естественных языков и помехи языка для предположения, какие слова или фразы являются Именами, Местами, Компаниями, и т.д. Затем это - просто другой шаг, чтобы сделать некоторый поиск тех объектов и метаданных возврата.

Zementa, вероятно, делает что-то подобное, но соответствует фразам против метаданных, присоединенных к изображениям для получения связанных результатов.

Это, конечно, не легко.

0
ответ дан 18 December 2019 в 10:51
поделиться

Я не знаком с определенными перечисленными сервисами, но поле обработки естественного языка разработало много методов, которые включают этот вид извлечения информации из общего текста. Как Sean заявил, после того как у Вас есть условия кандидата, это не к трудному, чтобы искать те условия с некоторыми из других объектов в контексте и затем использовать результаты того поиска, чтобы определить, насколько уверенный Вы - то, что извлеченный термин является фактическим объектом интереса.

OpenNLP является замечательным проектом, если требуется играть вокруг с обработкой естественного языка. Возможности, которые Вы назвали, были бы, вероятно, лучше всего выполнены с Программами выделения именнованных сущностей (NER) (алгоритмы, которые определяют местоположение имен собственных, обычно, и иногда дат также) и/или Разрешение лексической многозначности (WSD) (например: слово 'банк' имеет различные значения в зависимости от, он - контекст, и это может быть очень важно при извлечении информации из текста. Учитывая предложения: "плоскость управляла банком оставленный", "сугроб был высок", и "они ограбили банк", Вы видите, как разрешение неоднозначности может играть важную роль в понимании языка),

Методы обычно основываются друг на друге, и выделение именованных сущностей является одной из более сложных задач, так чтобы сделать выделение именованных сущностей успешно, Вам обычно будут нужны точные токенизаторы (токенизаторы естественного языка, обратите внимание - статистические подходы имеют тенденцию тарифицировать лучшее), строковые стеммеры (алгоритмы, которые объединяют подобные слова к общим корням: таким образом, слова как осведомитель и информатор рассматривают одинаково), обнаружение предложения ('г-н Jones было высоко'. только одно предложение, таким образом, Вы не можете только проверить на пунктуацию), теггеры частей речи (теггеры частей речи) и разрешение лексической многозначности.

Существует порт Python (части) OpenNLP под названием NLTK (http://nltk.sourceforge.net), но у меня еще нет большого опыта с ним. Большая часть моей работы была с портами Java и C#, которые работают хорошо.

Все эти алгоритмы являются определенными для языка, конечно, и они могут не торопиться для выполнения (хотя, это обычно быстрее, чем чтение материала, Вы обрабатываете). Так как современное состояние в основном основано на статистических методах, существует также значительный коэффициент ошибок для принятия во внимание. Кроме того, потому что коэффициент ошибок влияет на все этапы, и что-то как выделение именованных сущностей требует многочисленных этапов обработки, (маркируйте->, предложение обнаруживает->, НА МЕСТЕ ПРОДАЖИ отмечают-> разрешение лексической многозначности-> выделение именованных сущностей), составной объект коэффициентов ошибок.

7
ответ дан 18 December 2019 в 10:51
поделиться

Михал Финкельштейн из OpenCalais здесь.

Во-первых, спасибо за ваш интерес. Я отвечу здесь, но я также призываю вас читать больше на форумах OpenCalais; там много информации, включая, но не ограничиваясь: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn Также смело следуйте за нами в Twitter (@OpenCalais) или пишите нам на team@opencalais.com

Теперь к ответу:

OpenCalais основана на десятилетии исследований и разработок в области обработки естественного языка. и Text Analytics.

Мы поддерживаем полный «стек НЛП» (как мы его называем): От текстового токенизации, морфологического анализа и POS-тегов до поверхностного разбора и идентификации именных и словесных фраз.

Семантика вступает в игру, когда мы ищем сущности (так называемое извлечение сущностей, распознавание именованных сущностей). Для этой цели у нас есть сложная система, основанная на правилах, которая объединяет правила обнаружения, а также словари / словари. Эта комбинация позволяет нам идентифицировать названия компаний / людей / фильмов и т. Д., Даже если их нет ни в одном доступном списке.

Для наиболее заметных объектов (таких как люди, компании) мы также выполняем разрешение анафоры, перекрестная ссылка и канонизация / нормализация имени на уровне статьи, поэтому мы будем знать, что «Джон Смит» и «г-н Смит, например, скорее всего, ссылается на одного и того же человека. Итак, короткий ответ на ваш вопрос - нет, речь идет не только о сопоставлении с большими базами данных.

События / факты действительно интересны, поскольку они поднимают наши правила обнаружения на один уровень глубже; мы находим отношения между объектами и маркируем их соответствующим типом, например, M & As (отношения между двумя или более компаниями), изменения в сфере занятости (отношения между компаниями и людьми) и так далее. Излишне говорить, что извлечение событий / фактов невозможно для систем, которые основаны исключительно на лексиконах. По большей части наша система настроена так, чтобы быть ориентированной на точность, но мы всегда стараемся поддерживать разумный баланс между точностью и целостностью.

Кстати, в этом месяце появятся некоторые новые интересные возможности метаданных, так что следите за обновлениями. .

Привет, [одна тысяча двести сорок шесть] Михал

9
ответ дан 18 December 2019 в 10:51
поделиться
Другие вопросы по тегам:

Похожие вопросы: