Представление RDF предложений

Я должен представить предложения в формате RDF.

Другими словами, "John любит кокс", был бы автоматически представлен как:

Subject : John
Predicate : Likes
Object : Coke

Кто-либо знает, где я должен запустить? Есть ли какие-либо программы, которые могут сделать это автоматически, или я должен был бы сделать все с нуля?

5
задан Nikana Reklawyks 15 April 2015 в 21:12
поделиться

2 ответа

Похоже, вам нужны типизированные зависимости предложения, например для Джон любит кокаин :

 nsubj(likes-2, John-1)
 dobj(likes-2, coke-3)

Я не знаю ни одного анализатора зависимостей, который непосредственно генерирует RDF. Однако многие из них производят синтаксический анализ в стандартизированном представлении с ограничением по табуляции, известном как CoNLL-X , и преобразование из CoNLL-X в RDF не должно быть слишком сложным.

Анализаторы зависимостей с открытым исходным кодом

Существует ряд анализаторов на выбор, из которых извлекаются типизированные зависимости, включая следующие современные варианты с открытым исходным кодом:

Stanford Parser включает предварительно обученную модель для синтаксического анализа английского языка. Чтобы получить типизированные зависимости, вам нужно использовать флаг -outputFormat typedDependencies .

Для MaltParser вы можете скачать английскую модель здесь .

MSTParser включает небольшой набор из 200 предложений для обучения английскому языку, который вы можете использовать для создания собственной модели синтаксического анализа английского языка. Однако обучение на этих небольших данных повредит точности результирующего синтаксического анализатора. Итак, если вы решите использовать этот синтаксический анализатор, вам, вероятно, будет лучше использовать модель предварительного обучения, доступную здесь .

Все предварительно обученные модели, связанные выше, производят синтаксический анализ в соответствии с формализмом Стэнфордской зависимости ( документ ACL и руководство ).

Из этих трех наиболее точным является Стэнфордский синтаксический анализатор.MaltParser является самым быстрым, при этом некоторые конфигурации этого пакета могут анализировать 1800 предложений всего за 8 секунд .

10
ответ дан 13 December 2019 в 05:32
поделиться

Один из вариантов - использовать вывод из Link Parser , доступный под GPL -совместимая лицензия. При необходимости вы можете определить уровень трансляции между этими выходами и вашими RDF-узлами.

Посмотрите эту демонстрацию на вашем примере «Джон любит кокаин»!

2
ответ дан 13 December 2019 в 05:32
поделиться
Другие вопросы по тегам:

Похожие вопросы: