Ручная маркировка обучающего набора настраиваемыми тегами

Я хотел бы выполнить некоторую обработку естественного языка в рецептах приготовления, в частности, ингредиентах (возможно, приготовление позже). В основном я хочу создать свой собственный набор тегов POS, чтобы помочь мне определить значение строки ингредиента.

Например, если один из ингредиентов был: 3/4 стакана (слегка упакованных) плоских листьев петрушки, разделенных

, я бы хотел, чтобы теги отображали перечисленный ингредиент и его количество, обычно это число, за которым следует некоторая единица измерения. Например:

3 \ NUM-QTY / \ FRACTION4 \ NUM-QTY чашка \ N-MEAS (слегка \ ADV упаковано \ VD) [плоские \ ADJ петрушка \ N] \ INGREDIENT листья \ N, разделенные \ VD

Теги, которые я нашел здесь .

Я не уверен в нескольких вещах:

  1. Должен ли я использовать пользовательские теги, или я должен выполнять какую-то обработку пост-тегов после использования уже существующего теггера?
  2. Если я использую настраиваемые теги , лучший способ составить обучающий текст, чтобы просто просмотреть список ингредиентов и пометить все вручную?

Мне кажется, что эта языковая обработка настолько специфична, что было бы полезно обучить теггер на подходящем наборе, но я не совсем уверен, как действовать дальше.

Спасибо!

5
задан abroekhof 19 November 2011 в 21:38
поделиться