Python: Токенизация с помощью фраз

У меня есть блоки текста, которые я хочу токенизировать, но я не хочу размечать пробелы и знаки препинания, как кажется, стандарт для таких инструментов, как NLTK . Есть определенные фразы, которые я хочу токенизировать как единый токен вместо обычной токенизации.

Например, учитывая предложение «Западное крыло - американский телесериал, созданный Аароном Соркиным, который первоначально транслировался на NBC с 22 сентября 1999 года по 14 мая 2006 года», и добавив фразу в токенизатор » западное крыло , "итоговые жетоны будут следующими:

  • западное крыло
  • американское
  • ...

Как лучше всего это сделать? ? Я бы предпочел оставаться в рамках таких инструментов, как NLTK.

7
задан Fred Foo 3 April 2011 в 20:56
поделиться