У меня есть блоки текста, которые я хочу токенизировать, но я не хочу размечать пробелы и знаки препинания, как кажется, стандарт для таких инструментов, как NLTK . Есть определенные фразы, которые я хочу токенизировать как единый токен вместо обычной токенизации.
Например, учитывая предложение «Западное крыло - американский телесериал, созданный Аароном Соркиным, который первоначально транслировался на NBC с 22 сентября 1999 года по 14 мая 2006 года», и добавив фразу в токенизатор » западное крыло , "итоговые жетоны будут следующими:
Как лучше всего это сделать? ? Я бы предпочел оставаться в рамках таких инструментов, как NLTK.