Stanford NER toolkit - распознавание строчных сущностей

Я новичок в NLP и пытаюсь выяснить, как распознаватель именованных сущностей аннотирует именованные сущности. Я экспериментирую с инструментарием Stanford NER. Когда я использую NER в стандартных более формальных наборах данных, где соблюдаются все соглашения об именах для представления именованных объектов, например, в новостных лентах или новостных блогах, NER правильно аннотирует объекты. Однако, когда я запускаю NER с неофициальными наборами данных, такими как twitter, где именованные объекты могут быть не заглавными, как должно было быть, NER не аннотирует объекты. Классификатор, который я использую, представляет собой сериализованный классификатор 3-CRF. Может ли кто-нибудь сообщить мне, как я могу заставить NER распознавать строчные буквы? Мы очень ценим любые полезные предложения о том, как взломать NER и где это улучшить. Заранее благодарим за вашу помощь.

5
задан Kara 9 September 2013 в 20:04
поделиться