Как вы разбираете HTML-страницу со свободным текстом, списками, таблицами, заголовками и т. д. на предложения?
Возьмем, к примеру, эту страницу Википедии . Есть/есть:
Повозившись с python NLTK , я хочу протестировать все эти различные методы аннотирования корпуса (из http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-of-annotation-to-include):
Как только вы разбиваете документ на предложения, он кажется довольно простым. Но как разобрать что-то вроде HTML со страницы Википедии? Я очень хорошо знаком с использованием синтаксических анализаторов HTML/XML и обходом дерева, и я попытался просто удалить теги HTML, чтобы получить простой текст, но поскольку после удаления HTML отсутствуют знаки препинания,NLTK неправильно анализирует такие вещи, как ячейки таблицы или даже списки.
Есть ли какая-нибудь наилучшая -практика или стратегия для разбора этого материала с помощью НЛП? Или вам просто нужно вручную написать анализатор, специфичный для этой отдельной страницы?
Просто ищу несколько указателей в правильном направлении, очень хочу попробовать этот NLTK!