Разбор HTML на предложения -Как работать с таблицами/списками/заголовками и т. д.?

Как вы разбираете HTML-страницу со свободным текстом, списками, таблицами, заголовками и т. д. на предложения?

Возьмем, к примеру, эту страницу Википедии . Есть/есть:

Повозившись с python NLTK , я хочу протестировать все эти различные методы аннотирования корпуса (из http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-of-annotation-to-include):

  • . Токенизация слов:Орфографическая форма текста не идентифицирует однозначно его лексемы. Токенизированная и нормализованная версия, в дополнение к обычной орфографической версии, может быть очень удобным ресурсом.
  • Сегментация предложения:Как мы видели в главе 3, сегментация предложений может быть сложнее, чем кажется. Поэтому в некоторых корпусах используются явные аннотации для обозначения сегментации предложений.
  • Сегментация абзаца:Абзацы и другие структурные элементы (, заголовки, главы и т. д. )могут быть явно аннотированы.
  • Часть речи:Синтаксическая категория каждого слова в документе.
  • Синтаксическая структура:Древовидная структура, показывающая составную структуру предложения.
  • Поверхностная семантика:Аннотации именованных сущностей и кореференций, метки семантических ролей.
  • Диалог и дискурс:теги диалога, риторическая структура

Как только вы разбиваете документ на предложения, он кажется довольно простым. Но как разобрать что-то вроде HTML со страницы Википедии? Я очень хорошо знаком с использованием синтаксических анализаторов HTML/XML и обходом дерева, и я попытался просто удалить теги HTML, чтобы получить простой текст, но поскольку после удаления HTML отсутствуют знаки препинания,NLTK неправильно анализирует такие вещи, как ячейки таблицы или даже списки.

Есть ли какая-нибудь наилучшая -практика или стратегия для разбора этого материала с помощью НЛП? Или вам просто нужно вручную написать анализатор, специфичный для этой отдельной страницы?

Просто ищу несколько указателей в правильном направлении, очень хочу попробовать этот NLTK!

6
задан hippietrail 8 September 2014 в 04:07
поделиться