Разбор HTML на предложения -Как работать с таблицами/списками/заголовками и т. д.?

Question

Разбор HTML на предложения -Как работать с таблицами/списками/заголовками и т. д.?

Как вы разбираете HTML-страницу со свободным текстом, списками, таблицами, заголовками и т. д. на предложения?

Возьмем, к примеру, эту страницу Википедии . Есть/есть:

Повозившись с python NLTK , я хочу протестировать все эти различные методы аннотирования корпуса (из http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-of-annotation-to-include):

. Токенизация слов:Орфографическая форма текста не идентифицирует однозначно его лексемы. Токенизированная и нормализованная версия, в дополнение к обычной орфографической версии, может быть очень удобным ресурсом.
Сегментация предложения:Как мы видели в главе 3, сегментация предложений может быть сложнее, чем кажется. Поэтому в некоторых корпусах используются явные аннотации для обозначения сегментации предложений.
Сегментация абзаца:Абзацы и другие структурные элементы (, заголовки, главы и т. д. )могут быть явно аннотированы.
Часть речи:Синтаксическая категория каждого слова в документе.
Синтаксическая структура:Древовидная структура, показывающая составную структуру предложения.
Поверхностная семантика:Аннотации именованных сущностей и кореференций, метки семантических ролей.
Диалог и дискурс:теги диалога, риторическая структура

Как только вы разбиваете документ на предложения, он кажется довольно простым. Но как разобрать что-то вроде HTML со страницы Википедии? Я очень хорошо знаком с использованием синтаксических анализаторов HTML/XML и обходом дерева, и я попытался просто удалить теги HTML, чтобы получить простой текст, но поскольку после удаления HTML отсутствуют знаки препинания,NLTK неправильно анализирует такие вещи, как ячейки таблицы или даже списки.

Есть ли какая-нибудь наилучшая -практика или стратегия для разбора этого материала с помощью НЛП? Или вам просто нужно вручную написать анализатор, специфичный для этой отдельной страницы?

Просто ищу несколько указателей в правильном направлении, очень хочу попробовать этот NLTK!

6

html nlp nltk python text-segmentation

задан hippietrail 8 September 2014 в 04:07

0 ответов

Другие вопросы по тегам:

html nlp nltk python text-segmentation

Разбор HTML на предложения -Как работать с таблицами/списками/заголовками и т. д.?

0 ответов

Похожие вопросы: