Резюмируя статью в Википедии

Я обнаружил, что мне все время приходится узнавать что-то новое. Я пытался придумать, как бы ускорить процесс изучения новых предметов. Я подумал, что было бы неплохо, если бы я мог написать программу для анализа статьи в Википедии и удаления всего, кроме самой ценной информации.

Я начал с того, что взял статью в Википедии о PDF-файлах и извлек первые 100 предложений. Я поставил каждому предложению оценку, основанную на том, насколько я считаю его ценным. В итоге я создал файл следующего формата:





etc.

Затем я проанализировал этот файл и попытался найти различные функции, которые коррелируют каждое предложение со значением, которое я ему присвоил. Я только начал изучать машинное обучение, статистику и многое другое, так что я много возился здесь. Это моя последняя попытка: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py .

Я пробовал кучу вещей, которые, казалось, вообще не производили никакой корреляции - средняя длина слова, позиция в статье и т. Д. Практически единственное, что создавало какие-либо полезные отношения, - это длина строки (точнее, подсчет количества строчных букв 'e', ​​казалось, работал лучше всего). Но это кажется неуместным, потому что кажется очевидным, что более длинные предложения с большей вероятностью будут содержать полезную информацию.

В какой-то момент я подумал, что нашел несколько интересных функций, но затем, когда я попытался удалить выбросы (путем подсчета только внутренних квартилей), оказалось, что они дают худшие результаты, чем просто возвращают 0 для каждого предложения. Это заставило меня задуматься о том, сколько других вещей я делаю неправильно ... Мне также интересно, действительно ли это хороший способ решения этой проблемы.

Как вы думаете, я на правильном пути? Или это просто дурацкая затея? Есть ли в связанном коде явные недостатки? Кто-нибудь знает, как лучше подойти к проблеме резюмирования статьи в Википедии? Я бы предпочел быстрое и грязное решение, чем что-то идеальное, на создание которого уходит много времени. Также приветствуются любые общие советы.

17
задан Jesse Aldridge 1 January 2012 в 02:21
поделиться