Справка: извлечение кортежей данных из текста… Регулярное выражение или машинное обучение?

Я был бы очень признателен за ваши мысли о наилучшем подходе к следующей проблеме. Я использую аналогичный по своей природе пример списка автомобилей.

Проблема: извлеките кортеж данных из данного текста.

Вот некоторые характеристики данных.

  1. Словарь (слова) ) в тексте ограничивается конкретным доменом. Предположим, что не более 100-200 слов.

  2. Текст, который необходимо проанализировать, представляет собой заголовок, подобный данным автомобильной рекламы, показанным ниже. Таким образом, каждая запись соответствует одному кортежу (строке).

  3. В некоторых случаях некоторые атрибуты могут отсутствовать. Так, например, в строке 5 необработанных данных под годом отсутствует год.

  4. Некоторые слова идут вместе (биграммы). Как «Меньшие мили».

  5. Доступные исторические данные = 10 000 записей

  6. Объем входящих новых данных = 1000-1500 записей в неделю

Ожидаемый результат должен быть в форме (Год, Марка, Модель, характеристика) . Таким образом, результат должен выглядеть как

1 -> (2009, Ford, Fusion, SE)
2 -> (1997, Ford, Taurus, Универсал)
3 -> (2000, Mitsubishi, Mirage, Германия)
4 -> (2007, Ford, Expedition, EL Limited)
5 -> (, Honda, Accord, EX)
....
....

Исходные данные заголовка:


1 -> 2009 Ford Fusion SE - 7000 долларов
2 -> 1997 Ford Taurus Wagon - 800 долларов (восток Сан-Хосе)
3 -> '00 Mitsubishi Mirage DE - 2499 долларов (saratoga) рис.
4 -> 2007 Ford Expedition EL Limited - 7800 долларов (x)
5 -> Honda Accord с малыми милями - 2800 долларов (Дублин / Лайнтон / Ливермор) рис.
6 -> HONDA ODASSEY LX 2004 г., 68 тыс. Миль - 10800 долл. США (данвиль / сан-рамон)
7 -> 93 LINCOLN MARK - $ 2000 (восточный окленд) рис.
8 -> ####### 2006 LEXUS GS 430 ЧЕРНЫЙ НА ЧЕРНОМ 114KMI ####### - 19700 $ (сан-рафаэль) рис.
9 -> 2004 Audi A4 1.8T FWD - 8900 долларов (Sacramento) рис.
10 -> ####### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 ####### - 10575 долларов США (сан-рафаэль) рис.
11 -> Toyota Corolla 1990 года РАБОТАЕТ ОТЛИЧНО! ГАЗОСНАБЖЕНИЕ! 5СКОРОСТЬ ЧИСТО! REG 2011 O.B.O - 1600 долларов (хейворд / долина кастро) pic img
12 -> HONDA ACCORD EX 2000 - $ 4900 (Дублин / Лайнтон / Ливермор) рис.
13 -> 2009 Chevy Silverado LT Crew Cab - 23900 долларов (Дублин / Лайнтон / Ливермор) рис.
14 -> 2010 Acura TSX - V6 - TECH - 29900 долл. (Дублин / Лайнтон / Ливермор) рис.
15 -> 2003 Nissan Altima - 1830 долларов (SF) pic


Возможные варианты:

  1. Текстовый классификатор машинного обучения (Наивный Байес и т. Д.)
  2. Regex

Я пытаюсь выяснить, RegEx слишком сложен для работы, а текстовый классификатор - излишний?

Если вы выберете текстовый классификатор, то что вы считаете наиболее простым для реализации.

Заранее благодарим за вашу любезную помощь .

5
задан dmcer 13 June 2011 в 17:22
поделиться