Общие рамки для подготовки обучающих данных? [закрытый]

7
задан Iterator 27 September 2011 в 01:43
поделиться

2 ответа

Я нахожусь в основном, используя TextutiLs от GNU Cereutils и Flex для препарата корпуса, цепи вещей вместе в простых скриптах, по крайней мере, когда препараты, которые мне нужно сделать, достаточно просты для регулярных выражений и тривиальной фильтрации и т. Д.

все еще можно сделать многократно, Общие правила также применяются здесь. Если вы программируете без учета передовой практики и тому подобное и просто программа, процедурально, есть ИМХО, действительно неудивительно, что вы должны сделать все с нуля при запуске нового проекта.

Несмотря на то, что требования к формату будут сильно отличаться, есть еще много общих задач, т. Е. Стимление тега, перевод, отбор, выбор, таблица, некоторые тривиальные данные сбора данных, такие как количество токенов, предложений и тому подобное. Программирование этих задач, находящихся за высокой повторной повторной повторной вреда, окупится, даже если он занимает больше времени.

2
ответ дан 7 December 2019 в 16:42
поделиться

Я не знаю о любых таких каркасах - не значит, что они не там. Я предпочитаю использовать свои собственные, что является просто коллекцией фрагментов кода, которые я изыскал / настраиваю / заимствованную со временем, и что я могу объединяться в различных конфигурациях в зависимости от проблемы. Если вы уже знаете Python, то я настоятельно рекомендую обрабатывать все ваши данные Prep в Numpy - как вы знаете, ML наборы данных имеют тенденцию быть большими - тысячи векторов строки, упакованные поплавкам. Numpy Brilliant для такого рода вещи. Кроме того, я мог бы предположить, что для подготовки учебных данных для ML есть пару задач, которые возникают почти во всех таких усилиях, и что не варьируется в целом от одной проблемы к следующему. Я даю вам фрагменты для них ниже.

Нормализация (масштабирование и средние центрирования ваших данных, чтобы избежать переизбака. Как я уверен, вы знаете, вы можете масштабировать от -1 до 1 или от 0 до 1. Я обычно выбрал последнее, чтобы я мог воспользоваться преимуществами графовых шаблонов. В Python с использованием Numpy Library:

import numpy as NP
data = NP.linspace( 1, 12, 12).reshape(4, 3)
data_norm = NP.apply_along_axis( lambda x : (x - float(x.min())) / x.max(), 
                                             0, data )

Перекрестная проверка (вот я устанавливаю аргумент по умолчанию в «5», поэтому набор тестов на 5%, набор тренировок, 95% - положить Это в функции делает K-Fold намного проще)

def divide_data(data, testset_size=5) :
  max_ndx_val = data.shape[0] -1
  ndx2 = NP.random.random_integers(0, max_ndx_val, testset_size)
  TE = data_rows[ndx2]
  TR = NP.delete(data, ndx2, axis=0)
  return TR, TE

наконец, вот превосходное исследование (IMHO), как четкие, так и завершенные, показывая буквально весь процесс из коллекции необработанных данных через вход алгоритм ML (MLP в этом случае). Они также дают свой код.

1
ответ дан 7 December 2019 в 16:42
поделиться
Другие вопросы по тегам:

Похожие вопросы: