Это хороший вопрос, который не имеет ответа good . Вы должны использовать слой внедрения, а не просто перейти к LSTM/GRU
. Тем не менее, скрытый размер слоя внедрения должен быть «как можно большим, сохраняя при этом максимальную эффективность проверки». Для словаря вокруг вашего размера 128 или 256 должны быть разумным решением. Я сомневаюсь, что вы увидите резко отличающуюся производительность.
Однако что-то, что будет действительно влиять на ваши результаты на небольшом наборе данных, не использует предварительно обученные вложения слов. Это приведет к тому, что ваши вложения будут жестоко перегружены вашими данными обучения. Я рекомендую использовать вставки GLove word. После загрузки данных перчаток вы можете использовать их для инициализации весов для вашего слоя внедрения, а затем слой emebdding будет точно настраивать весы на ваш usecase. Вот какой код я использую для вложений GloVe с Keras. Это позволяет вам загружать разные размеры, а также кэшировать матрицу так, что она быстро запускается во второй раз.
class GloVeSize(Enum):
tiny = 50
small = 100
medium = 200
large = 300
__DEFAULT_SIZE = GloVeSize.small
def get_pretrained_embedding_matrix(word_to_index,
vocab_size=10000,
glove_dir="./bin/GloVe",
use_cache_if_present=True,
cache_if_computed=True,
cache_dir='./bin/cache',
size=__DEFAULT_SIZE,
verbose=1):
"""
get pre-trained word embeddings from GloVe: https://github.com/stanfordnlp/GloVe
:param word_to_index: a word to index map of the corpus
:param vocab_size: the vocab size
:param glove_dir: the dir of glove
:param use_cache_if_present: whether to use a cached weight file if present
:param cache_if_computed: whether to cache the result if re-computed
:param cache_dir: the directory of the project's cache
:param size: an enumerated choice of GloVeSize
:param verbose: the verbosity level of logging
:return: a matrix of the embeddings
"""
def vprint(*args, with_arrow=True):
if verbose > 0:
if with_arrow:
print(">>", *args)
else:
print(*args)
if not os.path.exists(cache_dir):
os.makedirs(cache_dir)
cache_path = os.path.join(cache_dir, 'glove_%d_embedding_matrix.npy' % size.value)
if use_cache_if_present and os.path.isfile(cache_path):
return np.load(cache_path)
else:
vprint('computing embeddings', with_arrow=True)
embeddings_index = {}
size_value = size.value
f = open(os.path.join(glove_dir, 'glove.6B.' + str(size_value) + 'd.txt'),
encoding="ascii", errors='ignore')
for line in f:
values = line.split()
word = values[0]
coefs = np.asarray(values[1:], dtype='float32')
embeddings_index[word] = coefs
f.close()
vprint('Found', len(embeddings_index), 'word vectors.')
embedding_matrix = np.random.normal(size=(vocab_size, size.value))
non = 0
for word, index in word_to_index.items():
embedding_vector = embeddings_index.get(word)
if embedding_vector is not None:
embedding_matrix[index] = embedding_vector
else:
non += 1
vprint(non, "words did not have mappings")
vprint(with_arrow=False)
if cache_if_computed:
np.save(cache_path, embedding_matrix)
return embedding_matrix
затем создайте свой слой внедрения с помощью этой весовой матрицы:
embedding_size = GloVeSize.small
embedding_matrix = get_pretrained_embedding_matrix(data.word_to_index,
size=embedding_size)
embedding = Embedding(
output_dim=self.embedding_size,
input_dim=self.vocabulary_size + 1,
input_length=self.input_length,
mask_zero=True,
weights=[np.vstack((np.zeros((1, self.embedding_size)),
self.embedding_matrix))],
name='embedding'
)(input_layer)
Начиная с three.js R101
, вы можете оценить intersection.face.materialIndex
, а затем извлечь правильный материал из массива материалов. Это было фактически отсутствующей особенностью в предыдущих three.js
ревизиях.