Я думаю, что то, как вы определили модельную архитектуру, не имеет смысла! Попробуйте посмотреть этот пример в обзорах фильмов IMDB с помощью LSTM на Keras github repo: Обучает модели LSTM в задаче классификации настроений IMDB.