Один общий подход, о котором я не упоминал здесь, заключается в том, чтобы запустить HTML через Tidy , который может быть настроен на выдачу гарантированного действительного XHTML. Затем вы можете использовать любую старую библиотеку XML.
Но к вашей конкретной проблеме вы должны взглянуть на этот проект: http://fivefilters.org/content-only/ - это модифицированная версия алгоритма Readability , который предназначен для извлечения только текстового содержимого (а не верхних и нижних колонтитулов) со страницы.
Вы неправильно поняли, что такое Eigen::Map
. Карта обертывает существующий блок памяти и позволяет использовать функциональные возможности Eigens на этом блоке. С помощью Eigen::Map
Eigen выполняет любое из распределений памяти. Это позволяет вам манипулировать данными в объектах из других библиотек без копирования взад и вперед. Как упоминалось в , комментирует , если вы выделяете массив result
как double result[36];
, программа должна работать нормально.