Я использую dom doc для загрузки HTML из базы данных следующим образом:
$doc = new DOMDocument();
@$doc->loadHTML($data);
$doc->encoding = 'utf-8';
$doc->saveHTML();
Затем я получаю основной текст, выполнив следующие действия:
$bodyNodes = $doc->getElementsByTagName("body");
$words = htmlspecialchars($bodyNodes->item(0)->textContent);
Слова, которые у меня есть получил все, что есть в
. Также были включены такие вещи, как
.
Как мне удалить их и оставить только настоящий текстовый контент?