Я в настоящее время ищу приложение или сценарий, который делает корректный подсчет слов для ЛАТЕКСНОГО документа.
До настоящего времени я только встретился со сценариями, которые только работают над единственным файлом, но что я хочу, сценарий, который может безопасно проигнорировать ЛАТЕКСНЫЕ ключевые слова и также пересечь связанные файлы... т.е. следовать \include
и \input
ссылки для создания корректного подсчета слов для целого документа.
С энергией я в настоящее время использую ggVGg CTRL+G
но очевидно который показывает счет для текущего файла и не игнорирует ЛАТЕКСНЫЕ ключевые слова.
Кто-либо знает о каком-либо сценарии (или приложение), который может сделать это задание?
Я использую texcount
. На веб-странице есть Perl-скрипт для загрузки (и руководство).
Он включает tex
файлы, которые включены (\input
или \include
) в документ (см. -inc
), поддерживает макросы и имеет много других приятных возможностей.
При просмотре включенных файлов вы получите подробную информацию о каждом отдельном файле, а также общий результат. Например, вот общий результат для моего 12-страничного документа:
TOTAL COUNT
Files: 20
Words in text: 4188
Words in headers: 26
Words in float captions: 404
Number of headers: 12
Number of floats: 7
Number of math inlines: 85
Number of math displayed: 19
Если вас интересует только общий результат, используйте аргумент -total
.
latex file.tex
dvips -o - file.dvi | ps2ascii | wc -w
должно дать вам достаточно точный подсчет слов.
Я использую следующий скрипт VIM:
function! WC()
let filename = expand("%")
let cmd = "detex " . filename . " | wc -w | perl -pe 'chomp; s/ +//;'"
let result = system(cmd)
echo result . " words"
endfunction
... но он не переходит по ссылкам. Это, по сути, повлечет за собой разбор файла TeX, чтобы получить все связанные файлы, не так ли?
Преимущество перед другими ответами в том, что ему не нужно создавать выходной файл (PDF или PS) для подсчета количества слов, поэтому он потенциально (в зависимости от использования) намного эффективнее.
Хотя комментарий icio теоретически верен, я обнаружил, что приведенный выше метод дает довольно точные оценки количества слов. Для большинства текстов он находится в пределах 5%, которые используются во многих заданиях.
Я воспользовался комментарием icio и подсчитал количество слов в самом PDF-файле, перенаправив вывод pdftotext
в wc
:
pdftotext file.pdf - | wc - w