Я часто использую пакет Хэдли stringr
для очистки беспорядочных экологических данных (нормализация названий видов, плохо отформатированные метки и т. Д.). Недавно я начал изучать sed
и awk
и был потрясен тем, насколько мощными являются эти инструменты, особенно при работе с многочисленными файлами данных.
Мои вопросы:
Существуют ли другие мощные пакеты для обработки текста (помимо базовых
функций и stringr
), которые были бы полезны для очистки данных?
Можно ли запускать команды / сценарии sed
из R? Если да, то как? Вы можете привести мне пример?
Кто-нибудь пытался написать оболочку для sed
как пакет R. Если нет, будет ли это чем-то стоящим (побочный проект для меня или более компетентных программистов)?