Какие мощные инструменты для обработки текста и предварительной обработки в R?

Я часто использую пакет Хэдли stringr для очистки беспорядочных экологических данных (нормализация названий видов, плохо отформатированные метки и т. Д.). Недавно я начал изучать sed и awk и был потрясен тем, насколько мощными являются эти инструменты, особенно при работе с многочисленными файлами данных.

Мои вопросы:

  1. Существуют ли другие мощные пакеты для обработки текста (помимо базовых функций и stringr ), которые были бы полезны для очистки данных?

  2. Можно ли запускать команды / сценарии sed из R? Если да, то как? Вы можете привести мне пример?

  3. Кто-нибудь пытался написать оболочку для sed как пакет R. Если нет, будет ли это чем-то стоящим (побочный проект для меня или более компетентных программистов)?

6
задан Maiasaura 13 November 2011 в 23:16
поделиться