Как вычислить множественное выравнивание последовательностей для текстовых строк

Я пишу программу, которая должна вычислять множественное выравнивание последовательностей набора струн. Я думал сделать это на Python, но я мог бы использовать внешнее программное обеспечение или другой язык, если это более практично. Данные не очень большие, у меня нет строгих требований к производительности, и я могу терпеть приближения (т.е. Мне просто нужно найти достаточно хороший расклад). Единственная проблема заключается в том, что строки являются обычными строками (т. Е. Строки UTF-8, потенциально с символами новой строки, которые следует рассматривать как обычные символы); они не являются последовательностями ДНК или белками.

Я могу найти массу инструментов и информации для обычных случаев в биоинформатике с конкретными сложными форматами файлов и множеством функций, которые мне не нужны, но их неожиданно трудно найти программное обеспечение, библиотеки или пример кода для простого случая строк. Я, вероятно, мог бы повторно реализовать любой из множества алгоритмов для этой проблемы или закодировать свою строку как ДНК, но должен быть способ лучше. Вы знаете какие-нибудь решения?

Спасибо!

20
задан a3nm 28 April 2011 в 05:06
поделиться