кластерные короткие, гомогенные строки (DNA) согласно общим подшаблонам и согласию извлечения классов

я объяснил большую часть своей методологии PHP здесь .

, но в наше время, я просто использую Django везде, я могу.

5
задан SimonSalman 2 October 2009 в 12:50
поделиться

2 ответа

Ваш регион 2 с двумя буквами может оказаться слишком похожим, может помочь увеличение длины или вариативности (например, большего количества букв).

1
ответ дан 15 December 2019 в 06:30
поделиться

Да, 300 - это СЛИШКОМ СЛИШКОМ, учитывая, что это геном человека, и вы, по сути, просто ищете конкретный 8-мер. В геноме 65 536 возможных 8-мерных и 3 000 000 000 уникальных оснований (при условии, что вы смотрите на весь геном, а не только на генные или кодирующие области). Вы найдете G / C, содержащий последовательности 3 000 000 000/65 536 * 2 ^ 8 = ~ 12 000 000 раз (и, вероятно, намного больше, поскольку геном полон островков CpG по сравнению с другими вещами). Почему выбирают только 300?

Вы не хотите использовать регулярные выражения для этой задачи. Просто начните с хромосомы 1, найдите первый CG или GC и продолжайте, пока не получите свой первый не-G-или-C. Затем возьмите эту последовательность, ее контекст и сохраните (в БД). Промыть и повторить.

Для этого проекта Clustal может оказаться излишним, но я этого не делаю. Я не знаю твоих целей, поэтому не могу быть уверенным. Если вас интересует только область GC, вы можете выполнить простую кластеризацию, например:

  1. Сделайте запись в базе данных для каждого G / C 8-мер (всего 2 ^ 8 = 256).
  2. Take
  3. Пометьте каждую GC-область с последовательностями, которые она содержит.

Теперь для каждого 8-мера у вас есть тысячи последовательностей, которые его содержат. Я оставлю анализ данных на ваше усмотрение.

у вас есть тысячи последовательностей, которые его содержат. Я оставлю анализ данных на ваше усмотрение.

у вас есть тысячи последовательностей, которые его содержат. Я оставлю анализ данных на ваше усмотрение.

2
ответ дан 15 December 2019 в 06:30
поделиться
Другие вопросы по тегам:

Похожие вопросы: