Подмножество данных/извлечение данных на основе первых 7 букв

У меня есть огромный набор данных с генотипической информацией из разных популяций. Я хотел бы отсортировать данные по населению, но я не знаю, как это сделать.

Я хотел бы отсортировать по "родословной _dhl". Я использовал следующий код, но продолжал получать сообщения об ошибках.

newdata <- project[pedigree_dhl == CCB133$*1,  ]

Моя проблема также в том, что «родословная -dhl» содержит все названия отдельных генотипов. Только первые 7 букв в столбце «родословная -dhl» являются названием популяции. В этом примере :CCB133. Как мне сообщить R, что я хочу извлечь данные для всех столбцов, содержащих CCB133?

  Allele1 Allele2      SNP_name gs_entry pedigree_dhl
1       T       T ZM011407_0151      656    CCB133$*1
2       T       T ZM009374_0354      656    CCB133$*1
3       C       C ZM003499_0591      656    CCB133$*1
4       A       A ZM003898_0594      656    CCB133$*1
5       C       C ZM004887_0313      656    CCB133$*1
6       G       G ZM000583_1096      656    CCB133$*1
6
задан Tyler Rinker 25 April 2012 в 17:08
поделиться