Вот решение, использующее простое регулярное выражение с помощью метода re.sub
. Это решение также удаляет номера.
import re
abc=[ 'issues in performance 421',
'how are you doing',
'hey my name is abc, 143 what is your name',
'attention pleased',
'compliance installed 234']
stop=['attention\s+', 'installed\s+', '[0-9]']
[(lambda x: re.sub(r'|'.join(stop), '', x))(x) for x in abc]
'Output':
['issues in performance ',
'how are you doing',
'hey my name is abc, what is your name',
'pleased',
'compliance ']
Как я уже упоминал в EDIT , проблема заключалась в том, как MS-Office читает CSV. При открытии файла в блокноте кодировка правильная. Поскольку CSV должен быть скопирован в электронную таблицу Excel, все, что мне нужно было сделать, это «Импортировать» CSV в Excel.
Большое спасибо Мартину Прикрилу, который дал мне первый намек на решение.