CSV-файл с неанглийским языком (иврит и т. Д.)

Вот решение, использующее простое регулярное выражение с помощью метода re.sub. Это решение также удаляет номера.

import re

abc=[ 'issues in performance 421',
 'how are you doing',
 'hey my name is abc, 143 what is your name',
 'attention pleased',
 'compliance installed 234']
stop=['attention\s+', 'installed\s+', '[0-9]']

[(lambda x: re.sub(r'|'.join(stop), '', x))(x) for x in abc]


'Output':
['issues in performance ',
'how are you doing',
 'hey my name is abc,  what is your name',
 'pleased',
 'compliance ']
1
задан gadi 22 January 2019 в 21:19
поделиться

1 ответ

Как я уже упоминал в EDIT , проблема заключалась в том, как MS-Office читает CSV. При открытии файла в блокноте кодировка правильная. Поскольку CSV должен быть скопирован в электронную таблицу Excel, все, что мне нужно было сделать, это «Импортировать» CSV в Excel.

Большое спасибо Мартину Прикрилу, который дал мне первый намек на решение.

0
ответ дан gadi 22 January 2019 в 21:19
поделиться
Другие вопросы по тегам:

Похожие вопросы: