Удаление знаков препинания / чисел из текстовой проблемы

У меня был код, который отлично работал с удалением знаков препинания / чисел с использованием регулярных выражений в Python, мне пришлось немного изменить код, чтобы сработал стоп-лист, что не особенно важно. Во всяком случае, теперь знаки препинания не удаляются, и, честно говоря, я не понимаю, почему.

import re
import nltk

# Quran subset
filename = raw_input('Enter name of file to convert to ARFF with extension, eg. name.txt: ')

# create list of lower case words
word_list = re.split('\s+', file(filename).read().lower())
print 'Words in text:', len(word_list)
# punctuation and numbers to be removed
punctuation = re.compile(r'[-.?!,":;()|0-9]')
for word in word_list:
    word = punctuation.sub("", word)
print word_list

Любые указания на то, почему это не работает, было бы замечательно, я не эксперт в python, так что это, вероятно, что-то до смешного глупо. Спасибо.

5
задан Alex 1 April 2011 в 11:32
поделиться