Я закончил сбор данных, которые планирую использовать для своего корпуса, но я немного не понимаю, следует ли мне нормализовать текст. Я планирую пометить и разбить корпус на части в будущем. Некоторые корпуса NLTK написаны строчными буквами, а другие - нет.
Кто-нибудь может пролить свет на эту тему, пожалуйста?