Я новичок в машинном обучении, и для своего первого проекта я хотел бы написать наивный спам-фильтр Байеса. Мне было интересно, есть ли какие-либо общедоступные обучающие наборы помеченных спамом / не спамом электронных писем, желательно в виде простого текста, а не дамп реляционной базы данных (если они не красиво печатают их?).
Я знаю, что такая общедоступная база данных существует для других видов классификации текста, в частности текста новостной статьи. Я просто не смог найти то же самое для электронных писем.