Я хочу научиться машинному обучению достаточно, чтобы я мог для начала с определенного сайта и "понять" какие разделы формируют контент, какие рекламные объявления и какие формируют метаданные (ни контент, ни реклама - например, - Оглавление, биография автора и т. Д.)
Просмотрите исходный HTML-код страниц. с разрозненных сайтов и "классифицировать" принадлежит ли сайт к предопределенная категория или нет (список категории будут предоставлены заранее) 1.
... аналогичные классификационные задачи на текст и страницы.
Как видите, мои непосредственные требования связаны с классификацией по разрозненным источникам данных и большим объемам данных.
Насколько я ограничен понимание того, что использование нейронной сети потребует много обучения и поддержки, чем использование SVM?
Я понимаю, что SVM хорошо подходят для задач (бинарной) классификации, таких как моя, а фреймворки с открытым исходным кодом, такие как libSVM, достаточно зрелы ?
В таком случае, какие предметы и темы нужно ли выпускнику информатики узнать прямо сейчас, чтобы выше требования можно решить, поставив эти фреймворки использовать?
Я бы хотел держаться подальше от Java, это возможно, и в противном случае у меня нет языковых предпочтений. Я готов учиться и прикладывать столько усилий, сколько смогу.
Я не собираюсь писать код с нуля, а для начала предлагаю различные фреймворки, доступные для использования (я не знаю достаточно, чтобы решить, какие хотя) и я смогу исправить что-то, если что-то пойдет не так .
В ваших рекомендациях по изучению определенных разделов статистики и теории вероятностей нет ничего неожиданного с моей стороны, поэтому скажите это, если потребуется!
Я изменю этот вопрос, если необходимо, в зависимости от всех ваших предложений и отзывов.