Я пытаюсь понять, как реализовать некоторую библиотеку машинного обучения, чтобы помочь мне выяснить, каков правильный вес каждого параметра, чтобы принять правильное решение.
Подробнее:
Контекст: пытаюсь реализовать экстрактор даты публикации для html файлов. Это для новостных сайтов, поэтому у меня нет общего формата даты, который я мог бы использовать. Я использую парсер в dateutil в Python, который неплохо справляется. В итоге я получаю список возможных дат публикации (все даты в html-файле).
На основе набора параметров, таких как закрывающие теги, слова, близкие к подстроке даты и т. Д. отсортируйте список по вероятности того, что это дата публикации. Взвешивание для каждого параметра - это каким-то образом обоснованные предположения.
Я хотел бы реализовать алгоритм машинного обучения, который после периода обучения (в котором указана фактическая дата публикации) он определяет, какой вес для каждого параметра должно быть.
Я читал документацию по различным библиотекам машинного обучения на python (pyML, scikit-learn, pybrain), но не нашел ничего полезного. Я также прочитал это , и есть близкий пример определения, съедобен гриб или нет.
Примечание: я работаю на python.
Я был бы очень признателен за вашу помощь.