Какой пакет с открытым исходным кодом для кластеризации документов лучше всего?

Какой пакет с открытым исходным кодом лучше всего подходит для кластеризации большого корпуса документов? Он должен либо сам определять количество кластеров, либо принимать это в качестве параметра.

У нас есть большой корпус документов, которые на самом деле не связаны с определенной темой - это документы, подготовленные продавцами и руководителями по различным проектам и клиентам в организации. Я знаю, что такой разбросанный корпус ухудшит производительность, но мы стараемся жить с лучшим, что мы можем получить. Итак, что лучше всего мы можем получить: -)

6
задан London guy 13 October 2011 в 10:30
поделиться