Какой пакет с открытым исходным кодом лучше всего подходит для кластеризации большого корпуса документов? Он должен либо сам определять количество кластеров, либо принимать это в качестве параметра.
У нас есть большой корпус документов, которые на самом деле не связаны с определенной темой - это документы, подготовленные продавцами и руководителями по различным проектам и клиентам в организации. Я знаю, что такой разбросанный корпус ухудшит производительность, но мы стараемся жить с лучшим, что мы можем получить. Итак, что лучше всего мы можем получить: -)