как найти похожие предложения / фразы в R?

Пример, у меня есть миллиарды коротких фраз, и я хочу их скопировать, похожи.

> strings.to.cluster <- c("Best Toyota dealer in bay area. Drive out with a new car today",
                        "Largest Selection of Furniture. Stock updated everyday" , 
                        " Unique selection of Handcrafted Jewelry",
                        "Free Shipping for orders above $60. Offer Expires soon",
                        "XXXX is where smart men buy anniversary gifts",
                        "2012 Camrys on Sale. 0% APR for select customers",
                        "Closing Sale on office desks. All Items must go" 
                         )

предполагают, что этот вектор состоит из сотен тысяч строк. Есть ли в R пакет для кластеризации этих фраз по значению? или кто-нибудь может предложить способ ранжирования «похожих» фраз по значению данной фразы.

7
задан sgt pepper 31 January 2012 в 04:34
поделиться