Wat sinn e puer gutt Weeër fir "ongeféier" semantesch Ähnlechkeet tëscht Sätz ze schätzen?

Ech hunn den nlp Tag op SO fir déi lescht Stonne gekuckt an ech sinn zouversiichtlech datt ech näischt verpasst hunn, awer wann ech et gemaach hunn, sot mir weg op d'Fro .

An der Tëschenzäit awer beschreiwen ech wat ech probéieren ze maachen. Eng gemeinsam Notioun déi ech op ville Posts observéiert hunn ass datt semantesch Ähnlechkeet schwéier ass. Zum Beispill, vun dësen Post, proposéiert d'akzeptéiert Léisung déi folgend:

First of all, neither from the perspective of computational 
linguistics nor of theoretical linguistics is it clear what 
the term 'semantic similarity' means exactly. .... 
Consider these examples:

Pete and Rob have found a dog near the station.
Pete and Rob have never found a dog near the station.
Pete and Rob both like programming a lot.
Patricia found a dog near the station.
It was a dog who found Pete and Rob under the snow.

Which of the sentences 2-4 are similar to 1? 2 is the exact 
opposite of 1, still it is about Pete and Rob (not) finding a 
dog.

Meng Ufuerderung op héijem Niveau ass d'K-Mëttel-Clustering ze benotzen an den Text ze kategoriséieren op Basis vun der semantescher Ähnlechkeet, also alles wat ech wësse muss ass ob se en ongeféier Match sinn. Zum Beispill, am uewe genannte Beispill, sinn ech OK mam 1,2,4,5 an eng Kategorie an 3 an eng aner ze klasséieren (natierlech ginn 3 mat e puer méi ähnleche Sätz gedroe ginn). Eppes wéi, fannt verwandte Artikelen, awer se mussen net 100% bezunn sinn.

Ech denken datt ech schlussendlech Vektor Representatioune vun all Saz muss bauen, sou wéi säi Fangerofdrock awer genau wat dëse Vecteur sollt enthalen ass nach ëmmer eng oppe Fro fir mech. Ass et n-Gramm, oder eppes aus dem Wortnetz oder just déi eenzel Stammwierder oder eppes anescht?

Dësen Fuedem huet eng fantastesch Aarbecht gemaach fir all verbonne Techniken opzezielen awer leider gestoppt just wéi de Post zu deem wat ech sinn wollt. All Suggestiounen iwwer wat ass de leschte Stand vun der Technik an dësem Beräich?

18
задан Community 23 May 2017 в 11:46
поделиться