Добавление языкового профиля в Apache Tika

Любой, кому удалось это сделать, не мог бы объяснить, как это сделать: -)

Нужно ли мне получать n-граммовые файлы для язык, который мне нужно добавить?

Это вопрос создания tika.language.override.properties , добавления некоторых других языковых кодов и добавления файла n-gram lang-code.ngp в classPath? В таком случае, где мне его взять и почему Tika не поддерживает больше языков, если это просто вопрос этого?

В настоящее время эти языки поддерживаются для определения языка

da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th

, а tika использует традиционную n-грамму нотация

er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528

Это приложение для определения языков в настоящее время поддерживает эти языки, но имеет разные файлы n-граммов

af  bg  cs  de  en  fa  fr  he  hr  id  ja  ko  ml  ne  no  pl  ro  sk  sq  sw   te  tl  uk   vi     zh-tw ar  bn  da  el  es  fi   gu  hi  hu  it  kn  mk  mr   nl   pa  pt  ru  so   sv  ta  th   tr  ur  zh-cn

в нотации JSON

{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" ....

7
задан lisak 3 June 2011 в 13:25
поделиться