У меня есть файл TSV (tab -с разделенными значениями ), который мне нужно проверить по буквам -на наличие опечаток и комбинированных слов (, т.е. «I love you» vs «Iloveyou» ).
Я установил Aspell на свой компьютер и могу запустить его через R, используя функцию aspell ().
files <- "train2.tsv"
res <- aspell(files)
str(res)
summary(res)
Однако результатом его запуска в R является просто список слов с ошибками и возможные предложения.
> summary(res)
Possibly mis-spelled words:
[1] "amant" "contaneir" "creat" "ddition" "EssaySet" "EssayText" "experiament" "expireiment" "expirement"
[10] "Fipst" "infomation" "Inorder" "measureing" "mintued" "neccisary" "officialy" "renuminering" "rinsen"
[19] "sticlenx" "sucessfully" "tipe" "vineager" "vinigar" "yar"
> str(res)
Classes ‘aspell’ and 'data.frame': 27 obs. of 5 variables:
$ Original : chr "EssaySet" "EssayText" "expirement" "expireiment"...
$ File : chr "train2.tsv" "train2.tsv" "train2.tsv" "train2.tsv"...
$ Line : int 1 1 3 3 3 3 3 3 6 6...
$ Column : int 4 27 27 108 132 222 226 280 120 156...
$ Suggestions:List of 27
..$ : chr "Essay Set" "Essay-Set" "Essayist" "Essays"...
..$ : chr "Essay Text" "Essay-Text" "Essayist" "Sedatest"...
..$ : chr "experiment" "excrement" "excitement" "experiments"...
..$ : chr "experiment" "experiments" "experimenter" "excrement"...
..$ : chr "Amandy" "am ant" "am-ant" "Amanda"...
..$ : chr "year" "ya" "Yard" "yard"...
Есть ли способ заставить aspell (или любую другую программу проверки орфографии )автоматически исправлять слова с ошибками?