У меня есть вектор символов, который представляет собой файл некоторой очистки PDF черезpdftotext
(инструмент командной строки ).
Все (блаженно )красиво выстроено. Однако вектор пронизан пробелами, которые ускользают от моих регулярных выражений :
> test
[1] "Address:" "Clinic Information:" "Store " "351 South Washburn" "Aurora Quick Care"
[6] "Info" "St. Oshkosh, WI 54904" "Phone: 920‐232‐0718" "Pewaukee"
> grepl("[0-9]+ [A-Za-z ]+",test)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
> dput(test)
c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
"Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
"Pewaukee")
> test.pasted <- c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
+ "Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
+ "Pewaukee")
> grepl("[0-9]+ [A-Za-z ]+",test.pasted)
[1] FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
> Encoding(test)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
> Encoding(test.pasted)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "UTF-8" "unknown"
. Ясно, что есть какой-то символ, который не назначается в dput
, как в вопросе ниже:
Как правильно вывести интернационализированный текст?
Я не могу скопировать/вставить весь вектор... Как выполнить поиск -и -уничтожить этот пробел без пробела -?
Изменить
Очевидно, я даже не был близок к ясности, потому что ответы были повсюду.Вот еще более простой тестовый пример:
> grepl("Clinic Information:", test[2])
[1] FALSE
> grepl("Clinic Information:", "Clinic Information:") # Where the second phrase is copy/pasted from the screen
[1] TRUE
Между словами «Клиника» и «Информация», напечатанными на экране и в выводе dput
, есть один пробел, но все, что есть в строке, не является стандартным пробелом. Моя цель - устранить это, чтобы я мог правильно найти этот элемент.