Где прячется этот пробел?

Question

Где прячется этот пробел?

У меня есть вектор символов, который представляет собой файл некоторой очистки PDF черезpdftotext(инструмент командной строки ).

Все (блаженно )красиво выстроено. Однако вектор пронизан пробелами, которые ускользают от моих регулярных выражений :

> test
[1] "Address:"              "Clinic Information:"   "Store "                "351 South Washburn"    "Aurora Quick Care"    
[6] "Info"                  "St. Oshkosh, WI 54904" "Phone: 920‐232‐0718"   "Pewaukee"  

> grepl("[0-9]+ [A-Za-z ]+",test)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

> dput(test)
c("Address:", "Clinic Information:", "Store ", "351 South Washburn", 
"Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718", 
"Pewaukee")

> test.pasted <- c("Address:", "Clinic Information:", "Store ", "351 South Washburn", 
+                  "Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718", 
+                  "Pewaukee")

> grepl("[0-9]+ [A-Za-z ]+",test.pasted)
[1] FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE

> Encoding(test)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"

> Encoding(test.pasted)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "UTF-8"   "unknown"

. Ясно, что есть какой-то символ, который не назначается в dput, как в вопросе ниже:

Как правильно вывести интернационализированный текст?

Я не могу скопировать/вставить весь вектор... Как выполнить поиск -и -уничтожить этот пробел без пробела -?

Изменить

Очевидно, я даже не был близок к ясности, потому что ответы были повсюду.Вот еще более простой тестовый пример:

> grepl("Clinic Information:", test[2])
[1] FALSE
> grepl("Clinic Information:", "Clinic Information:") # Where the second phrase is copy/pasted from the screen
[1] TRUE

Между словами «Клиника» и «Информация», напечатанными на экране и в выводе dput, есть один пробел, но все, что есть в строке, не является стандартным пробелом. Моя цель - устранить это, чтобы я мог правильно найти этот элемент.

6

r regex

задан Community 23 May 2017 в 12:13

0 ответов

Другие вопросы по тегам:

r regex

Где прячется этот пробел?

0 ответов

Похожие вопросы: