Я хотел бы извлечь из общей страницы HTML, весь текст (отображенный или не). Я хотел бы удалить любые HTML-тэги Любой JavaScript, который разрабатывает Любой CSS, там регулярное выражение (один или несколько)...
Я работаю над программой, которая загружает страницы HTML и затем выбирает часть информации, и запишите это в другой файл. Я хочу извлечь информацию, которая является intbetween теги абзаца, но...
Используя sed или подобный, как Вы извлекли бы строки из файла? Если бы я хотел строки 1, 5, 1010, 20503 из файла, как я получил бы эти 4 строки? Что, если у меня есть довольно большое количество строк, я должен...
У меня есть серия текстовых объектов - необработанный HTML от базы данных MySQL. Я хочу найти наиболее распространенные фразы в этих записях (не единственная наиболее распространенная фраза, и идеально, не осуществляя слово в слово...
Я пытался извлечь текст (строка) из MS Word (.doc, .docx), Excel и Powerpoint с помощью C#. Где я могу найти, что свободная и простая библиотека .NET читает документы MS Office? Я пытался использовать NPOI, но меня...
Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений: Я знаю, что документ довольно нормален, они являются очень регулярными (они все произошли из того же источника, я хочу приблизительно 99%...
Существует ли библиотека, которая имеет класс для извлечения текста из файла PDF в c#.net? Я попробовал некоторых, но документация ужасна, таким образом, я не смог успешно начать ее. Также, если это обеспечивает...
Существует много научной работы на извлечении содержимого HTML, например, Gupta & Kaiser (2005) Контент Извлечения от Доступных Веб-страниц и некоторые знаки интереса здесь, например, один, два, и три...
Я ищу библиотеку PDF, которая позволит мне извлекать текст из документа в формате PDF. Я посмотрел на PyPDF, и это может извлечь текст из документа в формате PDF очень приятно. Проблема с этим...
Мой маркетинговый отдел, благословите их, решил сделать тотализаторы, где люди входят по веб-странице. Это является большим, но информация не хранится к DB никакого вида, но отправляется в обмен...
Я уже задал подобный вопрос ранее, но я заметил, что имею большой, ограничьте: Я работаю над маленьким текстовым suchs наборов как пользовательские Твиты для генерации тегов (ключевые слова). И это походит...
Кто-нибудь знает что-нибудь, что они могут порекомендовать, чтобы извлечь только простой текст из .doc или .docx? Я нашел это - интересно, были ли еще какие-нибудь предложения?
Моя задача - прочитать файлы pdf (отсканированные документы, текстовые или в другом формате) и около 600 файлов из каталога и получить из них текст. Для случаев, когда это изображение или ...
У меня есть URL, и мне нужно получить значение v из этого URL. Вот мой URL: http://www.youtube.com/watch?v=_RCIP6OrQrE Любая полезная и полезная помощь высоко ценится.
Скажу прямо: я ужасен с регулярными выражениями. Я пытался придумать один, чтобы решить мою проблему, но я действительно мало о них знаю. . . Представьте себе несколько предложений по ...
Образец: case Foo: ... break;
case Bar: ... break;
case More: case Complex: ... break:
... Я хотел бы получить все совпадения regex (весь совпадающий текст, а еще лучше ...
Мне нужно извлечь чистый текст из случайной веб-страницы во время выполнения на стороне сервера. Я использую Google App Engine и порт Python Readability. Есть несколько таких. ранняя версия от gfxmonk, основанная на...
Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений: Я знаю, что документ довольно нормален, они являются очень регулярными (они все произошли из того же источника, я хочу приблизительно 99%...
Мне нужно извлечь текст из счетов и счетов в формате pdf. Макеты файлов могут быть сложными, хотя в основном они заполнены таблицами. Прочитал уже несколько десятков статей о формате pdf, как...
У меня есть большой набор реального текста, из которого мне нужно извлекать слова для ввода в программа проверки орфографии. Я хотел бы извлечь как можно больше значимых слов без лишнего шума. Я знаю, что есть ...
У меня есть строка, в которой есть две одинарные кавычки, символ '. Между одинарными кавычками - нужные мне данные. Как я могу написать регулярное выражение для извлечения «данных, которые мне нужны» из следующего текста? ...
Кто-нибудь может порекомендовать библиотеку / API для извлечения текста и изображений из PDF?
Нам нужно иметь возможность получить доступ к тексту, который содержится в ранее известных областях документа, поэтому API должен будет дать ...
Я хочу выделить текстовую область на изображении в качестве шага предварительной обработки для механизма OCR tesseract, механизм работает хорошо, когда на входе только текст, но когда входное изображение содержит нетекстовый контент, он падает,...
iTextSharp 4.1.6 — последняя версия, распространяемая по лицензии LGPL, и ее можно бесплатно использовать в коммерческих целях без уплаты лицензионных сборов. Для некоторых и для меня может быть интересно, как извлекать текст с помощью...