text-extraction - список вопросов по программированию text-extraction

8

ответов

Модуль Python для преобразования PDF в текст [закрыт]

Каковы лучшие модули Python для преобразования файлов PDF в текст?

вопрос задан: 10 July 2017 06:40

8

ответов

регулярное выражение для извлечения текста из HTML

Я хотел бы извлечь из общей страницы HTML, весь текст (отображенный или не). Я хотел бы удалить любые HTML-тэги Любой JavaScript, который разрабатывает Любой CSS, там регулярное выражение (один или несколько)...

text-extraction html-content-extraction regex html

вопрос задан: 2 January 2010 21:01

6

ответов

Извлечение текста от Java HTML

Я работаю над программой, которая загружает страницы HTML и затем выбирает часть информации, и запишите это в другой файл. Я хочу извлечь информацию, которая является intbetween теги абзаца, но...

java html screen-scraping html-content-extraction text-extraction

вопрос задан: 12 March 2013 15:05

6

ответов

Как я извлекаю строки из файла с помощью их номера строки на Unix?

Используя sed или подобный, как Вы извлекли бы строки из файла? Если бы я хотел строки 1, 5, 1010, 20503 из файла, как я получил бы эти 4 строки? Что, если у меня есть довольно большое количество строк, я должен...

unix sed awk line-numbers text-extraction

вопрос задан: 4 April 2010 17:31

4

ответа

Как извлечь распространенный / значительные фразы от ряда вводов текста

У меня есть серия текстовых объектов - необработанный HTML от базы данных MySQL. Я хочу найти наиболее распространенные фразы в этих записях (не единственная наиболее распространенная фраза, и идеально, не осуществляя слово в слово...

nlp text-extraction nltk text-analysis

вопрос задан: 26 November 2017 10:40

4

ответа

Как извлечь текст из документов MS Office в C#

Я пытался извлечь текст (строка) из MS Word (.doc, .docx), Excel и Powerpoint с помощью C#. Где я могу найти, что свободная и простая библиотека .NET читает документы MS Office? Я пытался использовать NPOI, но меня...

text-extraction ms-office c#

вопрос задан: 18 June 2009 07:20

3

ответа

Как извлечь текст из довольно нормального HTML?

Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений: Я знаю, что документ довольно нормален, они являются очень регулярными (они все произошли из того же источника, я хочу приблизительно 99%...

c# html d text-extraction

вопрос задан: 23 May 2017 10:30

3

ответа

Преобразование PDF в осуществимый текст с помощью [закрытого] C#

Существует ли библиотека, которая имеет класс для извлечения текста из файла PDF в c#.net? Я попробовал некоторых, но документация ужасна, таким образом, я не смог успешно начать ее. Также, если это обеспечивает...

c# pdf text-extraction image-extraction

вопрос задан: 8 September 2011 17:54

2

ответа

Каково состояние в извлечении содержимого HTML?

Существует много научной работы на извлечении содержимого HTML, например, Gupta & Kaiser (2005) Контент Извлечения от Доступных Веб-страниц и некоторые знаки интереса здесь, например, один, два, и три...

html html-content-extraction text-extraction

вопрос задан: 23 May 2017 12:01

2

ответа

Усовершенствованный Парсинг PDF Используя Python (извлекающий текст без таблиц, и т.д.): какова Лучшая Библиотека? [закрытый]

Я ищу библиотеку PDF, которая позволит мне извлекать текст из документа в формате PDF. Я посмотрел на PyPDF, и это может извлечь текст из документа в формате PDF очень приятно. Проблема с этим...

python pdf parsing text-extraction information-extraction

вопрос задан: 28 September 2011 20:53

2

ответа

Извлечение данных из электронного письма (или несколько тысяч электронных писем) [Exchange, базирующийся]

Мой маркетинговый отдел, благословите их, решил сделать тотализаторы, где люди входят по веб-странице. Это является большим, но информация не хранится к DB никакого вида, но отправляется в обмен...

text-extraction exchange-server

вопрос задан: 30 December 2008 00:05

1

ответ

поколение тега от маленького текстового содержания (такого как твиты)

Я уже задал подобный вопрос ранее, но я заметил, что имею большой, ограничьте: Я работаю над маленьким текстовым suchs наборов как пользовательские Твиты для генерации тегов (ключевые слова). И это походит...

twitter nlp text-extraction nltk text-analysis

вопрос задан: 23 May 2017 10:30

0

ответов

Как извлечь простой текст из .doc & amp; файлы .docx? [закрыто]

Кто-нибудь знает что-нибудь, что они могут порекомендовать, чтобы извлечь только простой текст из .doc или .docx? Я нашел это - интересно, были ли еще какие-нибудь предложения?

text-extraction doc docx extract unix

вопрос задан: 25 April 2019 12:29

0

ответов

Извлечение текста из PDF с использованием PyPDF2

Моя задача - прочитать файлы pdf (отсканированные документы, текстовые или в другом формате) и около 600 файлов из каталога и получить из них текст. Для случаев, когда это изображение или ...

pdf ocr text-extraction pypdf2 ner

вопрос задан: 19 January 2019 00:03

0

ответов

Извлечение текста PDF с координатами

Я хотел бы извлечь текст из части (используя координаты) PDF с помощью Ghostscript. Может ли кто-нибудь мне помочь?

pdf ghostscript text-extraction

вопрос задан: 14 December 2018 09:48

0

ответов

Как извлечь строку по шаблону с помощью grep, regex или perl

У меня есть файл, который выглядит примерно так:

...

regex perl sed html-parsing text-extraction

вопрос задан: 13 November 2018 17:21

0

ответов

Получение параметра URL в Java и извлечение конкретного текста из этого URL

У меня есть URL, и мне нужно получить значение v из этого URL. Вот мой URL: http://www.youtube.com/watch?v=_RCIP6OrQrE Любая полезная и полезная помощь высоко ценится.

text-extraction url java

вопрос задан: 31 October 2018 15:18

0

ответов

C#Извлечение текста из PDF с помощью PdfSharp

Есть ли возможность извлечь простой текст из PDF-файла с помощью PdfSharp? Я не хочу использовать iTextSharp из-за его лицензии.

pdfsharp text c# text-extraction

вопрос задан: 3 August 2018 14:35

0

ответов

Регулярное выражение для соответствия размерам объекта

Скажу прямо: я ужасен с регулярными выражениями. Я пытался придумать один, чтобы решить мою проблему, но я действительно мало о них знаю. . . Представьте себе несколько предложений по ...

regex parsing text nlp text-extraction

вопрос задан: 23 May 2017 12:29

0

ответов

Как извлечь совпадения regex с помощью Vim

Образец: case Foo: ... break; case Bar: ... break; case More: case Complex: ... break: ... Я хотел бы получить все совпадения regex (весь совпадающий текст, а еще лучше ...

regex vim match text-extraction

вопрос задан: 23 May 2017 12:23

0

ответов

Есть ли способ использовать удобочитаемость и python для извлечения только текста, а не HTML?

Мне нужно извлечь чистый текст из случайной веб-страницы во время выполнения на стороне сервера. Я использую Google App Engine и порт Python Readability. Есть несколько таких. ранняя версия от gfxmonk, основанная на...

html-content-extraction python readability text-extraction

вопрос задан: 23 May 2017 11:55

0

ответов

Как извлечь текст из довольно нормального HTML?

Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений: Я знаю, что документ довольно нормален, они являются очень регулярными (они все произошли из того же источника, я хочу приблизительно 99%...

c# html d text-extraction

вопрос задан: 23 May 2017 10:30

0

ответов

Извлечение текста PDF на основе правил для различных счетов и счетов-фактур

Мне нужно извлечь текст из счетов и счетов в формате pdf. Макеты файлов могут быть сложными, хотя в основном они заполнены таблицами. Прочитал уже несколько десятков статей о формате pdf, как...

pdf text-extraction

вопрос задан: 24 March 2016 09:35

0

ответов

Извлечение целых слов

У меня есть большой набор реального текста, из которого мне нужно извлекать слова для ввода в программа проверки орфографии. Я хотел бы извлечь как можно больше значимых слов без лишнего шума. Я знаю, что есть ...

python regex word alphabetical text-extraction

вопрос задан: 20 June 2014 18:55

0

ответов

Как извлечь подстроку с помощью регулярного выражения

У меня есть строка, в которой есть две одинарные кавычки, символ '. Между одинарными кавычками - нужные мне данные. Как я могу написать регулярное выражение для извлечения «данных, которые мне нужны» из следующего текста? ...

java regex string text-extraction

вопрос задан: 20 June 2014 07:42

0

ответов

Как извлечь текст из PDF? [закрыто]

Кто-нибудь может порекомендовать библиотеку / API для извлечения текста и изображений из PDF? Нам нужно иметь возможность получить доступ к тексту, который содержится в ранее известных областях документа, поэтому API должен будет дать ...

extraction pdf text ghostscript text-extraction

вопрос задан: 9 March 2013 17:25

0

ответов

Есть ли порт котла для .net?

Кто-нибудь знает порт .net для библиотеки котел?

c# .net text-extraction html-content-extraction boilerpipe

вопрос задан: 25 October 2012 21:33

0

ответов

Как выделить текстовую область на изображении?

Я хочу выделить текстовую область на изображении в качестве шага предварительной обработки для механизма OCR tesseract, механизм работает хорошо, когда на входе только текст, но когда входное изображение содержит нетекстовый контент, он падает,...

image-processing tesseract c++ text-extraction

вопрос задан: 18 April 2012 09:32

0

ответов

Jsoup -извлечение текста

Мне нужно извлечь текст из узла, подобного этому:

Здесь может находиться некоторый текст с тегами.

Также есть абзацы

Больше текста можно обойтись без...

iteration java jsoup text-extraction

вопрос задан: 17 April 2012 04:48

0

ответов

Как извлечь текст с помощью iTextSharp 4.1.6?

iTextSharp 4.1.6 — последняя версия, распространяемая по лицензии LGPL, и ее можно бесплатно использовать в коммерческих целях без уплаты лицензионных сборов. Для некоторых и для меня может быть интересно, как извлекать текст с помощью...

itextsharp c# text-extraction

вопрос задан: 13 April 2012 15:57

1
2