Мне любопытно знать, как Google Docs средство просмотра PDF работает? Это не флэш-память как scribd.com; это похоже на чистый HTML. Какая-либо идея, как, они сделали это?
Google просто служат изображение (щелкните правой кнопкой мыши -> Сохранить как), с наложением, чтобы выделить текст.
Вы должны проверить это вопрос , где другие идут более подробно.
Вы также должны просматривать источник вашей ссылки PDF, появится бы Google, передает ссылку PDF, чтобы преобразованы в изображение.
Пример:
<script type="text/javascript">
var gviewElement = document.getElementById('gview');
var config = {
'api': false,
'chrome': true,
'csi': true,
'ddUrl': "http://www.idfcmf.com/downloads/monthly_fund/2009/IDFC-Premier-Equityfund-jan10.pdf",
'element': gviewElement,
'embedded': false,
'initialQuery': "",
'oivUrl': "http://docs.google.com/viewer?url\x3dhttp%3A%2F%2Fwww.idfcmf.com%2Fdownloads%2Fmonthly_fund%2F2009%2FIDFC-Premier-Equityfund-jan10.pdf",
'sdm': 200,
'userAuthenticated': true
};
var gviewApp = _createGView(config);
gviewApp.setProgress(50);
window.jstiming.load.name = 'view';
window.jstiming.load.tick('_dt');
</script>
Редактировать
Кроме того, если вы должны были просматривать просмотрщик PDF в Firefox с Firebug, вы заметите, что когда вы «выделите» текст, это действительно только включает в себя нагрузку на работу, я думаю, Сканирует документ, используя OCR, обнаруживает, где текст имеет и предоставляет матрицу координат, на которых можно нажать размещение DIV, при нажатии, и перетащите, он не содержит местонахождение указателя мыши, чтобы определить, какие divs для отображения.
Все это изображение. Текст выделить наложение - это легко выяснить. Но когда вы нажимаете Ctrl + C, и он копирует в буфер обмена, эта часть у меня полностью ошеломлена. Поскольку в буфер обмена невозможна с помощью JavaScript в Firefox, но этот Ctrl + C на изображении работает нормально в Firefox. http://www.google.com/support/forum/p/google+docs/thread?tid=67dcf21ef8579b4c&hl=en&fid=67dcf21ef8579b4c00047e4A2A9FCB12
Я согласен с некоторыми другими ответами - PDF отображается как PNG, и очень вероятно, что текстовые области являются многослойными, возможно, с использованием абсолютного/относительного позиционирования. Вы можете извлечь информацию из PDF (конечно...). Формат PDF является открытым - любой может это сделать (конечно, это может быть нелегко). Однако есть некоторые инструменты с открытым исходным кодом (xPDF...), которые позволяют экспортировать содержимое PDF, например, в XML. Возможно, что экспорт включает информацию, например, координаты, где на странице должны отображаться текст и изображения.