полезные статьи

Как мне создать архив PDF с возможностью поиска?

В этой колонке технических советов на Goldavelez.com - продолжайте задавать вопросы, ребята! - мы помогаем читателю, у которого слишком много важных статей, которые необходимы для магического перехода в цифровую сферу. По крайней мере, это звучит намного более захватывающе, чем «Оптическое распознавание символов», которое на самом деле не скатывается с языка.

Читатель Goldavelez.com Фил пишет:

Спасибо за добрые слова, Фил! Я рад помочь - не из-за лести, а потому, что ваш вопрос, вероятно, задумывался многими читателями (включая меня). У меня есть целый набор вещей, которые я хотел бы перенести из физического мира в цифровой, поэтому я могу забывать Мари Кондо об оригинальных документах и ​​фотографиях. Стопки бумаги не приносят мне радости.

У вас есть несколько вариантов, которые вы можете попробовать. Я бы начал с очевидного: Google. Предполагая, что вы создаете PDF-файлы, загрузите свои файлы на Google Drive. Щелкните правой кнопкой мыши любой отдельный PDF-файл, наведите указатель мыши на «Открыть с помощью» и выберите «Документы Google». Затем Google попытается запустить распознавание текста в вашем PDF-файле, и вы сможете сохранить полученный файл в виде документа. Затем вы можете выполнить поиск по этому документу (и любым другим, которые вы конвертируете) через сам диск.

Тем не менее, чем больше я думаю об этом, тем не менее, это решение выглядит несколько не элегантно, учитывая, сколько файлов вам нужно работать. Вместо этого я мог бы попробовать программный продукт, такой как TesseractStudio.Net - или просто Tesseract OCR, если вы не боитесь командной строки. Вы должны быть в состоянии использовать это для создания данных OCR из ваших файлов, а затем вы можете искать их напрямую через Windows или macOS. OCRmyPDF - это еще одна опция, похожая на Tesseract OCR, но, опять же, вы будете играть с набранными командами, чтобы применить OCR к вашим файлам. Там нет графического интерфейса, и нет (прямой) поддержки Windows.

Есть также Paperwork, инструмент для каталогизации документов с открытым исходным кодом, который поставляется со встроенным OCR, который я определенно рассмотрю, учитывая, что он разработан как единое программное обеспечение для архивирования, сортировки и поиска документов. Похоже, это может быть то, что вы ищете.

Я не использовал PDF-XChange Viewer, но другие рекомендовали его в качестве опции. Бесплатная версия добавит водяные знаки в ваши PDF-файлы, но она может создавать PDF-файлы из изображений и, если я прав, добавить OCR к этим имеющимся PDF-файлам. Это стоит исследовать, даже если это не идеальное (бесплатное) решение. Точно так же FreeOCR может взять ваши изображения или PDF-файлы, применить OCR и экспортировать результаты в виде текстовых файлов или документов Word. Если вы не возражаете искать свои архивы таким образом, это вариант.

Что касается платных решений, всегда есть Adobe Acrobat Pro или Foxit PhantomPDF . И то, и другое позволит вам добавить распознавание текста в PDF-файлы, и вы сможете обрабатывать все ваши документы как большой пакет (или создать скрипт, который делает это с содержанием содержимого папок). Вы могли бы даже сделать это во время бесплатных испытаний приложений, если они не накладывают ограничений на свои возможности OCR. Я также видел, как другие с вашей конкретной проблемой добились успеха, используя приложение, такое как PDF OCR, которое могло бы стать более дешевой альтернативой.

Это все, что я могу придумать, начиная с головы (и с небольшим исследованием). Надеемся, что одно из этих решений сработает для вас - не стоив вам небольшого состояния. Напишите и дайте мне знать, какое приложение работает лучше для вас!

Tech 911 У вас есть технический вопрос, который не дает вам спать по ночам? Мы хотели бы ответить на это! Напишите с "Tech 911" в строке темы.