Новые информационные технологии и программное обеспечение
  RSS    

20231229 200x300 0d249f2d3676e05c1a28a375dff09c2a



Автоматическое извлечение таблицы из PDF-файла

Многоцелевое программное обеспечение Bytescout PDF Multitool позволяет автоматически извлекать таблицы из файлов PDF. Программное обеспечение имеет интересную особенность - функция, которая автоматически определяет таблицу(ы) на той или иной странице исходного файла формата PDF. После обнаружения таблицы вы можете сохранить ее в нужное вам место на компьютере, а также выбрать выходной формат - TXT, CSV, XML, JSON или XLS - для сохранения таблицы из PDF.

Программное обеспечение также имеет функцию обнаружения первой таблицы из всех PDF-страниц, а затем извлечь все эти таблицы. Тем не менее, во время моего тестирования, все столы были извлечены с помощью этой опции, но есть некоторый текст содержание также извлечены.Таким образом, этот вариант не работает идеально, но оно может быть дано попробовать, когда есть много таблиц в PDF документе.

table

Перед тем, как программа начнет искать таблицу, вы можете задать определенные условия поиска: установить минимальное количество строк, столбцов, минимальные количество строк между таблицами и т.д.. Таким образом, программное обеспечение предоставляет практически все необходимые опции для извлечения таблиц из PDF.

Примечание: Данное программное обеспечение имеет множество других функций. Вы можете извлечь аудио и видео из PDF, извлечь вложенные в PDF файлы, разделять и объединять PDF, конвертировать PDF в TIFF, и многое другое.

Как извлечь таблицу?

Шаг 1: Загрузите ByteScout PDF MultiTool (отсюда) и установите его.

Шаг 2: Откройте программу, добавьте файл PDF. ПО поддерживает как одностраничные, так и многостраничные PDF-файлы.

Шаг 3: Слева в окне программы представлено множество опций, доступных в разных категориях. Вам нужно найти и нажать на Detect tables, расположенную в разделе Data Extraction.

select-detect-tables-option1

Шаг 4:  Откроется небольшое окно. В этом окне предлагается несколько параметров, связанных с обнаружением таблицы и ее извлечением. Вы можете настроить параметры в соответствии с вашими потребностями. Некоторые из важных вариантов:

  • Установить минимальное количество строк и столбцов для обнаружения таблицы.
  • Установить максимально допустимое недопустимых строк.
  • Выберите режим обнаружения: Content Groups и Borders, Bordered Tables, Borders, Content Groups. Рекомендуется первый вариант.

Detect-Tables-window1

Шаг 5: Используйте кнопку Detect next table, чтобы проверить, есть ли еще таблица на текущей странице или нет. Если таблица есть, то она будет найдена и обозначена красной рамкой. Теперь вы можете перейти на другую страницу и искать таблицы на ней.

Шаг 6: После того как сделан Шаг 5, нажмите Proceed to extraction. Вы увидите все доступные форматы вывода таблицы.

select-output-format1

Выберите формат, затем вы увидите еще несколько опций:

  • Сохранить форматирование текста.
  • Обрезать пробелы.
  • Делать интервалы между колонками.
  • Извлечь текущую страницу или определенный диапазон, и пр. Вы можете выбрать диапазон страниц, если нужно извлечь таблицы из нескольких страниц. 

set-options-and-save-table1

Установите эти параметры, затем нажмите Extract to File, чтобы сохранить таблицу.

Вывод

Программное обеспечение уникально тем, что позволяет автоматически извлекать таблицу из PDF-файла. Кроме того, предлагается несколько выходных форматов для сохранения таблицы.

Скачать программное обеспечение.

Оставьте свой комментарий!

Добавить комментарий


 

Самое читаемое:

Быстрый поиск

Инструкции к программам

Инструкции к программам

Сайт "Новые Информационные Технологии" содержит лишь справочные данные из открытых источников. Мы НЕ Рекламируем и НЕ Рекомендуем покупать или использовать ВСЕ упомянутые на сайте программы, оборудование и технологии