Страницы: 1
RSS
Ошибка в 1С: Распознавание первичных документов
 

Коллеги, добрый день. Мне сегодня утром пришла задача — распознать и внести в 1С пачку первичных документов, в основном это акты и счета-фактуры от контрагентов. Документы в формате PDF, отсканированы нормально. Я зашла в раздел «Распознавание первичных документов», как обычно: загрузила файлы, выбрала шаблон, запустила процесс. Однако на шаге «Распознавание текста» система выдала ошибку: «Не удалось определить структуру документа. Повреждён шаблон или неподдерживаемый формат». Пробовала ещё раз — то же самое. Задачу желательно выполнить за 1 -2 дня, а я не знаю как это сделать. Что можно сделать?

 
Цитата
Larisa написал:
Коллеги, добрый день. Мне сегодня утром пришла задача — распознать и внести в 1С пачку первичных документов, в основном это акты и счета-фактуры от контрагентов. Документы в формате PDF, отсканированы нормально. Я зашла в раздел «Распознавание первичных документов», как обычно: загрузила файлы, выбрала шаблон, запустила процесс. Однако на шаге «Распознавание текста» система выдала ошибку: «Не удалось определить структуру документа. Повреждён шаблон или неподдерживаемый формат». Пробовала ещё раз — то же самое. Задачу желательно выполнить за 1 -2 дня, а я не знаю как это сделать. Что можно сделать?

Привет, Лариса. Похоже, ты столкнулась с довольно типичной проблемой, которая в последнее время всплывает чаще. Судя по сообщению об ошибке, есть вероятность, что или шаблон действительно повреждён (в смысле, он не соответствует текущему виду документа), или в файле PDF что-то нестандартное — например, он не текстовый, а чисто графический. Это часто случается с отсканированными документами, если скан делался с низким качеством или без OCR (оптического распознавания текста).

Первое, что рекомендую — открой один из файлов и попробуй выделить текст мышкой. Если выделяется — значит, в документе есть текстовый слой, и 1С теоретически должна с ним справиться. Если нет — нужно предварительно прогнать через внешнюю программу OCR (например, Adobe Acrobat).

 

Всем привет! Лариса, судя по описанию, дело и правда в шаблоне скорее всего. В системе могут быть сохранены старые шаблоны актов и счетов-фактур, но многие контрагенты с нового года изменили формат. Особенно те, кто перешёл на электронный документооборот через Диадок или СБИС — у них и структура, и расположение полей другие. Возможно, просто не совпадает расположение ключевых зон (ИНН, сумма, дата и т.д.), и система не может понять, куда смотреть. Попробуй попросить кого-то из сис.админов ваших обновить шаблон, надеюсь поможет.

Либо можешь попробовать выполнить распознавание вручную, без привязки к шаблону, но это, конечно, дольше.

 
Цитата
Karina написал:
Всем привет! Лариса, судя по описанию, дело и правда в шаблоне скорее всего. В системе могут быть сохранены старые шаблоны актов и счетов-фактур, но многие контрагенты с нового года изменили формат. Особенно те, кто перешёл на электронный документооборот через Диадок или СБИС — у них и структура, и расположение полей другие. Возможно, просто не совпадает расположение ключевых зон (ИНН, сумма, дата и т.д.), и система не может понять, куда смотреть. Попробуй попросить кого-то из сис.админов ваших обновить шаблон, надеюсь поможет.   Либо можешь попробовать выполнить распознавание вручную, без привязки к шаблону, но это, конечно, дольше.

Спасибо!!! Сисадмин сказал, что файл и правда битый. Это чистая картинка, никакого текстового слоя внутри. Поэтому встроенный механизм 1С, который работает на основе FineReader SDK, не справляется. Он ожидает либо текстовый PDF, либо очень чёткий отсканированный документ, где зоны совпадают с шаблоном. Плюс в моем файле и штрифт какой-то нестандартный.

 
Цитата
Larisa написал:
Цитата
Karina написал:
Всем привет! Лариса, судя по описанию, дело и правда в шаблоне скорее всего. В системе могут быть сохранены старые шаблоны актов и счетов-фактур, но многие контрагенты с нового года изменили формат. Особенно те, кто перешёл на электронный документооборот через Диадок или СБИС — у них и структура, и расположение полей другие. Возможно, просто не совпадает расположение ключевых зон (ИНН, сумма, дата и т.д.), и система не может понять, куда смотреть. Попробуй попросить кого-то из сис.админов ваших обновить шаблон, надеюсь поможет.   Либо можешь попробовать выполнить распознавание вручную, без привязки к шаблону, но это, конечно, дольше.
 Спасибо!!! Сисадмин сказал, что файл и правда битый. Это чистая картинка, никакого текстового слоя внутри. Поэтому встроенный механизм 1С, который работает на основе FineReader SDK, не справляется. Он ожидает либо текстовый PDF, либо очень чёткий отсканированный документ, где зоны совпадают с шаблоном. Плюс в моем файле и штрифт какой-то нестандартный.

Ну что, раз проблема более менее выяснилась, вижу 2 варианта:

  1. Прогнать документы через внешнее OCR-приложение, например, ABBYY, и сохранить уже распознанный текст в PDF с текстовым слоем. После этого повторно загрузить в 1С.
  2. Обновить шаблон под текущий вид документа. Но это займёт немного времени — мне нужно вручную разметить зоны и указать, где искать нужные поля.

Если задача срочная — я бы рекомендовал пока распознать один-два документа вручную и внести их в 1С руками. По остальным ждать обновления шаблона.

Изменено: Oleg - 14.04.2025 17:13:53
 

Спасибо всем большое за пояснения. Попробую пару документов вручную обработать, чтобы не стопорить процесс. По OCR — у меня есть Adobe Acrobat Pro, попробую с его помощью распознать пару файлов и проверить, обработает ли 1С.

 
Цитата
Larisa написал:
Спасибо всем большое за пояснения. Попробую пару документов вручную обработать, чтобы не стопорить процесс. По OCR — у меня есть Adobe Acrobat Pro, попробую с его помощью распознать пару файлов и проверить, обработает ли 1С.

Кстати, ещё один момент. Обрати внимание, что в настройках 1С есть параметр «Использовать внешнее OCR при ошибке распознавания». Если его включить, система может автоматически передавать изображение во внешний модуль, если встроенное средство не справляется. Правда, это зависит от лицензии — не на всех конфигурациях доступно. Можно уточнить у администратора, есть ли у вас такая возможность.

Если это регулярная история с такими документами — может, стоит попросить контрагентов присылать документы в формате xml или в текстовых PDF, чтобы избежать лишней ручной работы. В рамках ЭДО это вообще не должно быть проблемой.

Вообще, это хороший момент для того, чтобы стандартизировать входящий поток документов. Закиньте идею коллегам, вдруг согласятся. Проблем меньше будет.

 

Спасибо огромное! Очень помогли. Двигаюсь дальше по плану: вручную обрабатываю пару документов, распознаю через Acrobat остальные.  А дальше жду шаблон. И очень надеюсь, что в следующей партии документов таких проблем будет меньше.

Страницы: 1