Как ИИ Читает Фото? [Технологии OCR И Зрения]

При реализации функции «Разбор по фото» было решено отказаться от устаревших OCR-библиотек вроде Tesseract. Они хорошо справляются с чистыми сканами, но не всегда эффективны при наличии теней, бликов и рукописного текста в тетрадях.

Использование нейросетей в качестве OCR

В основе распознавания лежат современные мультимодальные модели. Модель анализирует фотографию аналогично человеку: она понимает контекст написанного, что позволяет безошибочно расшифровывать даже сложный почерк.

Процесс обработки фото (Pipeline)

1

Сжатие на клиенте (JavaScript)

Фотография с телефона может весить 5-10 МБ. Прежде чем отправить изображение на сервер, скрипт через Canvas API ужимает его до ширины 1200px и конвертирует в Base64. Это экономит трафик и повышает скорость обработки.
2

Запрос к Vision API

Сервер формирует жесткий промпт: "Извлеки текст с фото. Сохрани оригинальную орфографию и пунктуацию. Выведи только текст." Изображение передается модели вместе с промптом.
3

Бесшовный переход к разбору

Полученный от модели чистый текст моментально отправляется в классический инструмент syntax-analyzer. Для пользователя это выглядит как единый процесс: загрузил фото → получил готовые подчеркивания и схему.

Почему важна оригинальная орфография?

Если в слове допущена ошибка, нейросеть может попытаться автоматически ее исправить при распознавании. Подобные действия строго запрещены на уровне системного промпта. Задача состоит в том, чтобы разобрать именно исходное предложение с фотографии, включая все знаки препинания и возможные опечатки. В противном случае разбор не совпадет с исходным текстом.

Оцифровка изображений

Использование нейросетей в качестве OCR

Процесс обработки фото (Pipeline)

Сжатие на клиенте (JavaScript)

Запрос к Vision API

Бесшовный переход к разбору

Почему важна оригинальная орфография?

Цикл статей по архитектуре

Этап 1: Семантика (ИИ)

Этап 2: Словари

Этап 3: Склейка

Этап 4: Правила

История разборов

Мы используем Cookie