Оцифровка изображений
Техническое зрение. Как мы извлекаем текст с сохранением орфографии и пунктуации перед тем, как передать его в основной алгоритм.
Для реализации функции "Разбор по фото" мы не стали использовать устаревшие OCR-библиотеки вроде Tesseract. Они хорошо справляются с идеальными сканами, но пасуют перед тенями, бликами и, самое главное, рукописным текстом школьных тетрадей.
Мультимодальные LLM в качестве OCR
Мы используем мощь современных мультимодальных моделей (конкретно gemini-2.5-flash). Эта модель "смотрит" на фотографию так же, как человек: она понимает контекст написанного, что позволяет ей безошибочно расшифровывать даже неразборчивый почерк.
Процесс обработки фото (Pipeline)
-
1
Сжатие на клиенте (JavaScript)
Фотография с телефона может весить 5-10 МБ. Прежде чем отправить ее на сервер, мы через Canvas API ужимаем ее до ширины 1200px и конвертируем в Base64. Это экономит трафик и ускоряет работу.
-
2
Запрос к Vision API
Сервер формирует жесткий промпт: "Извлеки текст с фото. Сохрани оригинальную орфографию и пунктуацию. Выведи только текст." Изображение передается модели вместе с промптом.
-
3
Бесшовный переход к разбору
Полученный от модели чистый текст моментально отправляется в классический инструмент
syntax-analyzer. Для пользователя это выглядит как единый процесс: загрузил фото → получил готовые подчеркивания и схему.
Почему важна оригинальная орфография?
Если ученик сделал ошибку в слове, нейросеть может попытаться "заботливо" ее исправить при распознавании. Мы строго запрещаем ей это делать системным промптом. Наша задача — разобрать именно то предложение, которое написано на фото, включая все авторские знаки препинания и описки. В противном случае разбор может разойтись с текстом в тетради.