Gemini прочитает незрячим квитанции и другие документы с таблицами.


Episode Artwork
1.0x
0% played 00:00 00:00
Jan 28 2025 33 mins   1
Программы для распознавания текстов позволяют незрячим людям читать простые тексты. Но, когда речь заходит о таблицах, чтение таких документов становится не простым делом.
Синтезатор речи просто читает строки таблиц одну за другой и понять структуру документа при таком прочтении бывает непросто.
Но, сейчас есть языковые модели, которые могут работать с изображениями.
Одна из таких моделей, Gemini от Google, может читать документы с таблицами для незрячих людей и предоставлять информацию в более удобной форме.
Как это работает? Смотрите и слушайте в этом видео.