Jan 28 2025 33 mins 1
Программы для распознавания текстов позволяют незрячим людям читать простые тексты. Но, когда речь заходит о таблицах, чтение таких документов становится не простым делом.
Синтезатор речи просто читает строки таблиц одну за другой и понять структуру документа при таком прочтении бывает непросто.
Но, сейчас есть языковые модели, которые могут работать с изображениями.
Одна из таких моделей, Gemini от Google, может читать документы с таблицами для незрячих людей и предоставлять информацию в более удобной форме.
Как это работает? Смотрите и слушайте в этом видео.
Синтезатор речи просто читает строки таблиц одну за другой и понять структуру документа при таком прочтении бывает непросто.
Но, сейчас есть языковые модели, которые могут работать с изображениями.
Одна из таких моделей, Gemini от Google, может читать документы с таблицами для незрячих людей и предоставлять информацию в более удобной форме.
Как это работает? Смотрите и слушайте в этом видео.