🤓 Как еще можно использовать Vision модели
Раньше я рассказывал про своего бота для подсчета калорий по фоткам. Изначально это был просто эксперимент, чтобы понять текущие возможности Vision моделей. Обычные модели, которые доступны всем, нормально работают без каких-либо настроек и стоят недорого. Почему бы не сделать что-то еще полезное? Делюсь идеями.
⚖️ В том же телеграм-боте я добавил распознавание показателя веса с фотки весов с последующей записью в мой Workflowy и возможностью по кнопке в ТГ вызывать шорткат, который сохраняет значение в Apple Health. Я не пользуюсь бесполезными “умными” весами, потому что они вечно показывают какую-то дикую ерунду, и вернулся к обычным. Промпт здесь.
Фотка > команда > апрув > клик по шорткату.
🛠️ То же самое сделано для сохранения и подсчета показателей счетчиков воды и электричества. Фотка уходит в Google Sheets, там уже давно настроены формулы расчета, а в ответ приходит сообщение с результатом и анализом расхода. Если четко обозначить в промпте, как выглядят приборы и их отличительные характеристики, распознавание работает отлично.
🩺 То же самое с показателями кровяного давления. Раз в квартал я замеряю давление в течение недели или двух. Раньше записывал все вручную в Workflowy, сейчас просто отправляю фотку в бота. Девайсы для измерения давления, как правило, четко пишут название метрики перед каждым показателем, поэтому это тоже легкий промпт.
📱 Еще один кейс, который не совсем относится к vision-автоматизации. Я использую OpenClaw, чтобы переводить сообщения на маркетплейсах с немецкого. И сразу писать ответы. Приходит пуш-уведомление, делаю скрин, отправляю в OpenClaw, потом прошу сгенерировать ответ и отправляю его. Намного проще и быстрее, чем загружать скрин в Google Translate, а потом вручную писать ответ на основе перевода.