Az Apple és az Aalto Egyetem új AI-modellje megérti a mobilappok felületeit – bemutatkozik az ILuvUI
Egy új kutatás az Apple és a finn Aalto Egyetem együttműködésében bemutatta az ILuvUI-t, egy olyan látás-nyelvi modellt, amely képes természetes nyelvű utasítások és képernyőképek a
A felhasználói felületek (UI) megértése régóta kihívás a mesterséges intelligencia számára. Míg a legtöbb látás-nyelvi modell (Vision-Language Model, VLM) természetes képeken – például állatokon vagy tájakon – tanul, addig az alkalmazások UI-elemei, mint a listaelemek, jelölőnégyzetek vagy szövegmezők sokkal strukturáltabb és összetettebb információt hordoznak.
A ILuvUI (Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations) célja éppen ez: a szöveges utasításokat és a vizuális adatokat együtt értelmezve pontosabb következtetéseket von le arról, hogyan működik egy alkalmazás felülete. Ehhez a kutatók a nyílt forráskódú LLaVA modellt vették alapul, majd átalakították és finomhangolták, hogy...