Apple, razem z Uniwersytetem Aalto w Finlandii, stworzyło – model sztucznej inteligencji, który potrafi zrozumieć aplikacje mobilne w sposób podobny do człowieka.
Nowość nazywa się ILuvUI. Tak, to nie żart. ILuvUI.
Model został zbudowany na fundamencie innego systemu – LLaVA, który wcześniej działał na zwykłych zdjęciach. Apple i ekipa z Finlandii wzięli ten model i zaczęli go uczyć czegoś nowego: jak patrzeć na interfejsy aplikacji i rozumieć, co się tam właściwie dzieje. Nie chodzi tylko o rozpoznawanie przycisku jako prostokąta, ale o to, żeby zrozumieć, że jest tam np. pole tekstowe, które ma jakąś funkcję i znaczenie w kontekście całej aplikacji.

Największy problem z obecnymi modelami polegał na tym, że przetwarzały tylko tekst albo tylko obraz. A interfejsy aplikacji to mieszanka jednego i drugiego – plus jeszcze logika, nawigacja, relacje między elementami. ILuvUI dostał więc do treningu syntetyczne dane: obrazy ekranów aplikacji i opisy tekstowe. W tych parach były m.in. pytania, odpowiedzi, scenariusze użytkownika typu „jak znaleźć nowy odcinek podcastu”, a także instrukcje złożone z kilku kroków. Całość zaprojektowana po to, by model mógł się nauczyć, jak wygląda i działa interfejs.
Efekty? ILuvUI przewyższył swojego protoplastę – LLaVA – w testach, w których oceniano zdolność do rozumienia ekranów. Co więcej, nie trzeba mu wskazywać palcem konkretnego miejsca. Wystarczy jedno tekstowe polecenie. Model analizuje cały widoczny obszar i sam wyciąga wnioski. Taka interpretacja kontekstowa znacznie bardziej przypomina to, jak działa ludzki umysł niż klasyczne przetwarzanie danych.
To rozwiązanie może być użyteczne w dwóch kierunkach. Po pierwsze, dostępność. Osoby z problemami wzroku często korzystają z czytników ekranu, które w wielu przypadkach nie radzą sobie z interpretacją skomplikowanych aplikacji. ILuvUI może znacznie lepiej opisywać, co znajduje się na ekranie i umożliwiać wykonywanie działań głosowo lub w inny uproszczony sposób.
Po drugie – testowanie aplikacji. Tradycyjnie polega to na tym, że testerzy przeklikują kolejne ekrany, sprawdzając, czy wszystko działa poprawnie. ILuvUI może pomóc zautomatyzować ten proces – analizując interfejsy i wskazując możliwe problemy bez potrzeby żmudnego ręcznego testowania.
Na razie model działa w ramach otwartych technologii, ale Apple planuje jego dalszy rozwój. W grę wchodzą m.in. lepsze kodery obrazu, obsługa ekranów o wyższej rozdzielczości oraz możliwość wypluwania wyników w formacie JSON, co przyda się każdemu, kto pracuje z narzędziami programistycznymi.
Apple prowadziło też badania nad tym, czy AI może nie tylko rozumieć interfejs, ale też przewidywać, co użytkownik zrobi za chwilę. I jeśli te dwa wątki zostaną połączone – czyli analiza ekranu plus przewidywanie działań – możemy skończyć z AI, która nie tylko wie, co masz przed oczami, ale też co chcesz z tym zrobić. I zrobi to za ciebie. Czyli asystent, który nie mówi, nie mruga, ale już wie, że chcesz zmienić jasność i zrobi to za ciebie, zanim powiesz „jasno”.