Nie trzeba już niczego klikać. Wystarczy powiedzieć, co chcesz zrobić, a telefon sam załatwi sprawę. Dosłownie.
Nowy projekt typu open source oparty na modelu ChatGPT potrafi wykonać złożone polecenia użytkownika na iPhonie – bez dotykania ekranu. Został zaprezentowany przez dewelopera Rounaka Jaina podczas hackathonu OpenAI w 2024 roku, a teraz jego kod można znaleźć na GitHubie. Działa szybko, bezpośrednio i całkowicie samodzielnie. Nie jako pomysł na przyszłość, ale coś, co już działa.
Wszystko opiera się na tzw. agencie AI, który różni się od klasycznych asystentów. Nie ogranicza się do jednego zadania. Nie trzeba go prowadzić za rękę. Otrzymuje jedno polecenie głosowe i rozumie, co trzeba zrobić – a potem po kolei wykonuje każde z działań. Na przykład: mówisz, że chcesz wysłać komuś wiadomość i zamówić przejazd pod konkretny adres. Agent przechodzi przez aplikacje, wpisuje treści, wybiera lokalizację i realizuje polecenie. Samodzielnie. Cały proces odbywa się bez angażowania użytkownika.
Agent działa w oparciu o model ChatGPT, który potrafi analizować język naturalny i przekładać go na działania w aplikacjach. To oznacza, że nie wykonuje jednej z góry zaprogramowanej funkcji, ale reaguje na intencję użytkownika. Wykorzystuje przy tym dostęp do systemowych mechanizmów iPhone’a, które umożliwiają sterowanie aplikacjami z poziomu kodu. W ten sposób potrafi obsługiwać wiele funkcji, niezależnie od ich rodzaju.
Zobaczcie jak to wygląda w praktyce.
Projekt nie pojawi się w App Store – i nie chodzi tu o jakość wykonania, ale o sposób działania. Aplikacje w sklepie Apple muszą działać w ramach ściśle określonych zasad bezpieczeństwa. Narzędzie stworzone przez Jaina korzysta z poziomu uprawnień, który nie jest dostępny dla aplikacji ze sklepu. Dzięki temu może działać bardziej bezpośrednio, ale jednocześnie nie spełnia warunków publikacji w oficjalnym kanale dystrybucji.
Kod źródłowy jest dostępny na GitHubie. Osoby, które chcą przetestować to narzędzie, muszą mieć konto deweloperskie Apple, dostęp do Xcode oraz klucz API do ChatGPT. Projekt nie wymaga ingerencji w system ani tzw. jailbreaka, ale jego konfiguracja wymaga znajomości środowiska programistycznego Apple i podstaw integracji z API. Wszystko jest opisane w dokumentacji technicznej projektu.
Zbliżająca się konferencja WWDC 2025 może rzucić nowe światło na kierunek, w którym Apple będzie rozwijać swoje funkcje AI. Wiele wskazuje na to, że firma zamierza rozszerzyć zestaw narzędzi związanych z tzw. Apple Intelligence. Pytanie tylko, czy w tym pakiecie znajdzie się miejsce dla automatyzacji takiej, jak ta pokazana w projekcie Rounaka Jaina.
Agent z GitHuba to nie gotowy produkt, ale działający dowód na to, że można powierzyć telefonowi więcej niż jedną czynność naraz – i to bez kontaktu z ekranem. Takie rozwiązanie może ułatwić codzienne działania, eliminując potrzebę ręcznego sterowania każdą aplikacją osobno. To przykład wykorzystania AI, które faktycznie może coś zrobić, zamiast tylko podpowiadać.