W 2014 roku Apple dodało funkcję “Hey Siri” do iOS 8, która pozwala aktywować asystenta głosowego za pomocą jednej frazy. Dziś ta funkcja jest obsługiwana przez wszystkie urządzenia Apple – iPhone, iPad, Apple Watch i MacBook.
Kiedy Apple po raz pierwszy dodało tę funkcję w iOS 8, można było aktywować Siri tylko frazą, gdy iPhone lub iPad był ładowany. Powód jest prosty – ciągłe nasłuchiwanie było dość energochłonnym procesem, a iPhone 4s, 5, 5s i 6 jak wiemy nie miały dedykowanego układu Always-on Processor (AOP).
Układ pojawił się dopiero w iPhone 6s, jako część koprocesora M9. Co więcej, AOP działa na swoim systemie operacyjnym RTKitOS. Wiadomo, że ten chip umożliwia Hey Siri śledzenie lokalizacji iPhone’a w Find My, nawet jeśli jest wyłączony. Jest niezależny od iOS i faktycznie ma stały dostęp do mikrofonu. Tu zaczyna się prawdziwa magia.
W rzeczywistości firma przemyślała wszystko i stworzyła najbezpieczniejszy system, który nie pozwoli Siri usłyszeć Twoich rozmów. Teraz wyjaśnię, jak to działa.
iPhone słyszy Cię teraz, ale nie podsłuchuje
Deweloperzy Apple opracowali sprytny algorytm identyfikacji frazy kluczowej. W dedykowanej sekcji białej księgi na stronie internetowej Apple w 2018 roku ukazał się prawdziwy artykuł badawczy, który rzucił światło na wiele technicznych szczegółów „Hey Siri”.
Po pierwsze, odniesienia głosowe, które mówisz podczas konfigurowania Siri, są zapisywane bezpośrednio w tym układzie AOP. Są one następnie uzupełniane o nowe klawisze głosowe prawie za każdym razem, gdy aktywujesz Siri. W ten sposób iPhone uczy się reagować tylko na głos swojego właściciela.
Po drugie, chociaż AOP ma dostęp do mikrofonu, nie interpretuje mowy na tekst. Oznacza to, że nie analizuje tego, co mówisz. Eliminuje to wszelkie szanse na “tajne podsłuchiwanie” użytkownika smartfona.
Chip stale odbiera fale dźwiękowe, a dokładniej ich segmenty o długości zaledwie 0,01 sekundy w różnych odstępach czasu. Jeśli użytkownik uzyska dostęp do asystenta głosowego, AOP zbiera klaster 20 odniesień o łącznej długości 0,2 sekundy. Następnie trafiają do sieci neuronowej, która szuka dopasowań do nagranych przykładów.
Dopiero jeśli stopień zbieżności osiągnie pewien punkt (ile Apple nie określa w procentach), iOS otrzyma polecenie włączenia Siri. Następnie iPhone zaczyna słuchać tego, co mówisz, i interpretuje to na żądanie, które Siri wykona (lub nie).
Czy asystencji innych firm działają tak samo?
Trudno powiedzieć, czy inne firmy, takie jak Google, stosują podobne metody w rozwoju asystentów głosowych. W każdym razie jeśli chodzi o Apple i „Hey Siri” nie musisz się martwić o prywatność. Apple nie podsłuchuje swoich użytkowników – nie ma takiej potrzeby.