Mi ebben a furcsa, hiszen normálisan is a hangunkkal kommunikálunk, nem? De ez csak egymással igaz, a gépekkel még nem igazán. Az elmúlt pár év hozta az áttörést: mára nemcsak a scifi írók fantáziájában lehet beszélgetni a számítógéppel, hanem a mindennapjaink részévé vált.
Elég régóta fejlesztenek olyan megoldásokat, amelyek hangfelismerésre épülnek. Már kb. 20 éve is voltak ilyen szoftverek, amelyek megtanulták az adott felhasználó hangját. Ehhez mindössze 2-3 oldalt kellett csak felolvasni, és ezek után elég jól lehetett diktálni. De az a fajta áttörés, amely már nem tette szükségessé, hogy felolvassunk a gépnek, csak az elmúlt pár évben jelent meg sokunk számára elérhető módon.
Az első komolyabb visszhangot kapott megoldás az Apple nevéhez fűződik, ez ugye az iPhone Siri-je. Nem talált föl semmi újat az Apple, a meglévő technikákat rakta össze, de olyan módon, ami így elérhetővé és érthetővé vált a tömegek számára. És pár hónapja az Amazon megjelent az Echo-val, ami már egy újabb dimenzió, a házi kisokos megjelenése.
Ami ezekben mind érdekes, hogy a technológia megléte önmagában nem elég: le kell fordítani a hétköznapok nyelvére. Ez a gyakorlatban olyan szolgáltatásokat jelent, ami miatt elkezdjük ezeket használni. Én például a telefonomon egyre többször nem gépelek, hanem diktálok. Egyszerűbb, és van annyira pontos, hogy időt takarítok meg. De az igazi kihívás az olyan mesterséges intelligencia, amellyel (vagy akivel?) már beszélgetni lehet. Ehhez nem kell más, mint megtanítani arra, hogy megértse a kérdéseinket.
És akkor itt jön a képbe a marketing. Gondolj bele, mi mindenre jó egy ilyen technológia! A legtriviálisabb megoldás az elárusító helyi reklám: a termék jellemzőkre rá lehetne kérdezni. Vagy az automatizált ügyfélszolgálat. És közben itt van a Skype megoldása, amelyik menet közben fordít: felismeri a szöveget, lefordítja, és a másik nyelven felolvassa.
A hangfelismerés itt van, nem kell rá várni. El kell kezdenünk kitalálni, mit fogunk ezzel kezdeni. Miben fogja ez megváltoztatni az ember-gép kommunikációt? Milyen módon fogja megváltoztatni a keresést? Ha egy Echo doboz fog válaszolni, akkor hol fognak megjelenni a reklámok? Milyen üzleti modell kell ehhez?
A Google biztos agyal már ezen, hiszen ha nem kell képernyő, akkor a reklámoknak a mostanihoz hasonló módon nem lesz helyük. Mi lesz majd a megoldás?
Sok kérdés merült fel bennem ezzel kapcsolatban, és ez alapján azt gondolom, az egyik nagy kihívása lesz az új évnek és az elkövetkező éveknek a hanggal történő kommunikáció. Amikor a gép megérti, amit akarunk, és válaszolni fog rá.
Utolsó kommentek