Timo Kinnunen
Särkiniementie 16 A 41
70700
Kuopio
Finland
Rickhard A. BOLT, Nonmember
The author is with The Media Laboratory, Massachusetts Institute of Technology, Cambridge, USA.
The reference of this article is:
Bolt, Richhard
A. "The integrated multi-modal interface".
The Transactions of the Institute of
Electronics,
Information and Communications Engineers
(Japan),
November 1987, Vol. J70-D, No. 11, pp. 2017-2025.
Suom. Timo Kinnunen 6.3.1989
Multi-Modaaliset vuorovaikutekentän muodot (interfaces), erityisesti sellaiset, joissa kombinoidaan puhetta, eleitä, ja katsetta, voivat tehdä ihminen/ tietokone -vuorovaikutuksesta enemmän keskustelunomaista luonteeltaan. Siinä kun "keskustelu" ihminen/ tietokone -vuorovaikutuksen metaforana ei ole sovelias sellaisten tehtävien ratkaisulle, kuten paperitulosteiden ja sanojenkäsittelyn käyttöön, se saattaa hyvinkin soveltua ideoiden kiireettömään paranteluun ja niiden tutkimiseen. "Itsestääntiedottavaa" (self-disclosing) systeemiä, jota tässä kuvataan, tutkitaan parhaillaan. Tämä järjestelmä tarkkailee tietokoneenkäyttäjän erilaisia aktiviteetteja, kuten silmien tekemää kohdistusliikettä graafisella näyttöpäätteellä, ja järjestelmä vastaa kysymyksiin syntesoidulla puheella, ja graafisen näytön erilaisilla aktiviteeteilla, joita käyttäjä haluaa toteutettaviksi.
Olen johtajana Massachusetts Institute of Technology's Media Laboratory'ssa, ja hyvin kiinnostunut multi-modaalisista vuorovaikutekentän muodoista (interfaces): vuorovaikutekentän muodot hyväksyvät ja tulkitsevat niille annettua syöttöä (input) kahdessa tai useammassa muodossa yhtäaikaisesti. Tämäntapainen vuorovaikutus (interaction)eroaa tavanomaisesta interaktiosta tietokoneen ja sen yksittäisen käyttäjän välillä (esimerkiksi näppäimistön kautta tapahtuvasta). Erityisen kiinnostunut olen sovittamaan ihminen/ tietokone vuorovaikutekenttään muodoista (interface) kolmea primaarimuotoa jäljitellen tapaa, jossa ihminen kohtaa ihmisen kasvokontaktissa: puheen, eleet ja katseen. Mahdollistamalla inhimilliselle käyttäjälle jonkin näistä muodoista käytön, joko yksittäisenä, tai kombinoituneena muiden mainittujen muotojen kanssa. Siten toivon, että kanssakäyminen tietokoneen kanssa voisi muodostua enemmän ihmistenvälistä keskustelua muistuttavaksi. On tosin niitäkin, jotka pitävät "keskusteluyhteys-systeemin" metaforaa soveltumattomana ihmisen ja tietokoneen väliseen kommunikaatioon (esimerkiksi, ref. [16]), ja että työkalujen- tai instrumenttienkäytön metafora olisi suositeltavampi. Tämä on totta koskien monia, tai ehkä useimpia tilanteita tänä päivänä, joissa ihmiset istuvat tietokoneiden ääressä. Silti minusta tuntuu, että on olemassa valtava tietokoneenkäytön tutkimaton alue, jossa vuorovaikus olisi enemmänkin "keskustelua muistutavaa". Ajatelkaamme esimerkiksi sellaista vuorovaikutsta, jossa päämääränä on ideoiden muokkaus ja tutkiminen, ja jossa tarvitaan kiireetöntä tutkimusta ja laajaa informaation moniyhteyksellistä vertaamista, ja jossa "ääneen ajatteleminen" tuosta tai tästä teemasta on keskeistä. Konkreettisesti tällainen ideoija voisi olla suunnittelija, joka harkisee sopivia erityisten kasvien viljelijöitä; fysiikanopiskelija, joka haluaa tarkastella optiikkaan liittyviä teemoja; kotonaan oleva henkilö, joka suunnittelee ohjattua matkaa Eurooppaan tutustuakseen sen katedraaleihin, ja joka haluaa käyttää opastajanaan tietokonetta. Tällaisten pyrkimysten henki, ja sävy eroaa huomattavasti tietokoneliuskoihin, tai sanaprosessoreihin perustuvasta työskentelystä, ja liittyy enemmänkin tavanomaiseen keskustelullisuuteen, jossa joku tietää jotakin keskusteltavista teemoista, ja haluaa kuluttaa aikaansa keskustelemalla niistä jonkun kanssa, joka myös niistä tahtoisi jotakin tietää.
On olemassa kaksikin seikkaa ratkaistavana luotaessa sellaista keskustelullista kvalititeettia käyttäjän ja tietokoneen vuorovaikutuskenttään (interface). Yhtäältä on huomioitava teknologia, jolla kyetään poimimaan tarvittavia aineksia käyttäjän puheesta, katseesta ja eleistä. Nämä teknologiat liittyvät automaattiseen puheensisältöjen tunnistukseen (speech recognition), silmien liikkeiden rekisteröintiin (eyetracking), ja manuaalisiin informaationsyöttölaitteisiin. Voimme odottaa näiden teknologioiden parantuvan ajan myötä, ja tulevan käytöllisyydeltään mukavammiksi, sekä myös halpenevan paremman insinöörisuunnittelun myötä, ja parempien materiaalien tulevan saataville niin, että laitteiden koko pienenee (miniaturization), sekä lisäksi sitä, että kehitetään parempia tiedonsiirtolaitteita (transducers). Se, mitä kehityksen myötä kaikkiaan jää jäljelle on se, että puhuminen, katsominen ja osoittaminen tulee jäämään pääasiallisimmaksi tavaksi, jolla ihmiset ilmaisevat itseään. Toisaalta kehityksen kuvaan kuuluu koneäly (machine intelligence), joka tulkitsee informaatiosyötöt, joita vuorovaikutekentän muodoilla laitteistoon syötetään; koneäly kartoittaa mm. graafiselle näytölle annetut vastaukset, puheella annetut ohjeet, tai hyödyntää niistä molempia. Voidaanko mainitunlaisilla puhumisen, katsomisen ja osoittamisen muotoja sitten päästä eroon näppäimistöllä tai "hiirellä" tehtyihin valintoihin, joita nykyään käytetään? Ei, koska näppäimistö on hyödyllinen työkalu syöttöön, jossa symbolista informaatiota annetaan merkkien ketjuina. Eikä myöskään "hiirestä" haluttane päästä eroon, sillä se on hyvä työkalu. Vaikka ihmiset puhuvat, katsovat ja osoittavat me käytämme silti yleensäkin työkaluja: vasaraa naulojen lyömiseen, saksia paperinleikkaukseen. Pääpainotusalueena ovat tässä ne ihmisryhmät, joiden ei ole mahdollista sellaisia käyttää, tai joiden ei ole tarpeen käyttää työvälineitä puhuessaan, osoittaessaan, tai katsoessaan.
Mitä etuja multimodaalisesta lähestymistavasta sitten on? Moniakin, mutta ehkä lähinnä kolme erityisen tärkeää etua seuraa siitä, että käytetään kahta- tai useampaa muotoa yhdistyneenä ja rinnakkain: taakasta vapautuminen (unburdening), summautuminen, ja redundanssi.
Kun meillä on käytettävissämme ainoastaan yksi muoto, me olemme taipuvaisia "konttorirotta-vaikutukselle" (one-armed paperhanger effect) niin, että pyrimme työskentelemään yksinomaan ja korostetusti yhdellä saatavissa olevalla muodolla. Entä mykät elokuvat? Äänen puuttuminen merkitsi sitä, että näyttelijöiden oli ilmaistava kaikki visuaalisessa muodossa. Tämä johti ylikorostuneiden kasvojenilmeiden ja kehonliikkeiden käyttöön mykän kauden elokuvissa. Ilmaistakseen suuttumusta näyttelijän oli heiluteltava villisti käsivarsiaan, vääristää kasvojenilmeensä suuttumusta ilmaisevaksi, ja auottava suutaan tehostetusti ikään kuin sanoakseen uhkaavia sanoja. Suun aukominen oli samalla tavoin tehostettua kuin puhuttaessa toiselle ääntä eristävän lasiseinän takaa. Kun filmiin liitettiin ääniraita hävisivät mainitunlaiset korostuneet ilmaisut. Auditorisen muodon mukaantulo kevensi ilmaisuun liittyvää taakkaa, koska sekä visuaalinen- että autitiivinen muoto yhdistyivät, ja tasapainottuivat. Etua ei koitunut pelkästään katsojalle, joka nyt saattoi nyt käyttää sekä korviaan että silmiään, vaan myös näyttelijälle, joka saattoi käyttää kumpaa tahansa näistä ominaisuuksista ilmaisussaan aiempaa luonnollisemmalla ja spontaanimmalla tavalla.
Toinen merkittävä etu multi-modaalisten muotojen käytöstä on se, että vajavaisemman tai köyhemmän informaation (minkä tahansa muodon kautta vastaanotettuna) yhdistyminen summautuu rikkaampisisältöiseen informaatioon, mikäli muut muodot sitä tukevat. Otaksukaamme, että olet kahden kolmasosan tehokkuudella mahdollisesta jokaisella muodolla vastaanottamassa informaatiota, jota sinulle annan puhumalla, osoittamalla, tai katsomalla. Tämä merkitsee sitä, että vastaanotat 66 %:n tehokkuudella niistä jokaisella informaatiota. Katson ylös kattoon, ja osoitan kädellä sitä sanoen: "Tuolla noin". Jos työskentelet jokaisella muodolla toisistaan erillään (ei rinnakkaisesti), niin todennäköisyys, että ymmärrät vihjeeni on parhaimmillaankin vain yksi kolmannesta mahdollisesta, mutta jos muodot yhdistyvät kommunikaatiossa, niin todennäköisyys, että ymmärrät vihjeeni kasvaa suunilleen 96.3%:iin. Helppo tapa havainnollistaa edellistä liittyy tunnettuun Rubikin kuutioon, joka osittuu jokaisella sivullaan kolmeksi nelikulmioksi, jotka ovat pitkänomaisten kappalten päätysivuja, jolloin kokonaissummaksi muodostuu 27 nelikulmiota. Mahdollisuus, että ET onnistu tulkitsemaan oikein kolmella kommunikaatiomuodolla antamaani tiettyä sijaintia koskevaa vihjettä on 1/27, eli onnistumistodennäköisyytesi on 3.7%. Tässä tapauksessa eri kommunikaatiomuodoilla samanaikaisesti annetun vihjeen teho on huomattava verrattuna niillä kullakin yksittäisesti annettuun instruktioon.
"Informaation summautumiseen" kytkeytyy läheisesti redundanssi, joka liittyy niin siihen kontekstiin, josta puhutaan, jota katsotaan, ja josta jotakin osoitetaan, kuin näiden muotojen käyttöön rikkakkain. Tällaiseen liittyy puheen tulkitseminen. Käytetyltä laitteistolta vaaditaan vähintään 99.7 %:n tarkkuutta. Mainitut korkean tason suoriteominaisuudet liittyvät mm. koulutettuihin puhujiin, korkeainformatiivisiin sanaluetteloihin, ja häiriöttömiin ympäristöihin. Mikäli niitä testataan realistisemmissa ympäristöissä putoaa puheen tunnistamisen tarkkuus 60-65 %:iin. Kuitenkin tunnistettujen puhesisältöjen interpretaatio on yhäkin tarkkaa, vaikka puheen tunnistaminen ei sitä olekaan -silloinkin, kun me tuskin tunnemme käytettyä kieltä, joka annetaan oikeassa ympärisössä. Ajatelkaamme seuraavaa: "Päivälliskutsuilla vieraassa maassa saatat ymmärtää käytyä keskustelua jollakin tavoin, mikäli puheet koskevat leipää, voita, ruokailuvälineitä, viiniä jne. Mikäli puheenaiheet siirtyvät historiaan tai politiikkaan, voit osallistua siihen vain siinä tapauksessa, että hallitset heidän kieltään täysin sujuvasti. On väärin otaksua, että ero olisi jonkin keskustelunaiheen välisessä erossa toiseen, tai jonkin sanaluettelon erosta toiseen nähden. Tosiasiassa kyse on siitä, että leipä ja voi ovat saman tapahtuma-avaruuden osia, johon itsekin kuulut, ja joita voit osoittaa, tai joiden suuntaan voit nyökätä vahvistaen siten samanaikaisten kanavien redundanssia yhteisvaikutteiseksi kommunikaatiokimpuksi". Käyttäjän ja tietokoneen vuorovaikutekentässä tietokoneen graafinen näyttö on analoginen sen välittömän ympäristön kanssa, jollaisen kaksi tai useampia ihmisiä jakaa käymässään tavallisessa keskustelussa. Se, mikä tekee puhumisesta, osoittamisesta ja katsomisesta niin tehokkaan kasvokkain käydyssä keskustelussa silloinkin, kun kieltä osataan huonosti, on jaettu konteksti. Puhumme, katsomme ja osoitamme objekteja ja seikkoja ympäristössämme. Samalla tavoin graafinen näyttö esittää ja sisältää sen, mitä tietokone meille "tarjoaa"; sen, mistä se (tietokone) on halukas "keskustelemaan". Puhumisemme, katsomisemme ja osoittamisemme seuraa sitä, mitä tietokone meille näyttöruudussa esittää. Formuloimme ja suoritamme toimenpiteitä sen mukaisesti, mitä näytöruudun esityssisällöt ovat.
Automaattinen puheentunnistus (speech recognition) on ollut kehitettynä jo vuosikausien ajan, ja sen hinta on pudonnut dramaattisesti. Ensimmäiset saatavilla olleet kaupalliset laitteet puheen tietokoneellesyöttöön maksoivat vuoden 1979 markkinoilla suunilleen 75,000 dollaria. Nykyään niiden hinta liikkuu 1000:n dollarin tienoilla. Käytetty teknologia on silti suunilleen sama (mallit perustuvat siihen, että tietokoneille on opetettu tietty sanaluettelo, johon ne vertaavat uusia, syötettyjä sanoja). Huuliltalukeminen tietokoneen avulla saattaa tuottaa keinon selvitä puheentunnistuksessa meluisassa ympäristössä. Taustamelu häiritsee automaattista puheentunnistusta, mikä ei koske ihmisten välistä kommunikaatiota. Miksi? Siksi, että ihmiset kykenevät hyödyntämään huuliltalukemista mainitunlaisissa olosuhteissa. Huuliltalukemisessa on olemassa tiettyjä rajoja, koska esimerkiksi vain 40 % puhutusta englannista on havaittavissa huultenliikkeissä. Silti tutkimukset ovat osoittaneet ihmisten ymmärtävän toisiaan paremmin silloin, kun he näkevät toisensa [22], mikä viittaa siihen, että kykenemme ymmärtämään kanssaihmisiämme meluisissa ympäristöissä (juhlien väentungoksessa) tarkkailemalla heidän kasvojaan ja huultensa liikkeitä. Syy ymmärtämisen helpottumiseen ei ole selvä. Ehkäpä puheen visuaalisesti nähtävissä oleva osa jollakin tavoin virittää kuulemiseen liittyviä huomionkeskittämismekanismeja niin, että voimme suodattaa tehokkaammin signaalin taustasta. Ehkäpä me tiedostamattomasti olemme oppineet yhdistämään tietyt suun muodot tiettyihin ääniin niin, että varmistuessamme kuulemastamme käytämme tällaista näkyvää informaatiota hyväksemme. Mikä tahansa tämän perustana sitten onkaan, niin puhujan näkeminen auttaa. Kuinka tämä liittyy tietokoneisiin? Petajanin äskettäiseen väitöskirjan liittyvässä proseduurissa yritettiin yhdistää huuliltalukemista automaattiseen puheentunnistukseen syöttämällä tietokoneelle yksittäisiä sanoja. Monokromaattisen suun alueen lähikuvainformaatiota puhumisen aikana suhteutettiin aiemmin luotuun kokoelmaan tutkittavan henkilön suunliikkeitä (hän lausuttui kokeen valmistavassa vaiheessa tiettyjä sanoja erityisen huolitellusti, jotka koottiin kokeen referenssimateriaaliksi). Siten puheentunnistaminen perustui sekä auditiiviseen -että visuaaliseen informaatioon, ja tuloksena olikin, että puheentunnistamisen oikeellisuus audiovisuaalisessa puheentunnistuksessa oli parempi kuin käytettäessä niitä kumpaakin erillisinä [18]. Samantapaisia töitä on tehty myös MIT Media Lab -yksikössä [17]. Tällä hetkellä meneillään on eräs projekti, jossa pyritään parempaan informaatiosisältöön suun alueelta liikkuvalla värilähikuvalla siitä. Toinen meneillään oleva Media Lab -projekti Mr. Chris Schmandtin ohjauksessa etsii "paraverbaaleja" malleja liittyen intonaatioon ja sanapainotukseen, kuten myös sentapaisiin nonverbaalisiin seikkoihin, kuten huudahdukset, huokaukset, hymähdykset ja voihkaisut. Sellainen lause, kuten "Minä pidin juustosta" voi saada erilaisia merkityksiä riippuen siitä, mitä sanaa lauseessa painotetaan: "MINÄ pidin juustosta" -ilmaisussa painotetaan sitä, kuka juustosta piti, kun taas lauseessa "Minä pidin JUUSTOSTA" korostetaan sitä, mistä pidettiin, ja lopulta painotuksessa "Minä PIDIN juustosta" on edellisistä poikkeavia implikaatioita. Tämä kaikki kuuluu osana puheella tehtyyn syöttöön, joka saattaa tulla ymmärretyksi väärin, mikäli ei kiinnitetä huomiota siihen, kuinka on puhuttu -sen lisäksi, mitä sanoja on käytetty. Nonverbaaliset äänet ovat intonaatioita, joilla on merkitystä ihmisten välisessä kommunikaatiossa. Kuvitelkaa hymähdystä "Joopa joo". Tavanomaisessa puheentulkinta-kommunikaatiossa tietokone saattaa ilmoittaa "error message", ja lopettaa vuorovaikutuksen tyyten siihen paikkaan.
Nykyiset manuaaliset syöttötekniikat sisältävät mm. kuvaruudun kosketukseen perustuvan käskynannon ja hiiriohjauksen. Tavallisimmin käytössä lienee hiiri. Kuvaruutukosketusohjaus on ainut, jota käytettäessä ei tarvitse hakea jotakin apuvälinettä toimenpiteen suoritusta varten. Aiemmmassa Architecture Machine Group laboratoriossamme käytimme ranneohjattavaa magneettista tilatunnistinta (space sensor), jolla osoitettiin seinänkokoiselta näyttöruudulta haluttuja kohtia (Ref. [4]). Teimme myös kehonliikkeitä rekisteröivän puvun, jossa sijaitsevilla LED-antureilla ohjattiin stereokameroita, joilla tuotettiin kolmiulotteisia tikku-ukkohahmoja, joiden liikeet ohjautuivat tehtyjen kehonliikkeiden mukaan. LED-liitännöin kyettiin tuottamaan detaljoitu seurantamahdollisuus sormituntumatasolla. Kaikki nämä menetelmät, paitsi kuvaruutukosketus-ohjaus, vaativat jonkinlaisen käyttäjään liittyvän laitteen käyttöä. Tulevaisuudessa tällainen taustakirjoittavuus voidaan poistaa. Eräs mahdollinen tekniikka, jolla voidaan tavoittaa käden liikkeiden aistivaikutelma vapaassa tilassa, on että käyttäjä ohjaa stereovärikameraa kuva-analyysimenetelmällä, jolla hän paikallistaa käsiensä asennon, ja niiden muutokset; kamera on opetettu nimenomaan hänen ohjaukseensa. Väreistä muodostuu lisäyksenomainen ja voimakas vihjeistö, jolla paikallistetaan ja ekstraktoidaan käsienasento-kuvaa; stereovaikutelmaa hyödyntäen voidaan orientoitua vapaassa tilassa. Jotta tämä saataisiin tapahtumaan reaaliajassa tarvitaan nykyistä voimakkaampia prosessoreja niin, että tuloksena on jonkinlainen rinnakkaistoimintainen laite. Eksoottisempi tapa suoritettujen liikkeiden syöttöön liittyy kasvojenilmeiden seurantaan, koska niiden kautta voidaan syöttää tunnesisältöjä, kuten tunnettua; syöttöön liittyy myöskin semanttista informaatiota. Tietokone voi oppia rekisteröimään ja tunnistamaan kasvojenilmeiden viestimiä emotionaalisia sisältöjä aivan samalla tavoin kuin termografinen video on herkkä eri kasvojenalueiden lämpötilanmuutoksille (ks. Ref. [5]). Se voi myös perustaa analyysinsä kasvojenalueiden ja kasvojenpiirteiden analyysiin.
Viime kuukausina olen ollut erityisen kiinnostunut muokkaamaan tietokoneen vuorovaikutekenttää (interface) niin, että se olisi tietoisempi siitä, milloin käyttäjä katsoo graafista näyttöä. Ihmisellä silmä on dominoiva aistin [20], ja tietokoneelle pääasiallisin tulostustapa on näyttö. Silmänliikkeet heijastavat henkilöiden mielenkiinnon suuntautumisia, kuten ajattelunkin [9]. Niinpä silmänliikkeet ja fiksoitumiset, yksittäin tai kombinoituvina puheen ja osoittamisen kanssa, tarjoavat ainutlaatuisia vihjeitä käyttäjien mielenkiinnon suuntautumisista ihmisen ja tietokoneen välisessä kommunikaatiossa. Kun tietokoneille perustuvat informaatiojärjestelmät yhä enenevässä määrin ovat kyenneet tunnistamaan puhetta tai osoittamisia, ne yleisesti jättävät silmänliikkeet huomiotta ja eivät siten "pidä" niitä olennaisina vastavuoroisen informaation lähteinä. Tähän on ollut vaikuttamassa niin ergonomiset -kuin taloudelliset syyt. Kaikki menetelmät, joilla mitataan silmien kohdistumispisteitä vaativat laitteita, jotka on sijoitettu hyvin lähelle tietokoneen käyttäjää (Cf. Ref. [24]); en tiedä kehitetyn ainuttakaan laitetta sitten Youngin ja Sheenanin artikkelin, joka muutti silloista tilannetta. Ainut poikkeus lienee silmärefleksien seurainlaite, joka on toteutettu käyttämällä pientä videokameraa, joka on zoomattu niin, että vain näkyvän sarveiskalvon alue mahtuu kuvaan. Silmänliikettä mittaus on toteutettu niin, että kamerasta suunnataan silmään infrapunasäde, joka heijastuu takaisin, ja jota verrataan mykiön kulloiseenkin kääntymiskulmaan; siten pienet pään liikkeetkin ovat sallittuja. Mittauksessa on virhettä vain noin asteen verran, ja siten pään ollessa kunnolla tuettuna mittaus on riittävän tarkka. Käytettävä teknologia on kallista, sillä silmänliikkeiden etäismittarin perusmalli maksaa n. 35 000 dollaria. Malli, johon on lisätty mekanismeja, jotka sallivat päänliikkeet mittauksen tarkkuuden kärsimättä maksavat jo 65 000 dollaria, tai jopa 100 000 dollaria. Hinnoissa on tapahtumassa putoamista, sillä uusi Cambridge-etäisyysmittain maksaa n. 14 000 dollaria. On mahdollista, että laitteen hinta putoaa integroitujen ohjauspiirien käytön myötä, ja yksinkertaisempien objektiivien käyttöönotolla n. 1000-2000 dollariin. Soveltuvan videokameran hinta on n. 800 dollaria nykyään, tai vähemmänkin. Boston Company on kehittänyt pelilijärjestelmiä, jotka adaptoituvat päänliikkeisiin systeemin hinnaksi muodostuessa n. 500 dollaria, ja automaattitarkennuksella 400 dollaria lisää. Yhteenvetona todettakoon, että kompaktin järjestelmän hinnaksi tulisi ehkä muodostumaan 2700 dollaria, tai vähemmän. Kun otetaan huomioon se, että tietokonemuistin ja keskusprosessorien hinnat laskevat jatkossakin, niin tulevaisuuden mikrotietokoneissa tällainen järjestelmä tulisi maksamaan kaikkiaan n. 3800 dollaria. Järjestelmän karkeatekoisuuden ja hinnan vähetessä tulevat sellaiset systeemit, joissa katsominen huomioituu, muuttamaan ihmisen ja tietokoneen välistä kommunikaatiota. Ajateltakoon vaikkapa niitä monia rooleja, joita katsekontaktilla on inhimillisissä ilmaisuissa ja vuorovaikutuksessa.
Kuvittele tapausta, jossa sinun suosikkisetäsi tulee vierailulle uuteen asuntoosi: Hän tulee ja katselee samalla kun sinä kommentoit sisustusta. Hän tutkii pöydällä olevia tietokoneprinttejä. "Sain ne Lontoosta", sanot hänelle, ja kerrot niistä. Hän kiinnittää huomionsa yhteen niistä kysyen "Mikä tämä on?" Vastaat hänelle "Covent Garden vuonna 1770". Istuudutte molemmat, ja hän yrittää sytyttää savukkeen, muttei löydä tulitikkuja. Ojennat hänelle sytyttimen näyttäen, kuinka se toimii (se ei ole helppoa). Koska huomaat hänen olleen selittämisesi aikana hajamielinen demonstroit sytyttimen toimintaa uudelleen. Hän kysyy "Miten autosi on pelannut viime aikoina?", mutta katselee kysyessään asuinkumppaniasi, eikä sinua. Asuinkumppanisi ylistä Volvojen paremmuutta. Setäsi katsoo sinuun uudelleen, ja toistaa kysymyksensä "Miten autosi on pelannut viime aikoina?" Vastaat kysymykseen "Eipä mitenkään, koska ajoin sillä kolarin viime viikolla". Selität edelleen "Olin juuri ajamassa Main Streetillä...", ja oikeaa kättäsi katsoen ja sitä liikuttaen näytät ajoreittiäsi, "...ja juuri silloin tuli se koliseva trukki", sanot tehden vasenta kättäsi katsoen sillä ajoneuvon liikettä kuvaavia eleitä. Manaat ihmisiä, jotka ajavat päin punaisia, heiluttaen asiaa korostavalla tavalla käsiäsi. Koko ajan silmienliikkeet kuvastavat mielenkiinnon suuntautumisia, huomionkeskittämisiä ja referenssejä.
Kun setäsi astuu huoneeseen, ulkoinen huomionkiinnittyminen sinuun ei vaikuta ainoastaan siihen, mitä sanot, vaan myös käyttämääsi kehonkieleen, kuten myös se, mihin HÄN huomionsa kiinnittää. Kun hän katselee ympärilleen, kommentoit huoneesta jotakin yleistä, ja kun huomaat hänen tutkivan tietokoneprittejä sinä lausut niitä koskien jotakin. Kun hän poimii niistä jonkun erityisen liuskan, kommentoit jotakin juuri siitä. Niinpä et ainoastaan poimi vihjeitä siitä, mihin hän huomionsa kiinnittää, vaan myös säädät kommenttiesi sisältöä sen mukaan, mistä arvelet hänen olevan kiinnostunut. Responsisi "työskentelevät" ja ovat soveltuvia siksi, että ihmiset yleensä tapaavat katsella heitä kiinnostavia asioita, tai jotka ovat heistä erikoisia, tavallisia, tai odottamattomia [2,3,10]. Silmänliikkeet katseltaessa kokonaisuutta pyrkivät poimimaan siitä erotettavissa olevia osasia riippuen mielenkiinnon yleisestä suuntautumisesta. Neuvostoliittolainen Alfred Yarbus (klassisessa silmänliikkeitä koskevassa tutkimuksessaan) pyysi tutkittavia perehtymään kuuluisan venäläisen maalarin teoksen kopioon. "He eivät odottaneet hänenlaistaan" sanoi muuan nuorimies, joka oli juuri palannut poliittisesta maanpakolaisuudesta. Ennen maalauksen katsomista (kolmen minuutin ajan) kysytiin tutkittavilta joukko kysymyksiä: Minkä ikäisiä tutkittavan omaiset ovat?, Millaisissa materiaalisissa olosuhteissa tutkittavan perhe elää?, Mitä perhe oli tekemässä ennen kuin tutkittava palasi? Katsojien tarkastelussaan käyttämät tulkintamallit erosivat riippuen siitä, miksi niiden päämäärä oli asetettu etukäteisillä kysymyksillä. Jos kysyttiin jotakin perheenjäsenten ikää koskevaa suuntautui tutkittavien mielenkiinto maalauksen henkilöiden kasvoihin, joista voi saada ikää koskevia vihjeitä, ja jos kysyttiin perheen sosiaalista taustaa, suuntautuivat katseet lähinnä maalauksen henkilöiden vaatetukseen, joka kasvoja paremmin heijastaa sosiaalista asemaa [23].
Kun olet näyttämässä sedällesi savukkeensytyttimen toimintatapaa huomaat, ettei hän seuraa tarkasti, joten näytät asian uudelleen. Huomiosi perustuu siihen, että tarkkaat hänen katseensa suuntautuneen muualle. Siten voit havaita, "seuraako" hän esitystäsi, ja kiinnittää hänen- ja omaa lisähuomiotasi demonstraatioon. On mahdollista kiinnittää visuaalista huomiota johonkin, vaikka ei kiinnitäkään siihen suoraa katsettaan [19]. On myös mahdollista katsoa jotakin suoraan ilman, että havaitsee todella silmin tarkkailtavaa kohdetta, kuten päiväuneksinnassa, tai tuijotettaessa muutoin vain eteensä. Kuitenkin on mahdollista tällöinkin päätellä suuntautuuko katse tarkkaavaisessa mielessä kohteeseen huomioimalla silmien katselukulman pysyvyys (Ref. [9], pp. 50-65). Silmien huomioiminen avaa uuden kanavan ajateltaessa sitä, mihin mielenkiinto on kohdistunut. Vaikutusta voi verrata siihen kun lapsi tekee havainnon, että vanhempien katseen suuntautuminen paljastaa luotettavasti heidän olevan todella kiinnostuneita lasten puuhista, ja vanhempien katseen harhailu taas antaa aiheen olettaa, että he eivät huomioi lasten tekemisiä. Psykologi Jerome Bruner kuvaa tätä seuraavasti: "Se, mitä on opittu hallitsemaan on sen seurantamekanismin hallinta, jolla toisten huomion kiinnittymistä tarkkaillaan: Se, mihin tulee katsoa, kun halutaan seurata toisten ihmisten huomion keskittymistä...". Äiti sanoo "kissi" katsoessaan kissaa, ja "mene ulos" katsoessaan ovea, ja niin edelleen (Ref. [6], p. 269).
Setäsi vierailuun liittyen sisältyy silmillä hahmotettavaan vaikutelmaan useita referentiaalisia seikkoja. Kun setäsi sanoo "Mikä tämä on?" katsoen samalla jotakin erityistä esinettä, on kyseessä lingvistisessä mielessä deistinen ilmaus (deictic); sana "Deixis" juontuu kreikankielestä, ja tarkoittaa osoittavia tai indikatiivisia sanoja. Sellaiset sanat taas, kuten "tuoli" ja "pöytä" ovat nondeistisiä, koska niiden tavanomaisesti ymmärretty referentti on osa niiden merkitystä; sanalla "tämä" taas ei ole mitään erityistä kiinteää referenttiä, vaan ne saavat erityismerkityksensä henkilöiden käyttäessä niitä puheessaan (Ref. [13], p. 128). Kun setäsi kysyy "Mikä tämä on?" täydentyy ilmaisun merkitys tarkatessasi sitä, mihin hänen katseensa on suuntautunut (tiettyyn kuvaan). Toisenlaatuinen referentiaalisuus liittyy siihen, KENELLE me olemme puhumassa. Setäsi tiedustelee kahdesti auton kuntoa käyttäen täsmälleen samanlaista ilmausta. Eroavaisuus on siinä, katsooko hän sinua vai huonekumppaniasi. Kysymyksillä on erilainen osoitus (addressee). Molemminpuolinen katseensuuntautuminen ja silmät jaksoittavat keskustelua yleisesti, indikoiden siihen, kenen vuoro kulloinkin on kyseessä, ja siten synkronoiden eri puhujien osallistumista, ja niin edelleen [1,8]. Silmät voivat toimia myös intermodaalisen vuorovaikutuksen funktioissa, ja meidän esimerkissämme silloin, kun kuvaat autokolaria TAPAHTUMANA käsiesi liikkeillä katsoen samalla sekä huonekumppaniasi -että setääsi. Kun setäsi huomaa sinun katsovan häntä "käsiesi liikkeillä" hän samalla kiinnittää NIIDEN liikkumistapaan huomiotaan. Kun sitten huitaiset kädelläsi voimakkaasti ilmaistaksesi vastenmielisyyttäsi punaista päin ajavia kohtaan, katsot vuorostasi setääsi vahvistaaksesi, ettei tämä liike ole varsinainen informaatiosisältö, vaan ainoastaan eräänlainen puheen "alleviivaustapa".
Silmänliikkeitä käsittelevä kirjallisuus kokeellisessa ja sovelletussa psykologiassa ei ehkä ole erityisen käyttökelpoista suunniteltaessa tietokoneiden suorittamaa silmänliikkeiden seurantaa. Tehtyjen tutkimusten pääpainopistealue on siinä, miten ihmiset katsovat, eikä siinä, kuinka katsotut seikat voisivat tuottaa katsomisiin responseja. Eräs koeasetelmista, joissa tarkasteltiin katsottujen seikkojen mahdollista reagoivuutta katseisiin liittyi erääseen aiemman MIT Architecture Machine Groups'n projektiin, jonka nimi oli "Gaze-Orchestrated Dynamic Windows", jossa dynaamista näyttöä käyttäen sovellettiin tarkkailijoiden silmäkontrollointia useisiinkin videoituihin episodeihin (Ref. [4], Chapter 4). Tarkoituksena oli luoda visuaalinen analogia eräälle informatiiviselle maailmalle, jossa ikään kuin jäljiteltiin tilannetta, jossa ihminen kommunikoi aluksi tavallaan ei-inhimillisen ja ei-eläimellisen keskustelukuppanin kanssa (one of brevity), joka sisältää niin fragmentaariutta kuin vaihteluakin [14] niin, että observoija kykeni "suodattamaan" SEN ottaman kontaktin TÄHÄN maailmaan SEN omasta maailmasta; observoija kykeni tässä hyödyntämään sisäänrakennettua visuaalisen valinnan mekanismia. Kokeessa observoija istui seinänkokoisen värinäytön edessä, jossa samanaikaisesti esitettiin nelisenkymmentä TV-kuvaa niin, että jokaisen äänet sulautettiin yhdeksi "kokkarikutsunomaiseksi" taustaääneksi. Observoija käytti erityisiä silmälaseja, jotka rekisteröivät silmänliikkeet. Mikäli observoija kiinnitti huomionsa johonkin näkemäänsä episodiin tietyn ajan (tätä aikaa varioitiin), kaventui kuultava äänialue yhdestä lähteestä kuuluvaksi (eräänlainen auditiivinen zoom -vaikutelma), ja jos katsekontakti jatkui systeemi "jäädytti" tarkasteltavan videokuvan, samalla kun muut jatkoivat esitystään keskeytymättä, ja lopulta näytti jäädytetyn ruudun kokoseinän esityksenä. Jos observoija halusi palata usearuutuiseen näyttöön hän käänsi tuolinsa käsinojassa sijaitsevaa kytkintä. Olennaiselta osin tällainen vastaa tilannetta missä toiminta tapahtuu väentungoksessa (esimerkiksi toimistossa), jossa jokainen kilpailee huomiostasi usein niin, että joku toinen tulee poimituksi keskeiseksi hahmoksi, jota muut seuraavat. Tavallisinta on, että huomiota saadaan niiltä, jotka eivät meneillään olevaa "esitystä" seuraa, sekä myös siltä, joka on huomion keskipisteenä (Presidentti Reaganin ja Valkoisen Talon lehdistötilaisuudessa vallinnut vuorovaikutus TV-uutisoinnin aikana on tällaisesta tyypillinen esimerkki). Kun olet saanut asioitua asiasi poimimasi henkilön kanssa katselet tavallisesti yleisesti ympärillesi, implisiittisesti "jättämällä kentän vapaaksi" muille ihmisille, ja aloittamalla HEHKUTUKSESI uudelleen. Systeemissämme käsinojakytkimen käyttö oli analogista sille, kun fiksaatio tiettyyn henkilöön loppuu, ja ryhdytään tarkastelemaan ympäröivää ihmisryhmää yleensä. Laajemmin: mahdollisuus käyttää sellaista graafista näyttöä, joka vastaa katseesi suuntautumisiin, nostaa esiin näköaloja uudenlaisesta tietokonegrafiikasta -"katseeseenreagoivasta grafiikasta". Mutta eivätkö graafisen alan taiteilijat ole aina otaksuneet, että heidän luomuksiaan katsellaan? Eivätkö he aina olekin olleet erityisen tietoisia siitä, että he käyttävät "visuaalisia kuvia"? Eivätkö he puhu viivoista ja kulmista, joilla silmänliikkeitä ohjataan, ja joiden avulla "silmiin piirtyy kuva"? Kyllä, kaikkea tätä on sanottu, mutta silti on traditionaalisesti oltu tekemisissä "esineiden katsomisen" kanssa, eikä sen kanssa, mitä katsotut esineet voisivat tehdä KATSOMISELLE. Observoijan kannalta ovat silmienliikkeisiin reagoivat grafiikat ennustamattomia, vaikka katsomisen kohteina olisikin ihmisiä tai eläimiä. Myös äänilähteet kolmiulotteisessa tilassa voidaan samanaikaisesti hyvinkin paikantaa silmin. On tunnettua, että katsomme siihen suuntaan, josta meihin suuntautuva ääni herättää kiinnostuksemme. On havaittu, että olemme herkistyneet kuulemaan tiettyjä asioita katseemme suuntautumisen myötä [21]. Niinpä silmienliikkeille herkkien grafiikkojen tulisi sisältää niin auditiivisia kuin visuaalisiakin elementtejä.
Tutkimuksemme kohteena on multimodaalinen interaktio (multi-modal interaction); se, miten puhuminen, liikkeet, ja katsominen työskentelevät yhdessä. Ajatelkaamme sellaista erityistä sovellusta, jossa meillä on katse-kontingetti tietokonenäyttö, joka on "itsestääntiedottava" (Self-Disclosing) (Ref. [4]), Chapter 6). Tällaine systeemi on varustettu aistimaan läsnäolosi ja normaalisen käyttäytymisesi. Kyseessä on täydellinen värinäyttö, johon liittyy silmiänliikkeiden seuranta, jolla systeemi paikallistaa katseesi kohdistumisen näyttöruudun alueella. Voit puhua tietokoneen kanssa automaattisen puheentunnistimen välityksellä, ja koskettaa sekä osoittaa näytöllä tiettyjä asioita. Laite kykenisi vastaamaan teksti-, ja grafiikkamuodossa, sekä tuottamalla syntesoitua, tai nauhoitettua puhetta. Laite voisi rajoittaa tuottamaansa informaatiota mielenkiintosi suuntautumisten mukaan, joita osoitat sille kanssakäymisesi muotojen avulla (vis-a-vis) paikantamalla seikkoja näytön alueella tavalla, joka soveltuu sinun työtahtiisi. Laite ei eroaisi juurikaan aiemmassa esimerkissämme esitetystä suosikkisedästä.
Otaksukaamme, että tietokonenäytöllä olisi esitettynä aidon huoneen seinä maalauksineen, takkoineen, laivan pienoismalleineen, kynttilänjalkoineen, sekä takan edustalla olevine kipinäsuojineen. Tietokone emuloi tässä mallissa isäntää, joka kommentoi näkymää ja näyttää siitä tarkemmin selittäen seikkoja, jotka sinua kiinnostavat. Tietokone seuraa silmiesi liikkeitä huomioiden katseensuuntautumisiin kuluvan ajan, ja antaa sen mukaisesti selityksiä. Tietokoneessa on tallennettuna tekstimuotoinen database, jonka organisoituminen noudattaa näytössä esitettyjä kuvallisia aspekteja, kuten sen strukturaalisia aspekteja, kuten "maalaukset", "laivojen pienoismallit" jne., joista muodostuu se "käsikirjoitus", josta tietokone tuottaa syntesoitua puheinformaatiota. Mikäli katse vaeltelee huoneen seinällä erityisesti mihinkään kohdistumatta kertoo tietokone yleisiä asioita: "Tämä on suosikkiseinämme talossa, johon olemme koonneet esineitä matkoiltamme kaikkialta maailmasta...", jne. Tietokone ei tällöin syvenny mihinkään erityiseen teemaan. Mikäli tietokoneen käyttäjä katsoo kiinteästi jotakin erityistä seikkaa, alkaa tietokone kertoa siitä. Mikäli käyttäjä katselee tovin kynttilänjalkoja takan reunustalla, kertoo kone: "No joo, me ostimme nämä kynttilät viime vuonna Philadelphiasta. Ne on tehty suunilleen vuonna 1760; niin meille ainakin kerrottiin...". Mikäli käyttäjä jatkaa katsomistaan, esittää tietokone kynttilänjaloista lähikuvan, ja kertoo yksittäisempiä tietoja esineistä. Jos käyttäjä vaihtaa katseensa suuntaa toistuvasti esimerkiksi kynttilänjaloista kipinäsuojukseen, ja takaisin, kertoo tietokone näiden esineiden väliseen inferenssivaikutukseen liittyviä seikkoja, jotka eivät enää liity esineisiin sinällään, vaan jollekin yleisemmälle niitä kumpaakin selittävälle tasolle, kuten siihen, että ne ovat antiikkiesineitä, tai että molemmat ovat kiiltäviä. Se, miten tietokone esineiden välisen inferenssin kategorioi, riippuu siitä, mihin katsoja katseensa keskittää, ja millaisia sanallisia tietokoneelle suunnattuja kysymyksiä hän samalla esittää. Siten "lopputulokset" riippuvat siitä, millaisia mielenkiinnon suuntautumisten alueita käyttäjällä on, ja millaisia katseensuuntautumisia niihin liittyy.
Millainen suhde tällaisessa kanssakäymisessä tietokoneen ja käyttäjän välillä vallitsee? Missä on alullepaneva ja käynnistävä keskus (the center of initiative)? Ajatelkaamme tapausta, jossa tenniksenpelaaja tarkentaa lyöntiään seinäharjoittelulla. Kun pelaaja lyö pallon seinään riippuu sen suuntautuminen takaisin pelaajaa kohti käytetystä lyöntikulmasta ja lyönnin voimakkuudesta, kuten myös palloon mahdollisesti lyönnillä aiheutetusta kierteestä. Otaksukaamme, että meillä olisi sellainen "seinä", joka voisi antaa siihen osuvalle pallolle sysäystä niin, että paluukulma ja pallon nopeus muuttuisivat. Otaksukaamme edelleen, että "seinä" oppisi pelin kuluessa poimimaan pallon hallitusti, ja lyömään sen takaisin mielekkäällä tavalla. Esittelemässämme systeemissä tietokone toimii paljolti samalla tapaa kuin tällainen hypoteettinen "reagoiva seinä". Tietokoneen näyttö on käyttäjälle implisiittinen kutsu jollakin tavoin vastata; samalla tavoin myös tennisharjoitteluun käytetty "reagoiva senä" kutsuisi tenniksenpelaajaa harjoittelemaan. Käyttäjä katsoo tietokonenäyttöä ja ohjaa katseensa suuntautumisilla tietokoneen responseja. Tietokone toimii alullepanevana tekijänä silloin, kun se, sekä käyttäjä joutuvat kanssakäymisen kannalta "kuolleeseen pisteeseen", ja se pyrkii tällöin tarjoamaan tuoreita vaihtoehtoja "joutuvat ulalle" (lull). Kyseessä olisivat tällöin vähemmät käytetyt katseensuuntautumiset, tai sellaiset katseensuuntautumisten mallit, jotka vähemmän korreroituvat käytettyjen mallien kanssa, ja siten ne viittaavat myös vielä käyttämättömiin mielenkiinnon suuntautumisen alueille. Inhimillinen vuoropuhelu on samalla tavoin episodista. Ihmiset vaihtelevat keskusteluissaan puheenaiheita, ja jatkavat sitä niin pitälle kuin voivat "joutumatta ulalle" (jutut tulevat aivan UFOIKSI, tarinat ovat HUUHAA, puheet alkavat olla RONALDEJA jne.,suom huom.), tai keskustelun tyrehdyttävään kuolleeseen pisteeseen. Keskustelu viriää uudelleen, mikäli tuoreita näkökulmia löytyy. Yleisesti, käyttäjän ja koneen välinen vuorovaikutus on molemminpuolista provosointia ja virikkeidenantoa, jossa käyttäjä on alullepanevana (initiative) siinä mielessä, että hänellä on tiettyä uteliaisuutta näytönsisältöön, ja tietokoneella tapauksissa, joissa käyttäjä tavalla tai toisella jähmettyy paikalleen (stalled). Mikä tahansa erityinen muutos minkä tahansa seikan suhteen loppuu, kun käyttäjä ei enää katsele seikkaa, tai tietokone on sanonut kaiken seikkaa koskevan sanottavansa, kumpi tahansa näistä pikemmin tapahtuukaan. Niinpä kun tietokone ON itsestääntiedottava systeemi (self-disclosig system), ovat käyttäjän toimenpiteet systeemin olennaisia komponentteja. Molemmat dialogin osapuolet vapauttavat toisistaan informaatiota; toinen tekee sen seuraamalla vastapuolen silmänliikkeitä ja fiksaatioita niihin liittyvine sanallisine kommentteineen, ja toinen taas osallistuu prosessiin graafiseen näyttöön vaikuttaessaan ja tietokoneelle syntesoidulla puheella.
Systeemi saattaisi asettaa alustavan dialoginalkamiskohdan yksinkertaisesti esittämällä näytössä jotakin. Käyttäjä voisi myös aloitta dialogin esimerkiksi sanomalla: "Kerro minulle 16 -vuosisadan japanilaisesta arkkitehtuurista". Kun tällainen pyyntö esitetään systeemille, jolla on tarvittava database kyseisestä aiheesta, tietokone generoi alustavan esityksen aiheesta näyttöön, ja vuorovaikutus voi alkaa. Ongelmana olisi tällöin se, että voiko alisysteemi antaa käskyn toisen alisysteemin tuottamisesta, tai kokonaisjärjestelmää koskevan muutoksen tekemisestä. Eräs tapa muuttaa aihetta voisi perustua johonkin merkittävään muutokseen tavassa, jolla käyttäjä näyttöä tarkastelee. Tarkkaavaisina ihmiset ovat taipuvaisia katelemaan näytöstä sellaisia seikkoja, joille on annettavissa nimi [7]. Otaksukaamme, että käyttäjä tarkastelee kynttilänjalkaa, ja että tietokone kertoo hänelle kynttilänjalkojen kuuluneen aikanaan jollekin kuuluisalle henkilölle, kuten Thomas Jeffersonille (kuten laivan pienoismallinkin). Otaksukaamme edelleen, että systeemi toistuvasti huomaa käyttäjän tarkastelevan esimerkiksi laivan pienoismallia kiinteästi, mutta niin, ettei hänen katseensa kuitenkaan keskity laivan osiin sinällään. Tästä tietokone päättelisi, että käyttäjä on kiinnostunut jostakin osia yhdistävästä tekijästä, kuten kytkeytymisestä Thomas Jeffersoniin, ja tarjoaisi näyttöön valokuiva, jossa Thomas Jefferson seisoo kotonaan Monticellossa, istuu senaatissa, jne. Riippuu systeemin informaatiobasiksesta, onko siinä anekdoottista tai kuvallista informaatiota Thomas Jeffersonista, ja tietokone on kyvytön tietämään jotakin, jota se ei ole oppinut.
Se, kuinka käyttäjän ja tietokoneen välisen kommunikaation joustavuus toteutetaan, riippuu tavasta, jolla osapuolet tekevät sitä koskevan "sopimuksen" (Cf. Ref. [12]). Kysyikö käyttäjä nimenomaan näyttämään esimerkissä esitetyn huoneen näyttöön? Onko etukäteisesti olemassa sopimus, että juuri kyseinen huone tuotetaan näyttöön? Jos sopimuksia on olemassa, tietokoneen mahdollisuudet tuottaa joustavasti näyttöön (vapaasti assosioituvasti) materiaalia Thomas Jeffersonista aina osavaltionlipusta vapaudenpatsaaseen New Yorkin satamalla (ja niin edelleen loputtomiin) ovat rajatut. Etukäteisestä sopimuksesta kiinnipitäminen on tärkeää tapauksissa, joissa pyydetään tietoja määrätyistä aiheista; systeemin on huomioitava sopimus ainakin niin pitkään kunnes käyttäjä ei enää ole aiheesta kiinnostunut. Se, missä määrin systeemi sietää poikkeamisia riippuu pitkälti siitä, kuinka suuressa määrin se on personoituva niin, että se huomioi käyttäjän reaktiot ja keskenään ristiriitaiset reaktioiden kohdistuvuuden vaihtelut.
Kirjoittaessani tätä raporttia osallistun juuri tutkimusohjelmaan, jonka tarkoituksena on tutkia ja evaluoida silmänliikeitä tietokoneen ja käyttäjän välisessä dialogissa erillisen alueenaan, sekä yhdistettynä puheella ja manuaalisella osoittamisella tapahtuvaan vuorovaikutukseen. Kuten todettu, on korostus katsomiskäyttäytymisellä tapahtuvassa mielenkiinnon osoittamisessa ja huomionkeskittämisessä, ja referenssissä eräänä keinoista. Vuorovaikutekentän (interface) laitteisto koostuu silmänliikkeiden kaukoseuranta-laitteistosta (remote eyetracker); kosketusherkästä värinäytöstä (touch screen color display); automaatisesta puheentunnistussysteemistä (automatic speech recognition system); sekä puhesyntesoija-systeemistä (speech synthesis system). Ohjelmat on kehitetty tulkitsemaan ja integroimaan käyttäjän katsomista, puhumista ja osoittamista, sekä kartoittamaan näyttön/ puhesyntesoijan kautta annettaviksi soveliaita responseja. Tutkimme kahta silmänliikkeiden avulla osoittamisen mahdollisuutta: Intentionaalista, jossa silmiä käytetään näytössä esiintyvien seikkojen soittamiseen, ja insidentaalista (incidental), jossa silmien kohdistusliikkeitä tarkastellaan pikemminkin silmillä suoritettuun spontaaniin katseluun liittyvänä. Silmäkontaktien notaatiota tietokoneen ja ihmisen kommunikaatiossa tutkitaan. Inhimilliset observoijat tarjoavat tutkimuksellista palautetta, jonka mukaan kehittää ohjelmia, ja edistää käyttäjien hyväksymien tapojen saatavuutta tietokonekommunikaation modaliteettina. Työn päämääränä on laajentaa niitä tapoja, joilla ihmiset ovat interaktiossa tietokoneiden kanssa, ja joiden avulla tietokoneita olisi miellyttävämpi käyttää.
Kun Asiantuntijajärjestelmiä" tarjoutuu käytettäväksi lääketieteessä, öljynetsinnässä, ja tietokonejärjestelmien konfiguroinnissa, saattaa tietokoneesta tulla "asiantunteva keskustelija" (expert conversationalist). Ajatelkaamme inhimillistä keskustelua politiikasta, viime kesälomasta, vastaostetusta autosta, mistä tahansa. Yksilöllisten keskusteluaiheiden piirissä, ja riippumattomina erityisistä teemanasetteluista ne näyttävät käytännön taitonsa käsitellä mitä tahansa puheenaihetta. Inhimillistä keskustelua sinällään ohjataan seuraavasti: katsekontakti katkeaa, kun haluat puhua; ei tapahdu mitään, mikäli joku toinen henkilö katselee oikeaa kohtaa samalla kun sinä katsot jotakin muuta; kuvaat tapahtumia ja asioita käsilläsi (kuten reittiä kotiin ja pyydystetyn kalan kokoa). Tällaiset kommunikatiiviset taidot ihmisellä ovat suurelta osin tiedostamattomia, ja kehittyvät pitkän harjoituksen myötä. Voidaanko tällaisia taitoja siirtää tietokoneelle? Meneillään oleva työmme ei välttämättä nivelly "asiantuntijajärjestelmiin", ja keskustelykykyisen tietokoneen älykkyys ei myöskään välttämättä liity nykyisiin psykologian, lingvistiikan, ja keinotekoisen älyn (AI) tieteenaloihin. Tarvittavat näkemykset eivät välttämättä siten tule tämänhetkisestä psykologiasta, lingvistiikasta, tai keinotekoisen älyn teoriasta. Sitä vastoin näillä aloilla suoritettava kehitystyö tulee vaikuttamaan siihen, miten saavutetaan tietokoneen ja ihmisen välisessä kanssakäymisessä hienoja inhimillisiä kvaliteetteja.
The research described herein was supported in part by Grants IST-8414574 and IRI 8615741 frim the National Science Foundation Division of Infromation, Robotics, and Intelligent Systems.
[1] M. Argyle and M. Cook: "Gaze and mutual gaze", Cambridge University Press, Cambridge, England (1975).
[2] D.E. Berlyne: "Curiosity and explanation", Science, 153, pp. 25-33 (1966).
[3] D.E. Berlyne: "The Influence of Complexity and novelty in visual figures on orienting responses", Journal of Experimental Psychology, 55, pp. 289-296 (1958).
[4] R.A. Bolt: "The human interface", Van Nostrand Reinhold, New York (1984). Translated into japanese and distributed in Japan through the Tuttle-Mori Agency, Inc., Tokyo.
[5] B. Bower: "The face of emotion", Science News, 128, pp. 12-13 (July 6, 1985).
[6] J.S. Bruner: "From communication to language -a psychological perspective", Cognition, 3, 3, pp. 255-287 (1974/1975).
[7] R.M. Cooper: "The control of eye fixations by the meaning of spoken language", Cognitive Psychology, 6, pp. 84-107 (1974).
[8] G.D. Cumming: "Eyemovements and visual perceptions", Handbook of perception: Vol. IX, Perceptula processing, E.C. Carterette and M.P. Friedman, Eds., Academic Press, New York (1978).
[9] D. Kahneman: "Attention and effort", Prentince-Hall, Englewood Clifs, New Jersey (1973).
[10] G.R. Loftus and H. Mackworth: "Cognitive determinants of fixation location during picture viewing", Journal of Experimental Psychology, 4, 4, pp. 565-572 (1978).
[11] N.H. Mackworth and A.J. Morandi: "The gaze seletcs informative details within pictures", Perception and Psychophysics, 2, 11, pp. 547-552 (1967).
[12] A.P. Martinich: "Communication and reference", Walter de Gruyter, New York (1984).
[13] G.A. Miller: "Language and speech", W.H. Freeman and Company, San Fransisco (1981).
[14] H. Mintzberg: "The nature of managerial work", Theory of Management Policy Series, Lawrence Erlbaum Associates, Publishers, Englewood Cliffs, New Jersey (1980).
[15] N. Negroponte: "The sensory apparatus of computers", Prochure for the Media Lab Dedication Ceremonies, MIT Media Lab (Oct. 1985).
[16] R.S. Nickerson: "Using Computers: The Human factors of Information Systems", MIT Press, Cambridge, Massachusetts (1986).
[17] S. Nishida: "Speech Recognition Enchangement by Lip-Information", CHI '86 Conference Proceedigs, pp. 198-204 (April 1986).
[18] E.D. Petajan: "Automatic Lip-reading to Enchange Speech Recognition", Ph. D. Thesis, University of Illinois at Urbana-Champaign (1984). (Dr. Petajan is now at Bell Labs.).
[19] M.I. Postner: "Orienting of attention", Quarterly Journal of Experimental Psychology, 32, pp. 3-25 (1980).
[20] M.I. Postner, M.J. Nielssen and R.M. Klein: "Visual dominance: an information-processing account of its origins and significance", Psychological Review, 83, 2, pp. 157-171 (1976).
[21] D. Reisberg, R. Schreiver and L. Potenken: "Eye position and the control of auditory perception", Journal of Experimental Psychology: Human Perception and Performance, 7, 2, pp. 318-323 (1981).
[22] W.H. Sumby and I. Pollak: "Visual contribution to speech intelligibility in noise", journal of the Acoustical Society of America, 26, 2, pp. 212-215 (March 1954).
[23] A.L. Yarbus: "Eyemovements and vision", Translated by B. Haigh, Plenum Press, New York (1967).
[24] L.R. Young and D. Sheena: "Eye-movement measurement techniques", American Psychologist, 30, 3, pp. 315-330 (1975).
(Manuscript received July 15, 1987)
Richard A. Bolt is the Principal Research Scientist at hte Massachusetts Institute of Technology Media Laboratory and is Director of the Laboratory's Human Interface Group. He holds a Doctorate in Experimental Psychology from Brandeis University. He has lectured nationally and internationally on human/ computer interaction, and is author of THE HUMAN INTERFACE published by Van Nostrand Reinhold and distributed in Japan by Tuttle-Mori Agency, Inc.