Főoldal

"Mérnököt a mérnöktől"

A Schönherz Bázis összeköti az állást kereső és állást kínáló mérnököket.

CV küldés

Küldj önéletrajzot! Gyorsan, egyszerűen.
Megjegyzésbe írd be a pozíció nevét.
CV küldés

Iratkozz fel hírlevelünkre!

Kövess minket!

Kövess minket!

Hírek

Néma gyereknek anyja se érti a szavát - vagy mégis?
Néma gyereknek anyja se érti a szavát - vagy mégis?


MIT-s kutatók kifejlesztettek egy számítógépes interfészt, amely képes felismerni a magunkban kimondott szavakat. Az arcon és az állkapcson elhelyezett elektródák észlelik a magunkban kimondott szavak által keltett, egyébként láthatatlan neuromuszkuláris jeleket.


A rendszer egy arcon hordható eszközből és a feldolgozó számítógépből áll. Az eszközben található elektródák érzékelik az arcban és az állkapocsban előforduló neuromuszkuláris jeleket, melyeket a “belső hang” kelt, de szemmel láthatatlanok. Ezeket egy gépi tanuló rendszer dolgozza fel, amely párosít bizonyos szavak és jeleket. Az eszköznek része egy pár csontvezetéssel működő fülhallgató, amely az arccsontokon keresztül juttatja a belsőfülbe a rezgéseket. Mivel nem dugaszolja el a hallójáratot, így nem akadályozza a felhasználót a külvilág hangjainak feldolgozásában, mint például a beszélgetés megértésében.

Ilyenformán az eszköz egy teljes néma-számítógép rendszer része, amely lehetővé teszi, hogy a felhasználó észrevétlenül tegyen fel kérdéseket és kapjon választ bonyolult, számításigényes problémákra. A kutatók egyik kísérletében az alanyok sikeresen használták a rendszert arra, hogy az ellenfél sakkjátékos lépéseit némán továbbítsák és a számítógép által javasolt válaszlépéseket tegyenek.


“A cél egy IA-eszköz létrehozása volt - egy intelligencia-kiterjesztő (intelligence-augmentation) eszközé. - mondta Arnav Kapur, az MIT Media Lab hallgatója, aki az új rendszer kifejlesztését vezette. Az ötletünk a következő volt: kellene egy számítógépes platform, amely az embert és a gépet egyesíti, sokkal inkább az ember részének, a saját tudatunk kiterjesztésének tűnik.”


“Gyakorlatilag nem tudunk meglenni a mobilunk nélkül - mondta Pattie Maes, Kapur témavezetője, a médiaművek és tudományok professzora - viszont jelenleg ezek használata elég zavaró. Ha egy aktuálisan futó beszélgetésemhez akarok valamire rákeresni, akkor elő kell keresnem a telefonomat, feloldani a kijelzőzárat, megnyitni egy alkalmazást, beírni pár kulcsszót, ez pedig teljesen elvonja a figyelmemet a környezetemről és a beszélgetőpartnereimről. Szóval a hallgatóimmal már régóta új formákkal és megközelítésekkel kísérletezünk, hogy az emberek úgy élvezhessék e csodás eszközök előnyeit és szolgáltatásait, hogy közben a jelenben maradhatnak.”


A kutatók a fejlesztést egy tanulmányban írták le, amelyet az Association for Computing Machinery konferenciáján, az ACM Intelligent User Interface eseményen mutattak be. Kapur elsődleges szerző, Maes a rangidős szerző, őket pedig Shreyas Kapur, egy villamosmérnök mesterképzésre járó hallgató egészíti ki.


Apró jelek


A gondolat, miszerint a magunkban kimondott szavaknak fizikai jelei is vannak, a 19. század óta jelen van. És az ötvenes években komoly vizsgálatok is folytak a témában. A hatvanas évek gyorsolvasás-mozgalmának egyik célja az volt, hogy leküzdje a belső kiejtést. Bár a belső kiejtés, mint számítógépes interfész még ismeretlen terep. A kutatók első lépése az volt, hogy meghatározzák az arc azon részeit, ahol a legmegbízhatóbban lehet a jeleket fogni. Ennek érdekében olyan kísérleteket végeztek, amelyekben az alanyok ugyanazokat a szavakat mondták ki magukban négyszer, miközben 16 elektródát különböző pontokra helyeztek az arcukon.


A kutatók programot írtak a gyűjtött adatok elemzésére és rájöttek, hogy hét konkrét területről származó jelek konzisztensen meg tudták különböztetni a “kimondott” szavakat. A konferencián bemutatják egy hordható néma-beszéd interfész prototípusát, amely a nyakra fekszik fel, akár egy headset, nyúlványai pedig az arc megfelelő pontjain helyezkednek el, az arc és az állkapocs mentén kétoldalt. Ráadásul a kutatók már négy elektródával is hasonló eredményeket érnek el az állkapocs egy oldalán, ami egy sokkal kecsesebb eszköz kifejlesztését vetíti elő. Amint véglegesítették az elektródák pozícióját, a kutatók nekiláttak az adatgyűjtésnek. Ehhez először kevés szóval vezérelhető számítási feladatokat használtak - 20 szó elég volt bármelyik irányításához. Ezek egyikre az aritmetika volt, vagyis amikor a felhasználó nagy összeadás-kivonás feladatokat mondott ki magában. Egy másik a sakk, amikor a felhasználó a játék szokásos lépéskövető rendszerében adta meg a lépéseket. Ezután mindegyik példához egy neurális hálózatot használtak, hogy megtalálják a neuromuszkuláris jelek és  szavak közti összefüggést. Mint a neurális hálózatok általában, úgy a kutatók által használt hálózat is elemi feldolgozó csomópontok rétegeibe van rendezve, ezek pedig az alattuk és felettük levő rétegekhez kapcsolódnak. A bementi rétegnek adott adatok feldolgozás után a következő réteghez kerülnek és így tovább a kimeneti rétegig, ahonnan az osztályozás eredménye érkezik.

A kutatók rendszere alapvetően egy általános szófelismerő neurális hálózatot tartalmaz, de ezt személyre is lehet szabni. Ekkor a hálózatnak csak az utolsó két rétegét tanítják be újra.


Gyakorlati dolgok


A prototípus interfész használatával a kutatók alkalmazhatósági kísérleteket végeztek, melynek során 10 alany töltött 15 percet az aritmetikai feladat testreszabásával, majd 90 percig számításokat végeztek a rendszer segítségével. Ezek során a rendszer átlagosan 92% valószínűséggel helyesen értelmezte a jeleket. Kapur szerint több betanító adat javítaná a rendszer pontosságát, amely a napi használat során begyűjthető. Bár a számokat konkrétan nem tudta megmondani, becslése szerint az általa bemutatókra használt, jobban betanított rendszer az említettnél magasabb találati arányt ér el.


A kutatók jelenleg azon dolgoznak, hogy nagyobb adatbázisokat építsenek kifinomultabb beszélgetések alapján, hogy nagyobb szókincsű alkalmazásokat írhassanak. “Éppen az adatgyűjtés sűrűjében vagyunk, az eredmények pedig biztatóak - mondta Kapur. Szerintem egy nap a teljes párbeszédet el fogjuk érni.”


“Véleményem szerint kissé alulértékelik a munka igazi potenciálját. - mondta Thad Starner, a Georgia Tech College of Computing professzora. Például vegyük a repülésirányítók munkáját a kifutón. A sugárhajtóművek zajában elengedhetetlen zajvédő fültok - nem lenne zseniális, ha ezek használata mellett is lehetne szóban kommunikálni? Képzelj el bármilyen, nagyon zajos környezetet, például egy repülőgép-hordozó fedélzetét, vagy nehézgépeket egy üzemben, erőműben stb. Ez a rendszer előnyös lenne, és mivel már most is védőfelszereléseket hordanak az itt dolgozók, nem is lenne túl zavaró. Például egy vadászpilóta vagy tűzoltó eleve viseli a légzőkészülék maszkját.”


Starner hozzátette: “A másik helyzet, amikor ez különösen hasznos, a különleges bevetések. Sok esetben nem a hangos környezet a korlát, hanem éppen a némaság. A kommandósok sokszor kézjelekkel kommunikálnak, de ez nem feltétlenül látszik. A készülék viszont nagyben megkönnyíteni a kommunikációt.

Olyan fogyatékkal élőkön is segíthet a rendszer, akiknek a hangképző szerveikkel van probléma. Például Roger Ebert sem tudott beszélni, mert a rák következtében elvesztette az állkapcsát. Ez a rendszer olvashatná a néma beszédét, majd egy szintetizátor hallhatóvá alakítaná.


Ebben a videóban pedig az eszköz működését is bemutatják. 


(Forrás)


***

Ha Te is kreatív, kihívásokkal teli mérnök állást keresel minőségi munkáltatónál, jó helyen jársz, mert a Schönherz Bázis épp azért jött létre, hogy Neked segítsen.