科幻電影里的機(jī)器人早就能和人類無障礙溝通了,但在現(xiàn)實生活中,機(jī)器人理解自然語言的能力還非常差,稍微復(fù)雜一點的指令,就會讓它們不知所措。
比如說:把我剛才放下的箱子拿起來。
讓機(jī)器人明白這樣的指令,是MIT計算機(jī)科學(xué)和人工智能實驗室(CSAIL)最近才取得的突破。
MIT CSAIL設(shè)計出了一種方法,讓機(jī)器人可以理解并響應(yīng)以清晰明了的語言發(fā)出的語音指令。這個系統(tǒng)已經(jīng)先進(jìn)到可以理解涉及語境的指令,例如參考之前的命令和對象。
由CSAIL研究員開發(fā)的ComText(“語境中的指令”的縮寫)系統(tǒng)提供了“類似Alexa”的機(jī)器人語音控制功能。這樣的機(jī)器人可以理解語境,包括此前的指令,以及與之互動的對象和周圍環(huán)境。
這意味著,用戶可以像與他人互動一樣與機(jī)器人互動。此前,與機(jī)器人的互動是個巨大的挑戰(zhàn),阻礙了機(jī)器人在商業(yè)場景和一般消費級場景中的應(yīng)用。即使是在產(chǎn)業(yè)界,如果機(jī)器人可以理解自然語言語音指令,那么就可以更好地與人類合作。
通過對某些對象的理解,ComText可以用在工作中。例如,你可以告訴它,“我拿著的這個工具是我的工具”。未來,當(dāng)你對它說“把我的工具拿給我”時,它就會找到正確的工具。
如上圖所示,告訴機(jī)器人“我剛才放在桌子上的盒子是我的”,然后對它說“拿起我的盒子”,它就能正確理解。
研究人員使用Baxter模型對ComText系統(tǒng)進(jìn)行了檢驗。Baxter是Rethink Robotics開發(fā)的雙臂人形機(jī)器人。
ComText在實現(xiàn)過程中采用了不同類型的記憶方式,包括用于一般信息的語義記憶,以及與特定事件關(guān)聯(lián)在一起的情景記憶。
在測試過程中,機(jī)器人能在約90%的情況下對語音指令做出正確反應(yīng)。研究團(tuán)隊希望通過更復(fù)雜的輸入信息,包括多步指令,以及深化機(jī)器人對上下文信息的理解,提高正確響應(yīng)的水平。
這項研究相關(guān)的論文Temporal Grounding Graphs for Language Understanding with Accrued Visual-Linguistic Context發(fā)表在剛剛結(jié)束的學(xué)術(shù)會議IJCAI 17上,作者包括MIT的Rohan Paul、Andrei Barbu、Sue Felshin、Boris Katz和Nicholas Roy。
地址:http://static.ijcai.org/proceedings-2017/0629.pdf
轉(zhuǎn)載36氪:http://36kr.com/p/5090803.html