羅伊在客廳10個(gè)區(qū)域收集聲音資料
人類如何學(xué)會(huì)語言?小嬰兒是如何從外界接受語言信號,逐漸建立起自己的語言能力,與人交流?這些一直都是科學(xué)家們非常感興趣的,但又一直找不到一個(gè)普遍認(rèn)可的答案。美國的一名科學(xué)家為了解決這個(gè)問題,決定觀察嬰兒學(xué)習(xí)語言的過程。
據(jù)英國廣播公司(BBC)5 月19日報(bào)道,美國麻省理工學(xué)院教授迪布?羅伊喜獲貴子后,決定借此便利觀察他的兒子是如何學(xué)習(xí)語言的,將通過三年的錄音、錄像等手段記錄下這個(gè)寶貴的過程,并希望通過數(shù)據(jù)分析最終獲得人類初生如何學(xué)習(xí)語言的答案。記錄已經(jīng)開始十一個(gè)月,本報(bào)記者通過郵件采訪了羅伊教授,向他了解開始和進(jìn)展情況。
14個(gè)麥克風(fēng) 11部全方位攝像機(jī)記錄嬰兒成長過程
羅伊教授和他的研究小組把這一計(jì)劃稱為Human Speechome(人類家庭語言)計(jì)劃。11個(gè)月前當(dāng)羅伊教授的兒子出生后離開醫(yī)院,這個(gè)計(jì)劃便啟動(dòng)了。14個(gè)麥克風(fēng)和11個(gè)全方位攝像機(jī)將在這個(gè)新生兒來到這個(gè)世界的最初三年里一直保持工作狀態(tài)。在羅伊的兒子醒著的時(shí)間里,他的一切活動(dòng)和發(fā)音都被這些設(shè)備記錄。監(jiān)視系統(tǒng)在早上八點(diǎn)打開直到晚上十點(diǎn)關(guān)閉,每天收集大約350吉伯的壓縮數(shù)據(jù)。
這11部全方位數(shù)字?jǐn)z像機(jī)和14個(gè)麥克風(fēng)隱藏在各個(gè)房間的天花板上,包括廚房、餐廳、客廳、游戲室、門口、健身房、三個(gè)臥室、走廊和衛(wèi)生間。攝像機(jī)可以捕捉到房里發(fā)生的任何可能是潛在的嬰兒學(xué)習(xí)語言的因素,每秒鐘可以記錄14個(gè)畫面,任何微小的動(dòng)作都被記錄。不過,由于現(xiàn)有技術(shù)的程度限制,諸如眨眼等非常細(xì)微的面部表情都還無法被捕捉,這些表情都被認(rèn)為是學(xué)習(xí)語言非常重要的線索。
14個(gè)麥克風(fēng)組成層級式錄音系統(tǒng),記錄這所房子里任何的聲音資料。在記錄聲音的過程中,錄音系統(tǒng)會(huì)自動(dòng)地將噪音削弱。14個(gè)麥克風(fēng)可以把所有房間的聲音記錄,通過14個(gè)頻道刻錄到CD盤中。當(dāng)房間中沒有雜音時(shí),即使是輕聲的耳語都不會(huì)被漏掉。
經(jīng)過計(jì)算,3年的記錄工作將記錄下33.8萬小時(shí)的數(shù)據(jù),其中包括14.2萬小時(shí)的視頻和19.6萬小時(shí)的音頻。
龐大系統(tǒng)共同繪制一幅幼兒經(jīng)歷的感官刺激的完整圖畫
羅伊教授介紹說,數(shù)據(jù)搜集工作結(jié)束后,隱藏在天花板里的數(shù)據(jù)線將會(huì)把這些數(shù)據(jù)資料傳送到麻省理工學(xué)院媒體實(shí)驗(yàn)室的一個(gè)巨大容量的磁盤儲(chǔ)存系統(tǒng)中,該系統(tǒng)儲(chǔ)存容量達(dá)到5千兆。所有的圖像都會(huì)通過10臺串聯(lián)的電腦進(jìn)行大規(guī)模數(shù)據(jù)分析,而聲音數(shù)據(jù)將會(huì)儲(chǔ)存在地下室的一個(gè)標(biāo)本取樣器中。
據(jù)羅伊教授介紹,目前對語言進(jìn)行數(shù)據(jù)分析有兩個(gè)途徑。第一個(gè)是通過自動(dòng)語言識別器轉(zhuǎn)錄,但是即使是最好的自動(dòng)語言識別器出錯(cuò)率也很高,很多噪音也可能被作為有用信息轉(zhuǎn)錄。因此還有第二種途徑是通過人工轉(zhuǎn)錄,通過人工識別,是嬰兒產(chǎn)生的聲音,還是噪音,盡量減小轉(zhuǎn)錄過程中的誤差。而現(xiàn)今的一些轉(zhuǎn)錄設(shè)備用于大量的語音轉(zhuǎn)錄工作都不是很理想。羅伊教授和他的研究組在這些轉(zhuǎn)錄設(shè)備的基礎(chǔ)上自行設(shè)計(jì)了一套系統(tǒng),可以自動(dòng)識別長時(shí)間記錄中的語音,通過數(shù)學(xué)運(yùn)算,描繪出類似于光譜的聲音圖像。在有聲音活動(dòng)的區(qū)域,該系統(tǒng)會(huì)將聲音自動(dòng)記錄重放進(jìn)行轉(zhuǎn)錄。根據(jù)之前的實(shí)驗(yàn),每一分鐘的對話,都需要2.5分鐘的轉(zhuǎn)錄時(shí)間。
這些不同的各個(gè)系統(tǒng)將共同完成一幅幼兒經(jīng)歷的感官刺激的完整圖畫,這樣就可建立一個(gè)可以取代羅伊教授兒子的模型。(馬佳)
對話
嬰兒并非最先會(huì)叫媽媽
北京科技報(bào):您的試驗(yàn)開始了多久了?目前有什么新進(jìn)展嗎?
羅伊教授:我們的數(shù)據(jù)收集工作已經(jīng)開始了11個(gè)月。已經(jīng)得到了非常有用的數(shù)據(jù),我的兒子在數(shù)千小時(shí)中,在家中呀呀學(xué)語的記錄。這些都將用于語言發(fā)展的研究。
北京科技報(bào):在中國普通人都會(huì)認(rèn)為孩子們學(xué)說話最早說出的詞語是“媽媽”,您認(rèn)為是這樣嗎?這是不是應(yīng)認(rèn)為這個(gè)詞語發(fā)音簡單?
羅伊教授:其實(shí)這并不是嬰兒最早學(xué)會(huì)的單詞,即使是中國。但是“媽媽”這個(gè)詞確實(shí)很簡單,你是對的,因此這個(gè)詞出現(xiàn)的也很早。
北京科技報(bào):在你的家里安裝那么多的機(jī)器,你們會(huì)不會(huì)覺得不自在?如果遇到有隱私問題,怎么辦?
羅伊教授:開始確實(shí)不是很自在,但現(xiàn)在已經(jīng)習(xí)慣了。所有的音頻和視頻記錄都可以由人工控制,安裝在墻上的微型觸摸控制器可以在必要時(shí)分別開關(guān)音頻或視頻的記錄。這樣的微型控制器一共有八個(gè),都安在燈的開關(guān)旁邊。另外,我們還可以通過“哎呀”按鈕控制,擦除任何一段不需要的記錄。
北京科技報(bào):人們在知道有設(shè)備在進(jìn)行拍攝記錄時(shí),會(huì)不會(huì)故意地去和嬰兒對話,影響結(jié)果的客觀性?
羅伊教授:通常在實(shí)驗(yàn)中,觀察者對實(shí)驗(yàn)的影響只會(huì)持續(xù)24到48個(gè)小時(shí)。我們的記錄工作已經(jīng)進(jìn)行了相當(dāng)長的一段時(shí)間,這種影響應(yīng)該已經(jīng)不是一個(gè)問題了。
北京科技報(bào):在記錄工作結(jié)束后,你們將如何進(jìn)行分析,數(shù)據(jù)的那一部分是研究嬰兒學(xué)習(xí)語言的有用資料嗎?
羅伊教授:我們將通過計(jì)算機(jī)建立模型,并復(fù)制我的孩子在學(xué)習(xí)語言中的單詞和語法。這些模型將幫助我們分析學(xué)習(xí)的整個(gè)過程。
北京科技報(bào):您是什么時(shí)候開始涉足人類語言這個(gè)領(lǐng)域的?是什么激發(fā)您這個(gè)想法?
羅伊教授:我在十年前就有了這個(gè)想法,那時(shí)我在做我的博士論文,題目就是“語言獲取模型”。
北京科技報(bào):為什么數(shù)據(jù)記錄的時(shí)間是3年而不是更短或者更長呢?
羅伊教授:2到3年這個(gè)時(shí)間是學(xué)習(xí)第一個(gè)單詞到簡單的語法出現(xiàn)的一個(gè)臨界時(shí)間,這段時(shí)間是我們研究關(guān)注的重點(diǎn)時(shí)期。
北京科技報(bào):關(guān)于嬰兒如何學(xué)會(huì)語言有很多爭論,您能介紹一下有哪些嗎?您支持哪一種觀點(diǎn)?
羅伊教授:這個(gè)問題非常復(fù)雜,很難用簡短的語言說清楚。但非常明顯的是,天生的語言結(jié)構(gòu)與環(huán)境造就的語言結(jié)構(gòu)都是起到重要作用的。我們的研究計(jì)劃就是想要在這方面打開一扇新的大門。這項(xiàng)計(jì)劃將為研究人類語言獲取過程的研究提供一個(gè)自然、豐富、縱向的參考。通過超過30萬小時(shí)的記錄,我們先要建立一個(gè)模型并計(jì)算出幼兒獲取語言的精確過程。我們希望這項(xiàng)技術(shù)除了可以研究人類的語言學(xué)習(xí)過程外,還可以應(yīng)用于像個(gè)人視頻或分析從監(jiān)視器中獲得的影像資料這樣的其他領(lǐng)域。北京科技報(bào)
本文來自:逍遙右腦記憶 http://m.portlandfoamroofing.com/zaojiao/725154.html
相關(guān)閱讀: