su.Zero
back to main sitelogo and back to blog home
 
 

標上 ‘ckip’ 的文章

昨天(2006/2/26)在 twitter 上看到有網友說 Yahoo! 推出了 「斷章取義」 API 我一時還以為是被惡搞了… (沒辦法,這名子實在是太搞笑 :P) 不過看了之後,一整個把我拖回高中科展的時代阿!

想當初高中在做的科展題目就叫做「中文語意新聞檢索系統」。雖然當年得了第二名,不過我還記得當時有位教授給的意見是「這題目太大了吧?怎麼可能做得好呢…」。沒錯,做這東西真是個龐大的學問!還記得當時用了最沒效率的 "Maximum Matching" 演算法,也就是一一比對直到符合最長的詞組為止。當時的做法是每天由 Google News 拉新聞回來(我還記得當初我是用 Excel + VBA 寫這東西的XD),存到 Microsoft SQL Server 後接著跑一隻索引程式。這隻索引程式得花上一些時間進行斷詞然後把次數統計重新由詞庫中提取出來取相同 prefix 的加總。聽起來滿噁心的,實際上也是。這程式跑得又慢又沒效率。初始詞庫還記得是使用中研院的 CKIP 計畫提供的基本語料庫建立的,另外搭配一些顯而易見的語言規則讓他想辦法跑的還像個作品樣 :P 雖然到現在我在語言學或是語意分析領域的知識一點都沒長進,不過對於這個領域一直也都保持的興趣。(或許是因為科幻片看太多,對於能夠聽懂人話的機器人一直很有興趣XD)

現在 Yahoo 推出了這樣一個中文斷詞 API 可以讓以中文為基礎的惡搞門檻降低很多,大家只要接上這個 API 就可以取得斷詞結果(雖然目前看起來傳回的資料還真的滿基本的)然後惡搞!加上 XDite 大神一下子就寫出了 Ruby 的 Yahoo CAS API library 想必又會吸引更多人來玩玩 XD 不過,回頭來看,Yahoo 最近似乎在中文語料這方面動作頻頻(一下子是 Yahoo! 科科KeyKey輸入法,一下子又推出斷詞API),是不是有甚麼陰謀正在醞釀當中呢…… :P

Google News Grabber

這是 Google News 抓取器的畫面… 我翻了很久只找到這個,我也不知道為啥我做了半天竟然沒有抓主程式的圖 XDrz

 
 
© 2009 All Rights Reserved. | Powered by WordPress