Well, 這個東西其實是我為了參加「2008網路通訊軟體與創意應用競賽」這名字超級長的比賽想出來的一個題目。沒想到竟然會突然被採訪,嚇死了。XD (我們也是去領獎的前一天才知道這件事情)
後來有很多人問我,這東西到底跟 Google Latitude 那裡不一樣?PTT八卦版鄉民更是直接開噓。不過呢,我想說的是 他們真的一點關係也沒有!! 沒想到前一天被電話騷擾一個晚上,結果還是被亂寫了 Orz
澄清幾點如下:
- 這個主題早在 Google Latitude 出來之前我們就想做了!!
- Google Latitude 只能分享位置跟心情而且未必是即時,但是我們系統是即時位置加上可以互傳文字訊息、語音以及可以在地圖上分享座標點的功能。
- 這套系統絕對不是如蘋果日報所說是輸入手機號碼。見鬼了,打手機號碼可以找到其他人在那那真的…有點恐怖XD 事實上,是一組系統自動配發的配對密碼。在有效時間內輸入同樣配對密碼就可以進入同一群組。
- 我們也絕對不是如中央社所說被 T-mobile 把這套系統買走了。事實上,我們唯一跟 T-mobile 有交集的就是我們買了 T-mobile G1… That’s all.
所以這次讓我學到了兩點…
- 看到新聞想噓人之前,要先想想是不是記者亂寫
- 千萬不要相信記者阿!!!!
好,回到正題。其實這種被記者追的體驗還滿新鮮的(炸),其實當天沒記錯的話總共有 自由時報、聯合報、蘋果日報、中央社、教育廣播電台、台灣立報 等等記者來訪問我們。不過目前看到的只有 聯合、蘋果、中央社、教育廣播電台、台灣立報 有刊出來,隔天被 台視 採訪,不過也是尚未看到播出。所以又學到一點了,被採訪了也不一定會被刊出來。 (說不定等那天 PTT 又維修沒新聞的時候就會報出來了XD)
最後,哀悼一下我的 iPhone。他在我坐計程車的時候掉了…… 剛開始打都沒人接,傳簡訊也沒回。而且手機還有上網收信(GMail IMAP history),結果隔一小時候手機就被惡意關機,GMail 也沒有看到收信了。 (sigh…)
昨天(2006/2/26)在 twitter 上看到有網友說 Yahoo! 推出了 「斷章取義」 API 我一時還以為是被惡搞了… (沒辦法,這名子實在是太搞笑 :P) 不過看了之後,一整個把我拖回高中科展的時代阿!
想當初高中在做的科展題目就叫做「中文語意新聞檢索系統」。雖然當年得了第二名,不過我還記得當時有位教授給的意見是「這題目太大了吧?怎麼可能做得好呢…」。沒錯,做這東西真是個龐大的學問!還記得當時用了最沒效率的 『Maximum Matching』 演算法,也就是一一比對直到符合最長的詞組為止。當時的做法是每天由 Google News 拉新聞回來(我還記得當初我是用 Excel + VBA 寫這東西的XD),存到 Microsoft SQL Server 後接著跑一隻索引程式。這隻索引程式得花上一些時間進行斷詞然後把次數統計重新由詞庫中提取出來取相同 prefix 的加總。聽起來滿噁心的,實際上也是。這程式跑得又慢又沒效率。初始詞庫還記得是使用中研院的 CKIP 計畫提供的基本語料庫建立的,另外搭配一些顯而易見的語言規則讓他想辦法跑的還像個作品樣 :P 雖然到現在我在語言學或是語意分析領域的知識一點都沒長進,不過對於這個領域一直也都保持的興趣。(或許是因為科幻片看太多,對於能夠聽懂人話的機器人一直很有興趣XD)
現在 Yahoo 推出了這樣一個中文斷詞 API 可以讓以中文為基礎的惡搞門檻降低很多,大家只要接上這個 API 就可以取得斷詞結果(雖然目前看起來傳回的資料還真的滿基本的)然後惡搞!加上 XDite 大神一下子就寫出了 Ruby 的 Yahoo CAS API library 想必又會吸引更多人來玩玩 XD 不過,回頭來看,Yahoo 最近似乎在中文語料這方面動作頻頻(一下子是 Yahoo! 科科KeyKey輸入法,一下子又推出斷詞API),是不是有甚麼陰謀正在醞釀當中呢…… :P

這是 Google News 抓取器的畫面… 我翻了很久只找到這個,我也不知道為啥我做了半天竟然沒有抓主程式的圖 XDrz