使用統計在四小時內預測 Kickstarter 專案是否可以成功達成

統計學家發展出一個預測 Kickstarter 專案的模型,可在專案發起後的四小時預測該專案是否會成功。

Kickstarter

Kickstarter 是一個專為群眾集資而設計的仲介網站,專案的發起人可以提出一些有創意的專案,經過 Kickstarter 審核之後放上的網頁,向全世界的人募集資金來進行自己想實作的專案,若在一定的期限之內該專案所募集到的資金達到最低的門檻值,則該 Kickstarter 專案就算是成功了。

當然在 Kickstarter 上的專案最後的結果可能有許多不同的狀況,而我們可以把它們大致上區分為「成功」與「失敗」這兩種,成功就是代表在最後期限前有籌措到足夠的資金,如果沒有就是失敗。

到底一個專案最後會不會成功是專案發起人最關心的事情,最近有三位瑞士洛桑聯邦理工學院的統計學家提出了一個統計模型,結合資金籌措的資料與一些社群網站的資訊可以在專案發起後的四小時,就可以預測該專案最後是否會成功。

他們從 Kickstarter 上抓取了超過 16000 個專案的資料進行分析,這些專案的募集資金總額高達一億五千八百萬美元,而大約有一半的專案是失敗的。

這些研究者們在 Twitter 以「kickstarter」這個關鍵字來搜尋相關的資料,並以這些資中的 URL 網址來辨識該 Twitter 留言是隸屬於哪一個 Kickstarter 專案,另外從該專案的 Backers 網頁擷取專案的資助者名單與金額。

剛開始他們只有將 Backers 網頁上的資料用於 k-nearest neighbor classifier 與 Markov chain 這兩個模型中,另外也使用 baseline static model 配合一些固定的專案屬性(例如專案的類別、是否有影片介紹與目標資金等)在專案開始之前提供一個最基本的預測。

最簡單的 baseline model 所提供的準確率可以達到 68%,而使用 nearest-neighbors 或 Markov chain 的方式則會有更高的準確率,即便是在專案一開始沒多久的狀況下來預測,都會比基本的 baseline 要好一些,在募集期間過了十分之一的時候(大約是三天),就可以達到 85% 的預測準確度,而 nearest-neighbor classifier 的精準度比 Markov chain 稍微高一些,但其計算量也比較大。

Markov predictor

接著他們加入了從 Twitter 上所蒐集的資料,包含留言時間、回應與轉貼次數,而他們發現如果只有使用 Twitter 的資料所預測的結果,不會比使用 baseline static model 配合一些固定專案屬性所得到的結果好到哪裡去,而綜合資金籌措的資訊之後,模型在專案早期的預測準確度是最高的,只花了一天半的時間就可以達到 84%,而第六天結束時則可以攀升到 87% 。


同時使用資金與社群的資料,雖然可以使預測的準確率快速提昇,在四小時的時候,就可以有 76% 的預測準確率,但準確率最好的還是單純使用資金籌措資料的模型(在募集期間過了 15% 的時候可以有 85% 的預測準確率)。

要分析社群資料其實沒有那麼單純,這裡他們只考慮最單純的狀況,還是有非常多的狀況會被遺漏,例如分享 Kickstarter 的訊息可能剛好沒有提到「Kickstarter」這個字眼,或是有些人會使用縮短網址的功能,這些狀況在這份論文中都沒有被納入考量,所以也會造成分析上的誤差。

目前這個模型的運作方式有點像是一個黑盒子,它只會告訴你專案是否會成功的預測,並不會告訴你為什麼,這個部份在未來可加入專案發起人與資助者的網路分析,或是研究成功的專案與 Twitter 訊息網路之間的關係等等,這樣可能就可以看出如何在初期對專案做一些改善,讓成功率提昇。

參考資料:ars technica
本站已經搬家了,欲查看最新的文章,請至 G. T. Wang 新網站