2023 D4SG 成果發表會心得

因為我在現場找不到好角度來拍照，就沒有拍任何照片了。但如果想要知道D4SG和個別小組在這場發表會的資訊，可以在這裡找到: https://d4sg.org/events/d4sg-fellowship-2023-unveiling-party/
以下我就對各個組別我覺得有趣的地方來說一下心得:

1. 你真的不是一個人！孤獨老不孤獨

這個case其實是由清華大學統計所的同學來執行的，我相信是統計實習的case。總之他們在分析其實遇到最大的狀況就是新舊系統資料不一的，在清理資料就是個大麻煩了。然而這一組別為了繞過資料清理，他們就把所有資料變成字串，進而利用語言模型(Bert)來做孤老死的預測。
但是他們為了解釋個別變數對於孤老死的影響，所以之後又做了logisitic regression來解釋。這邊做法我認為可以再進一步，例如:

用Bert來做資料清理?
用logisitic regression來對Bert做model distillation?

2. 請回答1966

1966為政府長照專線，1999為市民服務電話
這組前面做了1966的EDA，可以很簡單易懂的方式來看目前的1966狀況如何。再來就是利用文字探勘的方式，來找尋通話15秒內，最有可能是怎樣的問題，進而加速轉接電話的速度。其中他們所使用的方式為NMF的topic model。之後他們為了讓席次利用最大化，所以引進了erlang c模型。最後做了1966戰情室的dashborad。

其中他們也為了找到連續型和離散型的資料之間的關聯性，所以使用了point-biseries correlation來解決問題。