2023 D4SG 成果發表會心得


Posted by ar851060 on 2023-07-23

因為我在現場找不到好角度來拍照,就沒有拍任何照片了。但如果想要知道D4SG和個別小組在這場發表會的資訊,可以在這裡找到: https://d4sg.org/events/d4sg-fellowship-2023-unveiling-party/
以下我就對各個組別我覺得有趣的地方來說一下心得:

1. 你真的不是一個人!孤獨老不孤獨

這個case其實是由清華大學統計所的同學來執行的,我相信是統計實習的case。總之他們在分析其實遇到最大的狀況就是新舊系統資料不一的,在清理資料就是個大麻煩了。然而這一組別為了繞過資料清理,他們就把所有資料變成字串,進而利用語言模型(Bert)來做孤老死的預測。
但是他們為了解釋個別變數對於孤老死的影響,所以之後又做了logisitic regression來解釋。這邊做法我認為可以再進一步,例如:

  1. 用Bert來做資料清理?
  2. 用logisitic regression來對Bert做model distillation?

2. 請回答1966

1966為政府長照專線,1999為市民服務電話
這組前面做了1966的EDA,可以很簡單易懂的方式來看目前的1966狀況如何。再來就是利用文字探勘的方式,來找尋通話15秒內,最有可能是怎樣的問題,進而加速轉接電話的速度。其中他們所使用的方式為NMF的topic model。之後他們為了讓席次利用最大化,所以引進了erlang c模型。最後做了1966戰情室的dashborad。

其中他們也為了找到連續型和離散型的資料之間的關聯性,所以使用了point-biseries correlation來解決問題。

3. 兒少保護高效能網絡合作

這組是我最不懂的組別,總之就是為了讓家暴的個案單位,從被害人本身變成整個家庭,因此嘗試導入知識本體的概念進入家暴防治系統。同時,為了讓整個資料收集更加格式化,並且也為了在政府的大計畫下來之前的中間過度系統,他們使用了word和excel建立了資料收集表格和小型資料庫。

總結

我認為這是個很具有意義的活動,活動本身就是利用data science來幫助社會以及公部門來解決問題。同時,不同的成員也會有不同的火花,進而讓更多的創意和想法來協助整個社會。

除此之外,有些想法我有興趣深入了解一下,其中應該會做成文章介紹的是:

  1. model distillation
  2. erlang c
  3. point-biseries correlation

可能會有project的是:

  1. Bert classification
  2. point-biseries correlation
  3. topic model with NMF

#雜談









Related Posts

Ch00 - 學習目標

Ch00 - 學習目標

Return the summation of the number smaller than n

Return the summation of the number smaller than n

Python -「快速」算出兩排序數列中重複的次數

Python -「快速」算出兩排序數列中重複的次數


Comments