Semantic segmentation 簡介

前言

今天來跟大家介紹一個在自駕車領域中也很重要的技術 - Semantic segmentation，先放一張帥圖來欣賞欣賞。

什麼是 semantic segmentation

Semantic segmentation 的功能是把一張 2D 影像中的所有 pixel，都做好分類，這些類別我們是先定義好的。以下圖為例：

Semantic segmentation 的目標就是要把每個 pixel 都歸類到 Sky, Building, Pole, Road Marking, Road, Pavement, Tree, Sign Symbol, Fence, Vehicle, Pedestrian, Bike 的其中一類。

為什麼需要 semantic segmentation

從上面的簡介我們知道，semantic segmentation 可以切分出各個大區塊，比起直接做物體辨識，他的應用之處還是不太一樣，例如：

辨識自駕車可以開的範圍（Drivable surface estimation），才不會開到人行道等不該開的區域
辨識車道分隔線，確保車子不會開到其他車道
成為更高階 scene understanding 的基石，比如辨識現在是處在高速公路、市區、施工區、校園等等

怎麼做 semantic segmentation

Semantic segmentation 是一個還在蓬勃發展的領域，所以這邊只是稍微簡介一下，如果你有興趣，可以去看看延伸閱讀 2 和 3，再從那邊繼續延伸。

我們從本質出發，為了區分出每個 pixel 的類別，我們還是需要辨識這些 pixel 的特徵，所以需要一個 Feature Extractor，但通常經過一系列的 convolution layer 跟 pooling 之後，feature space image 會變小，所以需要一個 Feature Decoder，把 feature space image 放大，最後再通過一個 output layer 產生每個類別的機率（一層 softmax 就可以做到），基本結構如下圖：