數據標注是人工智能的基礎。數據標注是向訓練數據集添加元數據的過程。這種元數據通常采用標簽的形式,可以添加到任何類型的數據中,包括文本、圖像和視頻。添加高質量和高精準的標簽是為機器學習開發訓練數據集的一個關鍵過程。人工智能數據標注是數據預處理中不可缺少的階段,因為監督式機器學習模型可以學習識別標注數據中重復出現的模式。當一個算法處理了大量的標注數據后,算法可以在新的、未標記數據出現時識別相同的模式。因此,數據科學家需要使用清洗過后的標注數據來訓練機器學習模型。
中國AI基礎數據需求促進數據標注行業快速增長。根據IDC發布的報告,到2025年,中國人工智能數據采標服務市場規模將達到123.4億元人民幣。市場的發展驅動力一方面來源于人工智能市場的迅猛發展,另一方面來源于行業用戶加大數據采集力度。自動駕駛領域發展需要海量數據支撐,也促進了基礎數據服務市場的發展。自動駕駛感知技術是自動駕駛的核心技術之一,訓練自動駕駛感知模型需要使用大量數據,數據標注行業中與自動駕駛相關的數據標注也因此得到快速發展。
L2級自動駕駛滲透率穩步上升,市場向L3+發展。目前在乘用車市場上實現落地的自動駕駛技術處于L2級水平,市場滲透率正穩步提升。實現的功能包括縱向的全速自適應巡航、橫向的車道保持、低速場景的自動泊車等。根據IDC發布了《中國自動駕駛汽車市場數據追蹤報告》,2022年第一季度L2級自動駕駛在乘用車市場的新車滲透率達23.2%,整個市場處于L2向L3+級別發展的階段。?隨著激光雷達的鋪貨和成本的降低或將加速L3+的落地。