【行業】中國AI基礎數據服務行業報告(26頁)

自從2012年深度學習在圖像和語音方面產生重大突破后,人工智能便真正具備了走出實驗室步入市場的能力,2016年AlphaGo的勝利再次引爆行業,成功喚起了中國市場的興趣,時至今日,人工智能的商業化在中國得到了長足發展,在安防、金融、企服等領域紛紛落地開花,同時也真正意義上衍生出了一套完整的產業鏈。AI產業鏈可以分為基礎層、技術層和應用層,基礎層按照算力、數據和算法再次劃分,對整體上層建筑起到支撐作用;技術層根據算法用途分為計算機視覺、智能語音、自然語言處理等,是AI最引人注目的環節;應用層則按照不同場景的需求定制開發專屬服務,是AI真正賦能行業的方式。目前人工智能商業化在算力、算法和技術方面基本達到階段性成熟,想要更加落地,解決行業具體痛點,需要大量經過標注處理的相關數據做算法訓練支撐,可以說數據決定了AI的落地程度,而AI基礎數據服務行業又鮮有關注,因此本報告承接艾瑞《2019年中國人工智能基礎數據服務白皮書》,再次挖掘該行業的現狀和發展,展示其真實的一面。

人工智能是對一類能夠實現機器模擬智慧生命某些特征的技術統稱,從學術上可以分為以知識工程為代表的符號主義、以神經網絡為代表的連接主義和以仿生機器人為代表的行為主義三個流派,近些年掀起又一輪人工智能熱潮的機器學習就屬于連接主義學派。機器學習按照訓練方式可分為使用人工標注分類標簽訓練的監督學習、無分類標簽且自動聚類推斷的無監督學習、使用少量人工標注+自動聚類的半監督學習和根據現實情況自動“試錯+調整”的強化學習四類,而最著名的深度學習同樣是機器學習的分支,但因為模型結構的不同而與上述訓練方式不在一個區分范疇,深度學習在訓練方式上均可與四種方式發生重疊。目前來看AI應用最廣泛的計算機視覺和智能語音更依賴于監督學習下的深度學習方式,半監督和無監督是學術界嘗試突破的方向,當下僅在如無人駕駛中急轉彎場景訓練等特定領域中得以嘗試應用,而強化學習被認為是更接近人類在自然界中學習知識的方式,在最佳路徑選擇、最優解探尋等方面有所應用,但泛化能力還有待突破。

監督學習下的深度學習算法訓練十分依賴人工標注數據,2012年-2016年期間人工智能行業不斷優化算法增加深度神經網絡層級,利用大量的數據集訓練提高算法精準性,ImageNet開源的1400多萬張訓練圖片和1000余種分類在其中起到重要作用,為了繼續提高精準度,保持算法優越性,市場中產生了大量的標注數據需求,這也催生了AI基礎數據服務行業的誕生。時至今日,人工智能從業公司的算法模型經過多年的打磨,基本達到階段性成熟,隨著AI行業商業化發展,更具有前瞻性的數據集產品和高定制化數據服務需求成為了主流。據了解,目前一個新研發的計算機視覺算法需要上萬張到數十萬張不等的標注圖片訓練,新功能的開發需要近萬張圖片訓練,而定期優化算法也有上千張圖片的需求,一個用于智慧城市的算法應用,每年都有數十萬張圖片的穩定需求;語音方面,頭部公司累計應用的標注數據集已達百萬小時以上,每年需求仍以20%-30%的增速上升,不僅如此,隨著IoT設備的普及,語音交互場景越來越豐富,每年都有更多的新增場景和新需求方出現,對于標注數據的需求也是逐步增長。結合市場來看,隨著AI商業化發展,AI基礎數據服務需求步入常態化,存量市場具有較為穩定的需求源頭,而增量市場隨著應用場景的豐富,以及新型算法的誕生,擁有更廣闊的想象空間。

分享到: