計算機視覺(Computer Vision)是一門研究如何使機器“看”的科學,更進一步地說,是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量的科學。近幾年計算機視覺技術實現了快速發展,其主要學術原因是2015年基于深度學習的計算機視覺算法在ImageNet數據庫上的識別準確率首次超過人類,同年Google也開源了自己的深度學習算法。計算機視覺系統的主要功能有圖像獲取、預處理、特征提取、檢測/分割和高級處理。
自然語言處理(Natural Language Processing)是一門通過建立形式化的計算模型來分析、理解和處理自然語言的學科,也是一門橫跨語言學、計算機科學、數學等領域的交叉學科。自然語言處理,是指用計算機對自然語言的形、音、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。自然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等。可以說,自然語言處理就是要計算機理解自然語言,自然語言處理機制涉及兩個流程,包括自然語言理解和自然語言生成,自然語言理解是讓計算機把輸入的語言變成有意思的符號和關系,然后根據目的再處理;自然語言生成則是把計算機數據轉化為自然語言。實現人機間的信息交流,是人工智能界、計算機科學和語言學界所共同關注的重要問題。
自然語言處理的研究可以分為基礎性研究和應用性研究兩部分,語音和文本是兩類研究的重點。基礎性研究主要涉及語言學、數學、計算機學科等領域,相對應的技術有消除歧義、語法形式化等。應用性研究則主要集中在一些應用自然語言處理的領域,例如信息檢索、文本分類、機器翻譯等。由于我國基礎理論即機器翻譯的研究起步較早,且基礎理論研究是任何應用的理論基礎,所以語法、句法、語義分析等基礎性研究歷來是研究的重點,而且隨著互聯網網絡技術的發展,智能檢索類研究近年來也逐漸升溫。近年來,計算機視覺在產業界和學術界不斷取得突破,取得代表性成果的組織有谷歌、阿里、百度、搜狗、科大訊飛等公司,清華大學、Allen人工智能研究所等高校/研究所以及其他多種類型的組織或個人。