概要:
人工智能算法的成長需要不同種類數據進行餵養,本文將為AI數據領域的從業者介紹倍賽BasicFinder SaaS數據標註工具可加工數據類型的分類指南,以供讀者瞭解各種數據的標記效果。
快判標註類型
快判標註需要標註人員對數據的圖像或者文本數據的內容進行選擇性判斷。一般情況可供選擇的標籤數量比較有限(2~5個)。主要是輔助算法對指定目標範圍進行區分判斷。快判類別的標註場景主要有兩種:“圖像快判”(圖1)和“文本快判”(圖2)。

圖1:圖片快判

圖2:文本快判
圖片標註類型
圖片數據標註主要是對數據的主體進行輪廓界定,區域和位置的確定等。由於圖片數據內容比較豐富,所以需要多種標記方式對數據進行處理加工,如2D框標註、3D框標註、線標註、關鍵點標註、語義分割和圖像轉錄等。
2D框
2D框標註使用矩形框工具將圖像中指定主體的所在區域用框體進行圈定,以確定主體大致輪廓、所在區域和位置。(圖3)
圖3:車體2D框
3D框
3D框標註相比於2D框標註包含了主體所佔立體空間的數據。3D框的繪製需要標記人員進行準確判斷和預估主體所佔空間。(圖4)
圖4:車體3D框
線標註
線標註經常應用在自動駕駛領域對車道線的標註。用線條勾勒出不同區域的邊界。(圖5)
圖5:線標註
關鍵點標註
關鍵點標註主要是對圖像數據的幾何中心、內容中心或者指定點進行定位。(圖6)
圖6:關鍵點標註
語義分割
語義分割和2D框標註相比,能夠更清晰地界定主體邊界和範圍,數據信息含量更多,應用於模型也更加準確。(圖7)
圖7:語義分割標註
圖片轉錄
圖片轉錄顧名思義,將圖片中的核心內容轉化成文本數據,以便模型可以更有效地識別圖像數據中的信息。(圖8)
圖8:圖片轉錄
文本標註類型
文本標註是對文本內容根據算法需求進行特殊處理的數據加工方法。常見的文本標註包含:指代消歧、實體標註、轉寫翻譯、詞性標註、問答回覆、關係抽取、拼寫糾錯、文本摘要、分詞標註等。
指代消歧
指將一段文本中包含的代詞或者名詞與其指代內容相同的部分連接起來。有時部分代詞或名詞被省略,但仍需進行標記。(圖9)
圖9:指代消歧
實體標註
將文本中的實體與指定的標籤進行關聯。(圖10)
圖10:實體標註
轉寫翻譯
將文本從一種語言轉換翻譯為另一種語言或是文本的簡繁體轉換。(圖11)
圖11:轉寫翻譯
詞性標註
詞性標註任務是將給定句子中的每個單詞從給定標籤組中賦予一個詞性標籤。(圖12)
圖12:詞性標註
問答回覆
標註任務比較簡單就是對原始文本提出的問題作出相應回答。(圖13)
圖13:問答回覆
關係抽取
給定兩個實體,識別它們的關係並對關係進行分類。(圖14)
圖14:關係抽取
拼寫糾錯
更改文本字段中的錯別字以及錯誤詞語。(圖15)
圖15:拼寫糾錯
文本摘要
將長文本內容進行準確地概述。(圖16)
圖16:文本摘要
分詞標註
將文本字段的詞組、獨立字以及標點符號進行劃分。(圖17)
17:分詞標註
音頻標註類型
標註任務是將音頻中的自然語言轉錄成文本數據,同時可能會涉及到男女聲辨別、情緒辨識和方言辨識等。(圖18)
圖18:音頻標註
視頻標註類型
由於視頻是連續的圖像組成,所以視頻標註與圖像數據標註相似。(圖19)
圖19:視頻標註
3D點雲標註類型
3D點雲數據比圖像數據擁有更多信息,可能包括強度信息、三維信息、方向信息、速度信息甚至顏色信息。3D點雲標註主要分為兩種:框體標註(圖20)和語義分割(圖21)。
圖20:3D點雲框體標註
圖21:3D點雲語義分割標註