出品 | 創業最前線
作者 | 小葳
在人工智能三要素“數據、算力、算法”中,數據相當于人工智能算法的“燃料”。作為一項重要的人工智能基礎數據服務,近年來數據標注市場發展迅猛。
簡單理解,數據標注相當于為“投喂”AI準備“飼料”。機器學習中的監督學習和半監督學習都需要人工標注好的數據進行學習,其訓練集、驗證集和測試集都是標注過的數據。
比如,如果要教AI認識蘋果,可以用1000張標注“蘋果”的圖片以及更多的不包括“蘋果”的圖片作為訓練集,機器會從中學習得到一個模型,以后再遇到相關圖片時就能認出是不是蘋果。
隨著人工智能產業的飛速發展,產生了大量垂直領域的數據需求,也驅動著眾多企業涌入數據標注市場。那么,國內AI數據標注市場的現狀和發展趨勢是怎樣的?什么樣的玩家能夠突圍?
隨著人工智能在各個行業加速落地,近年來數據標注行業飛速發展。據統計,目前國內市場上可查的數據標注公司將近40家。專家表示,人工智能領域整體融資金額中,約有15-30%都投向了數據標注市場。由此,保守估計國內數據標注市場規模已達150億到300億元。
在整體AI產業中,數據標注屬于上游的數據生產環節,為下游的AI算法企業提供“原材料”。
數據標注有著廣泛的應用場景。比如,人臉關鍵點標注、人臉特征標注,可以為人臉識別算法提供所需數據。自動駕駛技術需要大量的標注數據對算法模型進行訓練和調優。在世界級無人駕駛大賽中,主辦方往往提供近億張圖片和數十萬張標注圖片供參賽團隊訓練使用。
市場供給方面,除了少數大廠選擇自建數據標注基地之外,大部分服務供給來自第三方服務商。根據艾瑞咨詢發布的《中國人工智能基礎數據服務行業白皮書(2019年)》,服務商提供了整體數據標注市場79%的服務,企業自建只占21%。
與任何發展初期的行業相同,目前國內數據標注行業處在高速發展、粗放競爭的初級階段。服務商魚龍混雜,臨時外包模式、眾包模式很常見,有些小型服務商甚至只是負責轉包的中間商。行業標準不清晰,服務商質量參差不齊,缺乏專業技能和經驗,都導致了數據標注質量難以保障。
另一方面,由于獲取數據標注服務是一項長期固定成本,AI算法公司普遍希望有更好的性價比選擇。總體來看,數據標注市場亟需專業玩家來引領。
企查查數據顯示,截止2021年3月,我國共有人工智能相關企業32.3萬家。其中,2020年全年新注冊企業16.9萬家,同比增長323.6%。在AI產業高速發展的背景下,數據標注服務的缺口一定是巨大的。
目前,數據標注的手段以人工標注為主,機器輔助。由于數據標注工作門檻比較低,屬于AI領域的入門級崗位,操作員經過簡單培訓即可上崗。相信隨著AI數據處理平臺學習能力的不斷提升,機器終將不斷取代人工承擔主要標注工作。但是在此之前,依賴人工進行數據標注將長期存在。
那么,未來數據標注行業將走向何方?
一方面,經過數年高速發展,國內數據標注市場中,各家公司的產品和服務趨于同質化、競爭呈膠著狀態。隨著競爭的加劇,行業格局方面,一些服務質量不達標的小企業將面臨淘汰,頭部公司實力將逐漸凸顯。
另一方面,隨著AI技術加速落地各個行業,服務需求方對數據標注的要求也水漲船高。最典型的就是,垂直場景的定制化數據標注和采集將成為主流。比如,針對人臉識別場景的人臉人像數據服務、針對視頻主體的視頻標注服務,針對自動駕駛場景的數據服務。
(圖 / 攝圖網,基于VRF協議)
一些AI公司甚至希望數據公司能夠更懂算法技術、更懂需求場景,甚至能參與到算法的研發中來,給出數據采標方面的優化建議,這也成為數據服務商打造差異化競爭的著力點。
此外,數據安全、合規也成為AI公司著重考慮的因素。一些數據標注過程中會涉及到很多敏感數據,比如人臉、語音等內容,這就要求從數據的采集、數據的標注,再到數據的存儲,每一個環節都必須保證數據不被泄露、不被竊取。
盡管市場同質化嚴重,但一些頭部服務商憑借差異化優勢已經初步嶄露頭角。
領創智信(ADVANCE.AI)是一家總部在新加坡的專業數據服務品牌。多年來堅持自建數據標注基地和自建數據采集服務,為AI企業提供全流程一體化的數據服務解決方案。
領創智信的業務范圍覆蓋圖像、語音、視頻等全領域的數據標注和采集服務,滿足市場上90%的標注需求。目前,領創智信的數據采集和標注業務已經服務超過幾十家行業客戶,在金融科技、零售、電子商務、醫療、物聯網、出行等領域積累了良好的口碑。
通過對領創智信企業優勢的分析,我們可以從側面看出如何靠差異化競爭力在數據標注市場突圍:
首先,領創智信的業務覆蓋國內和東南亞,可以借助東南亞人力資源成本優勢,提供更高性價比的數據標注服務。
過去幾年,在全球人力資源市場,中國正在失去低價勞動力的優勢。因此帶來勞動密集型產業、低端制造業等向東南亞等地區轉移,這對國內產業升級和經濟轉型其實是利好。
領創智信在印度尼西亞、菲律賓和泰國設有數據交付中心和數據采集基地,很好地利用了東南亞人力成本優勢,賦能中國AI產業。以印尼為例,其總人口 2.7億,是僅次于中國、印度和美國的全球人口第四大國家。而且印尼社會總平均年齡只有約 30歲,有超一半以上的人口年齡低于30歲。領創智信正是將印尼的人口紅利為己所用。
其次,領創智信采取自建數據標注團隊和數據采集基地的模式,具備交付高質量數據服務以及深耕垂直場景的能力。
領創智信擁有數百人的自建數據標注團隊,團隊穩定,有長期標注采集經驗。領創智信在東南亞各地搭建了本地化的執行團隊,他們熟悉海外人力環境、宗教文化、政府關系。而且這些團隊具備豐富的AI數據項目管理經驗,可以協調多個國家的標注資源。專業的團隊使得領創智信的服務可以滿足90%以上標注需求,數據標注服務合格率達到99%以上。
在垂直場景方面,領創智信在面部識別、文件識別、文件處理、貨架物品識別等領域積累了豐富的經驗。比如,在人工智能面部識別領域,領創智信可以提供關鍵點標注、拉框標注、語義分割等全品類標注服務,支持活體檢測、人臉圖像對比、人臉搜索、人臉反欺詐、多維數據人臉信用評分等豐富的應用場景。
第三,小語種數據標注優勢,賦能國內AI企業出海東南亞。在語音標注采集方面,除中文、英文外,領創智信還擁有印尼語、越南語的語音采集、語音轉寫、語音判斷、語音分割能力。近年來,由于區域經濟潛力大、消費互聯網產業蓬勃發展,東南亞已經成為很多中國企業出海的首站。領創智信獨特的小語種優勢,將為中國出海的AI應用提供小語種場景數據基礎。
此外,在數據安全方面,領創智信的所有產品和服務均內置強大的安全保障技術,這些技術能夠協助檢測并阻止黑客攻擊。其還與合作伙伴白帽子合作,提高金融數據安全標準,為金融企業提供更安全的數據環境。
為了讓更多AI初創企業享受更具性價比的數據標注服務,行業頭部企業領創智信開展了為期3個月的促銷活動。3月31日到6月31日期間,凡數據標注服務每月付費超過或累計超過5萬元人民幣的企業,即可免費獲得領創智信提供的整套采集/標注的方案設計。
*文中題圖來自攝圖網,基于VRF協議。