AI 기술 발전에서 가장 중요한 요소 중 하나가 바로 ‘데이터’라는 건 이제 누구나 아는 사실이다. 특히 최근 메타가 AI 데이터 라벨링 전문기업 스케일 AI(Scale AI)에 무려 150억 달러(약 20조원)라는 천문학적 투자를 검토 중이라는 소식이 전해지면서, AI 데이터 시장의 중요성이 다시 한번 부각되고 있다.
스케일 AI, 단순한 데이터 라벨링 회사가 아니다
스케일 AI는 2016년 MIT 재학생이던 알렉산더 왕이 기숙사에서 시작한 회사로, 현재 138억 달러(약 19조원) 가치를 인정받는 데이터 라벨링 분야의 독보적 선두주자다. 이 회사가 하는 일을 간단히 설명하면, AI가 이해할 수 있도록 방대한 데이터에 ‘이름표’를 달아주는 작업이다.
예를 들어 자율주행차 AI에게 “이것은 신호등이고, 저것은 보행자야”라고 가르쳐주는 것처럼 말이다. 스케일 AI는 2024년 약 8억 7천만 달러의 매출을 올렸고, 2025년에는 20억 달러 이상의 매출을 예상하고 있다.
현재 제너럴 모터스, 웨이모, 우버, 도요타 같은 자율주행 업체부터 OpenAI, 마이크로소프트, 메타, 핀터레스트까지 세계 굴지의 기업들이 스케일 AI의 고객이다.
왜 메타는 150억 달러나 투자하려 할까
메타가 이토록 거액을 투자하려는 이유는 명확하다. 마크 저커버그 메타 CEO는 올해 AI 분야에 최대 650억 달러(약 90조원)를 투자할 계획이며, 10억 명의 사용자 기반을 확보한 자사 언어모델 ‘라마(Llama)’를 통해 AI 생태계 전반의 기반 기술을 제공하겠다는 포부를 밝힌 바 있다.
이번 투자는 메타의 역대 최대 규모 외부 AI 투자가 될 것으로, 지금까지 내부 연구에 주로 의존해온 메타의 드문 행보다. 마이크로소프트가 OpenAI에 130억 달러를 투자한 것처럼, 빅테크 기업들이 AI 생태계 장악을 위해 대규모 투자에 나서고 있는 추세다.
특히 주목할 점은 스케일 AI가 최근 법학, 의학 같은 고도의 전문성이 필요한 분야로 사업 영역을 확장하고 있다는 것이다. 2025년 초 기준으로 스케일 AI 기여자의 12%가 박사 학위 보유자이고, 40% 이상이 석사, 법학박사, MBA 학위를 보유하고 있다.
폭발적으로 성장하는 AI 데이터 라벨링 시장
AI 데이터 라벨링 시장의 성장세는 그야말로 폭발적이다. 글로벌 시장연구기관 그랜드 뷰 리서치 조사에 따르면 2020년 약 8조원이었던 글로벌 인공지능 데이터 시장은 연평균 24%의 성장률을 보이며 2028년에는 46조원에 달할 것으로 예상된다.
더 구체적으로 살펴보면, 글로벌 데이터 라벨링 솔루션 및 서비스 시장 규모는 2021년 86억 9천만 달러였으며 2022년부터 2030년까지 연평균 성장률(CAGR) 21%로 확장될 것으로 예상된다.
국내 시장도 마찬가지다. 한국데이터산업진흥원에 따르면 국내 데이터 라벨링 시장은 지난 5년간 연평균 21.9%씩 성장해왔으며, 향후 지속적인 성장세가 예상돼 2025년 약 4조 3,100억 원 규모를 형성할 것으로 전망되고 있다.
단순 작업에서 고도의 전문성이 필요한 분야로
초기 데이터 라벨링은 단순히 이미지에 태그를 다는 수준이었다. 하지만 지금은 완전히 다르다. 생성형 AI가 점차 일상 곳곳으로 퍼져 가며, 하드웨어에 탑재할 수 있는 소형 언어모델(sLLM)이 늘어날 것이고, 이렇게 되면 더 적은 컴퓨팅 파워로도 최적의 성능을 끌어내기 위해 맞춤형 데이터가 더욱 필요해질 것이다.
맞춤형 데이터 수요가 증가함에 따라 도메인 전문 영역으로 시장이 옮겨가고 있다. 이에 따라 데이터 작업자에게 전문지식, 어학 능력 등 더욱 높은 수준을 요구하게 됐고, 그만큼 인력 확보는 이전보다 까다로워졌다.
새로운 직업군으로 떠오르는 데이터 라벨러
이런 시장 성장과 함께 데이터 라벨러라는 새로운 직업이 주목받고 있다. 통계청 경제활동인구조사 마이크로데이터를 분석한 결과, 올해 라벨러 취업 수요자가 107만 8,000명으로 2020년(65만명)보다 무려 65.8% 늘어난 것으로 나타났다.
실제로 부업에서 시작해 전업으로 전환하는 사람들도 늘고 있다. 영어나 특정 분야 전문성을 갖춘 숙련 라벨러의 경우 최저시급보다 훨씬 높은 활동비를 받으며, 검수자로 승급하면 수입이 크게 증가한다.
AI 시장 성장의 핵심 동력, 데이터 품질
전 세계 인공지능 시장 규모가 2023년 1502억달러(약 200조원)에서 2030년에는 1조3452억달러(약 1800조원)로 9배가량 성장한다는 예측이 나왔다. 이런 폭발적 성장의 핵심에는 바로 데이터 품질이 있다.
세계 4대 AI 석학으로 꼽히는 앤드류 응(Andrew Ng) 스탠퍼드 교수와 구글 등 여러 AI 전문 기업 및 기관들도 “인공지능 데이터의 품질이 AI 모델의 성능에 가장 큰 영향을 미친다”는 연구 결과를 발표해 인공지능 데이터 구축의 중요성은 더욱 부각되고 있다.
이는 AI 개발 트렌드가 모델 중심에서 데이터 중심(data-centric)으로 이동하고 있음을 보여준다. 아무리 훌륭한 알고리즘이 있어도 품질 낮은 데이터로 학습하면 성능이 떨어질 수밖에 없기 때문이다.
미래 전망: 더욱 중요해질 데이터의 역할
메타의 스케일 AI 대규모 투자는 단순한 M&A를 넘어서는 의미를 갖는다. 이는 AI 시대에서 데이터가 얼마나 중요한 자산인지를 보여주는 상징적 사건이다.
2030년까지 AI 시장을 확대하는 중요 동인으로는 ‘자율 AI’, 즉 AI 에이전트를 들 수 있다. 이는 기업 운영을 최적화하고, 산업 비용 절감을 이끌 핵심 요소가 될 것이다.
하지만 동시에 데이터 가용성 및 품질 저하가 주요한 걸림돌이 될 것으로 분석된다. 포괄적이고 다양한 데이터에 접근하지 못하거나, 부정확하거나 편향된 데이터를 학습에 사용할 경우 AI의 성능은 크게 저하될 수밖에 없다.
결국 미래 AI 경쟁의 승부는 누가 더 좋은 데이터를 확보하고 가공할 수 있느냐에 달려있다. 메타의 스케일 AI 투자는 이런 미래를 내다본 전략적 선택이며, 앞으로 더 많은 기업들이 데이터 분야에 대규모 투자를 이어갈 것으로 예상된다.
AI 혁명의 진짜 주인공은 화려한 알고리즘이 아니라 양질의 데이터일지도 모른다. 그리고 그 데이터 뒤에는 수많은 데이터 라벨러들의 숨은 노력이 있다는 사실도 잊지 말아야 할 것이다.