Applied Methods
~jobsTwelve LabsSenior ML Research Engineer, Marengo

Twelve Labs

Senior ML Research Engineer, Marengo

Research ScienceSeoul, South Korearemotefull-timeposted today

About the role

Who we are

영상 이해 AI의 글로벌 기준을 함께 만들어 갈 인재를 찾습니다!

트웰브랩스는 방대한 영상 데이터를 효과적으로 처리하여, 영상에 특화된 검색, 분석, 요약, 인사이트 생성 기능을 제공하는 세계 최고 수준의 영상 특화 AI 모델을 만들고 있습니다.

세계 최대 스포츠 리그에서는 트웰브랩스 모델을 활용해 방대한 경기 영상 속에서 빠르고 정확하게 하이라이트를 선별하여 초개인화된 시청 경험을 제공하고 있습니다. 국내 통합관제센터에서는 위기 상황에 신속히 대응하기 위해 트웰브랩스와 함께 CCTV 영상을 효율적으로 탐색하고 있으며, 전 세계 주요 방송사와 스튜디오들은 수십억 명의 시청자를 위한 콘텐츠 제작에 트웰브랩스 모델을 활용하고 있습니다.

트웰브랩스는 샌프란시스코와 서울에 오피스를 둔 Deep Tech 스타트업으로, 4년 연속 CB Insights 선정 세계 100대 AI 스타트업에 이름을 올렸습니다. NVIDIA, NEA, Index Ventures, Databricks, Snowflake 등 세계적인 VC와 기업들로부터 총 1억 1천만 달러 이상의 투자를 유치했으며, 한국에서 개발된 AI 모델 중 유일하게 Amazon Bedrock을 통해 서비스됩니다. 우리는 탁월한 동료들과 혁신적인 제품을 만들고 전 세계 고객들과 함께 성장하고 있습니다.

트웰브랩스는 다음과 같은 핵심 가치를 중심으로 일합니다.

  • 나와 팀에 대해 정직하고 성찰할 수 있는 태도

  • 실패와 피드백을 두려워하지 않는 끈기와 겸손

  • 끊임없는 학습을 통해 팀의 역량을 함께 높여 가는 자세

도전적인 문제를 함께 해결하며 성장하는 과정을 즐기는 분이라면, 그 기회가 여기 트웰브랩스에 있습니다.

About the Team

트웰브랩스의 멀티모달 임베딩 모델 Marengo의 연구개발을 담당하는 팀입니다. 비디오, 오디오, 텍스트 등 다양한 모달리티를 하나의 임베딩 공간(Embedding Space)에 통합하는 모델을 연구하고 개발합니다.

Contrastive learning, temporal video understanding, multimodal representation learning 등 다양한 연구 주제를 다루며, 대규모 학습 데이터 파이프라인 구축부터 모델 아키텍처 설계, 분산 학습 최적화, 평가 체계 설계까지 모델 개발의 전 과정을 책임집니다. NVIDIA B300 등 세계 최고 수준의 GPU 리소스에 대한 접근 권한을 바탕으로 대규모 실험을 빠르게 수행합니다.

연구에서 프로덕션까지의 간극이 매우 짧은 환경에서, Search, Product, Infrastructure 팀과 긴밀히 협업하며 전 세계 수천 고객이 사용하는 모델의 품질을 지속적으로 향상시킵니다.

About the Role

As a Senior ML Research Engineer on the Marengo team, you will drive the research and development of TwelveLabs' multimodal embedding models, from data strategy and training pipeline optimization to model architecture experimentation and evaluation.

This is a research-heavy engineering role at the intersection of multimodal representation learning, large-scale distributed training, and data engineering. We're looking for a strong engineer-researcher who can take well-scoped research problems with moderate ambiguity, design rigorous experiments, and deliver reproducible results that ship to production.

In this role, you will

  • Design and execute experiments to improve multimodal embedding model quality, spanning model architecture, training methodology, data composition, and evaluation

  • Build and optimize large-scale distributed training pipelines (multi-node, multi-GPU) for contrastive and representation learning

  • Develop and improve data curation, filtering, and quality assessment pipelines at scale

  • Conduct ablation studies to systematically evaluate design choices and communicate findings to guide technical direction

  • Implement evaluation frameworks and benchmarks that rigorously measure embedding model quality

  • Collaborate with the search/serving team to ensure model improvements translate to end-to-end retrieval quality gains

You may be a good fit if you have

  • 4–7 years of industry experience in computer vision, NLP, or multimodal learning, with a track record of shipping ML systems to production

  • Strong proficiency in Python and PyTorch, with hands-on experience in distributed model training

  • Experience in contrastive learning, representation learning, or embedding models, demonstrated through shipped products, publications, or open-source contributions

  • End-to-end ownership experience: taking a model from research idea through training to production deployment, not just running experiments in isolation

  • Ability to independently drive research projects from problem definition through experiment design to conclusions

  • Effective communication skills for collaborating with colleagues from diverse backgrounds

We evaluate based on relevant technical skills and industry impact rather than degrees alone. This role is typically a strong fit for engineers with an MS and meaningful industry experience building ML systems at scale.

Preferred Qualifications

  • Experience with temporal video understanding (segmentation, boundary detection, temporal grounding)

  • Experience with large-scale data curation (filtering, deduplication, quality scoring) for model training

  • Experience with training infrastructure optimization (mixed precision, gradient checkpointing, communication backends)

  • Familiarity with experiment tracking and reproducibility tools

  • Experience with petabyte-scale data processing

What makes this role unique

The gap between research and production is remarkably short here. Models you build will be used by thousands of companies worldwide within months. We work as a unified team toward the broader goal of video understanding, rather than solving isolated problems. Our research philosophy balances rigorous experimentation with real-world application: we aim to build multimodal systems that are powerful, trustworthy, and genuinely useful.

Others

Work Location: Seoul Itaewon office + Pangyo satellite office

Additional Info: 전문연구요원 편입/전직 가능합니다.

Even if you don't check every box, we encourage you to apply. If you're a zero-to-one achiever, a ferocious learner, and a kind team player who motivates others, you'll find a home at TwelveLabs.

Hiring Process

Application Review → Recruiter Interview (비대면/30분) → Loop Interview [Hiring Manager Interview&Live Coding Test Interview] (대면/약 90분) → Loop Interview [System Design&Final Round Interview] (비대면/약 90분) → Reference Check → Offer

Benefits and Perks

  • 글로벌 B2B 고객과 함께 성장하는 Global Team

  • 자율성과 협업을 모두 갖춘 하이브리드 근무

  • 전 직원에게 맥북 및 70만 원 상당 재택근무 장비 지원, 3년 주기로 최신 장비 교체

  • 식사·교통비 등 자유롭게 사용할 수 있는 월 60만 원 한도 법인카드 제공

  • 사무실 내 스낵바(간식, 커피, 신선식품 제공)

  • 연말 2주간 겨울방학 운영

  • 연 1회 건강검진 지원

  • 영어교육 프로그램 지원