Data Scientist NLP
Вакансия № 37271963 в населенном пункте (городе) Москва, Россия от компании "СберПраво" на сайте Электронный Центр Занятости Населения (ЦЗН) Москвы.
✷ Смотрите другие предложения работы от компании СберПраво.
Логотип (торговая марка, бренд, эмблема, внешний вид здания или внутренний интерьер офиса): | ![]() |
Репутация компании "СберПраво" в отзывах работников:
Читайте свежие отзывы сотрудников об этой организации на этом сайте.
Оставить мнение об этом работодателе без регистрации бесплатно на этом сайте.
Обязательное требование к опыту работы искомого сотрудника: 1–3 года.
График работы: график: 5/2 (рабочих часов: 9).
Тип занятости: полная занятость.
Вакансия № 37271963 добавлена в базу данных: Вторник, 2 сентября 2025 года.
Дата обновления этого объявления: Четверг, 25 сентября 2025 года.
Рейтинг вакансии: 2,84 из 100 баллов |
Вакансия № 37271963 прочитана - 5 раз(а)
Отправлено откликов - 0 раз(а)
Вакансии Электронного Центра Занятости Москвы в социальных сетях и мессенджерах:
Работодатель предложит заработную плату по результатам собеседования с соискателем работы.
Кто мы?
Мы RND команда проекта GigaLegal в СБЕР - создаем инновационные решения в правовом домене на основе LLM для автоматизации юридических процессов.
Наша цель — трансформировать работу юристов, бизнеса и государственных структур через:
- Автоматизацию анализа договоров и юридических документов
- Интеллектуальную генерацию правовых документов
- Разработку специализированных юридических чат-ботов
- Создание автономных юридических ИИ-агентов
Чем предстоит заниматься?
Исследования и эксперименты с LLM:
- Разработка и оптимизация промптов для задач классификации, NER и генерации юридических текстов
- Оценка эффективности различных подходов и моделей для юридических задач
- Написание агентских пайплайнов с использованием LLM
- Подготовка тестовых и обучающих данных для LLM
Инженерия данных:
- Разработка пайплайнов обработки юридических документов в различных форматах (конвертация в структурированный текст, сегментация)
- Организация процессов разметки данных и создания специализированных датасетов
- Подготовка обучающих данных для ML моделей (классические модели, BERT, T5)
ML/NLP разработка:
- Применение классических моделей (TF-IDF, CRF) и трансформеров (BERT, T5) для:
- Классификации юридических документов
- Извлечения именованных сущностей
- Реализации семантического поиска
- Интеграция с внешними API
- Работа с поисковыми технологиями - ElasticSearch, векторный поиск, матчинг, ранжирование
Внедрение в продакшен:
- Подготовка документации и API для передачи в production
- Поддержка на этапе интеграции разработок
- Участие в A/B-тестировании и анализе результатов
Для этого необходимо уметь?
- уверенная работа с python: pandas, numpy, sklearn, PyTorch
- базовые знания SQL и NoSQL баз данных
- знание классического NLP, опыт с NLP-библиотеками (spaCy, NLTK)
- уверенные знания современных LLM-архитектур и понимание техник обучения LLM хотя бы в теории (претрейн, SFT, RLHF)
- навыки промптинга: знание стратегий промптинга и умение оптимизировать промпты для решения бизнес-задач
- практический опыт построения RAG-систем
- git, Linux, docker
Будет преимуществом:
- умение написать простой REST API микросервис, собрать и запустить телеграм бота
- умение собрать простой веб интерфейс прототипа на html/css/javascript
- способность обучить LORA адаптер к LLM модели
- интерес к актуальным исследованиям NLP и LLM, чтение публикаций по теме
- опыт создания LLM-driven приложений (structured output, function calling, agent systems)
Что мы предлагаем:
- Менторство от Senior DS-специалистов и экспертов команды GigaChat
- Доступ к закрытым образовательным материалам по LLM и Legal Tech
- Много инженерии вокруг LLM и Агентов
- Гибкий график работы с возможностью полной удаленки
- Полный социальный пакет (ДМС, корпоративный спортзал и др.)
Разместить Ваше резюме сейчас ...
Связаться с автором объявления № 37271963 с предложением работы, размещённого на этой странице:
☎ Показать контактный телефон для связи ...
✉ Показать электронный адрес для связи ...