Мастерская анализа текстовых данных

Подать заявку
на ЛШ2024

ТекстАн

О мастерской

Сегодня анализ текста применяется во многих областях нашей жизни — от абсолютно повседневных вещей вроде поисковых систем и Гугл-переводчика до нейросетей, способных поддержать общение с пользователем. Мало кто не слышал про ChatGPT: популярность таких систем только растёт, и многим интересно, как именно это работает.
На самом деле в основе всего вышеперечисленного лежит анализ текста — с его помощью компьютер учится понимать человеческий язык. Вычисление контекста, семантический анализ, машинный перевод — все эти интересные и востребованные направления мира IT и анализа данных составляют часть большой и прекрасной сферы Natural Language Processing (автоматической обработки естественного языка). Именно с ней и будем вас знакомить мы.
Сидя среди палаток и деревянных домиков и отчаянно ловя интернет, мы разбираемся в том, что такое лемматизация и векторизация, изучаем принцип работы алгоритмов NER и стараемся не путать precision и recall, а в перерывах играем в настольные игры и шутим лингвистические шутки. Если вас заинтересовало такое времяпрепровождение, то смело подавайте заявку, и встретимся на Волге!

P.S. Наша мастерская также известна под именем ML&Texts.

На нашей мастерской вы сможете:

  • познакомиться с современными методами обработки текстов;
  • узнать про сложные алгоритмы машинного обучения без углубления в продвинутую математику;
  • приобрести практический опыт, создав сложную и полезную программу на языке Python;
  • помочь нашим партнерам в решении реальных задач.

    Основной язык, который будет использоваться на школе — Python.

Кого ищем:

  1. вам 18 +;
  2. вы не боитесь дикой природы и двухнедельной жизни в палатке;
  3. вы умеете работать в команде;
  4. вы с уважением относитесь к другим людям и их личному пространству;
  5. вы спокойно относитесь к форс-мажорам и изменениям в расписании;
  6. вы обладаете базовыми навыками программирования Python(в понятие «базовые знания» входят: знание циклов и условных операторов, умение написать свою функцию, понимание устройства классов, а также работа со строками и регулярными выражениями);
  7. будет здорово, если вы знаете, что такое pipeline в машинном обучении, знакомы с базовыми методами визуализации и понимаете принципы работы классификаторов и кластеризаторов.

P.S.

Будет здорово, если вы освежите знания по матанализу и линейной алгебре. А именно, понимание, что такое матрицы, скалярное умножение, косинусное расстояние между векторами, производная, частная производная и производная сложной функции.

Кого мы не ждем:

  1. вы хотите узнать про нейролингвистическое программирование (тоже NLP);
  2. вам тяжело жить на природе в палатке;
  3. вам тяжело находить общий язык с другими людьми;
  4. вы не любите / не умеете жить по распорядку;
  5. вы не готовы изучить Python до уровня написания скриптов;
  6. вы плохо реагируете на перемены в расписании и форс-мажоры.

Про что вы будете слушать:

  • Основы предобработки текста;
  • Предпосылки компьютерной лингвистики;
  • Классификация и кластеризация текстов;
  • Дистрибутивная семантика и word-embeddings;
  • Языковые модели;
  • Машинный перевод и трансформеры;
  • Извлечение именованных сущностей;
  • Диалоговые системы;
  • Цифровые методы в гуманитарных науках;
  • Немного матстата и тервера;
  • Визуализация данных.

Чему вы научитесь:

  • составлять pipeline для анализа текста на естественном языке.
  • подготавливать корпус текстов для анализа.
  • выбирать подходящую модель и алгоритм для вашей задачи.
  • освоите на практике то, о чем вам будут рассказывать лекторы.

Почта по всем вопросам


Мария Маслова директор

Где ещё в Интернете
https://t.me/ml2024news



Партнёры

ПАНДАН Совместная программа ПАНДАН — прикладной анализ данных — Европейского университета в Санкт-Петербурге и Яндекса.
МАСТ Прикладной центр машинного обучения, анализа данных и статистики (ПЦ МАСТ) - совместный проект Европейского университета и компании Яндекс. МАСТ занимается применением методов машинного обучения и анализа данных в гуманитарных и социальных науках.

Машинное обучение в текстовом анализе

Интересуешься NLP, но не знаешь, с чего начать? Начни с нашей мастерской!
НЛП не обещаем, но обещаем две недели весёлого и интенсивного изучения методов обработки естественного языка. Ты сможешь послушать интересные лекции про все те многочисленные подходы, которые применяют NLP-специалисты, познакомиться с другими NLP-энтузиастами и найти единомышленников, а в свободное время посмеяться (или покринжевать) с лингвистических шуток, сидя за очередной настолкой.

Вот примерное содержание мастерской:
- Основы предобработки текста;
- Предпосылки компьютерной лингвистики;
- Классификация и кластеризация текстов;
- Дистрибутивная семантика и word-embeddings;
- Языковые модели;
- Машинный перевод и трансформеры;
- Извлечение именованных сущностей;
- Диалоговые системы;
- Цифровые методы в гуманитарных науках;
- Немного матстата и тервера;
- Визуализация данных;
- Хакатон на партнёрских данных.

Даты проведения

1-3 циклы: с 05 июля по 20 июля

Возрастные ограничения
от 18 лет
Кого ищут
Если ты знаешь Питон и интересуешься NLP, то тебе к нам!