Обработка естественного языка

Жомартқызы Гүльназ

*InstructorProfile(zh-CN)*

内容描述: Курс посвящён основам обработки естественного языка (NLP): от предобработки текста и языковых моделей до векторных представлений, анализа тональности и технологий машинного перевода. Изучаются ключевые методы классификации, снижения размерности и построения эффективных NLP-систем.

贷款数: 6

Пререквизиты:

  • Технология программирования

*СomplexityDiscipline(zh-CN)*:

*TypesOfClasses(zh-CN)* *hours(zh-CN)*
*Lectures(zh-CN)* 30
*PracticalWork(zh-CN)*
*LaboratoryWork(zh-CN)* 30
*srop(zh-CN)* 30
*sro(zh-CN)* 90
*FormOfFinalControl(zh-CN)* экзамен
*FinalAssessment(zh-CN)*

零件: Вузовский компонент

循环次数: Профилирующие дисциплины

Цель
  • Сформировать у студентов теоретические знания и практические навыки в области обработки естественного языка, необходимые для разработки и применения алгоритмов, методов и моделей автоматического анализа текстовых данных, а также научить использовать современные инструменты и модели NLP для решения практических задач.
Задача
  • Изучить основные концепции, методы и технологии обработки текстовой информации и речевых данных.
  • Развить навыки анализа и предобработки текстовых корпусов, а также оценки качества NLP-моделей.
Результат обучения: знание и понимание
  • Теоретические знания и практические навыки в области обработки естественного языка (NLP).
Результат обучения: применение знаний и пониманий
  • Уметь обрабатывать и анализировать большие объемы данных с помощью современного программного обеспечения
Результат обучения: формирование суждений
  • способность самостоятельно применять методы и средства познания, обучения и самоконтроля, осознавать перспективность интеллектуального, культурного, нравственного, физического и профессионального саморазвития и самосовершенствования, уметь критически оценивать свои достоинства и недостатк
Результат обучения: коммуникативные способности
  • осуществлять коммуникации в профессиональной сфере и в обществе целом, в том числе на иностранном языке, анализировать существующую и разрабатывать самостоятельно техническую документацию, четко излагать и защищать результаты комплексной инженерной деятельности в области IT-технологий
*AssessmentKnowledge(zh-CN)*

Преподаватель проводит все виды работ текущего контроля и выводит соответствующую оценку текущей успеваемости обучающихся два раза в академический период. По результатам текущего контроля формируется рейтинг 1 и 2. Учебные достижения обучающегося оцениваются по 100-балльной шкале, итоговая оценка Р1 и Р2 выводится как средняя арифметическая из оценок текущей успеваемости. Оценка работы обучающегося в академическом периоде осуществляется преподавателем в соответствии с графиком сдачи заданий по дисциплине. Система контроля может сочетать письменные и устные, групповые и индивидуальные формы.

*Period2(zh-CN)* *TypeOfTask(zh-CN)* *Total(zh-CN)*
1  *Rating(zh-CN)* Лабораторная работа 1 0-100
Лабораторная работа 2
Лабораторная работа 3
Лабораторная работа 4
2  *Rating(zh-CN)* Лабораторная работа 5 0-100
Лабораторная работа 6
Лабораторная работа 7
Лабораторная работа 8
*TotalControl(zh-CN)* экзамен 0-100
*PolicyAssignmentTask(zh-CN)*
*TypeOfTask(zh-CN)* 90-100 70-89 50-69 0-49
Excellent *Grade4(zh-CN)* *Grade3(zh-CN)* *Grade2(zh-CN)*
*EvaluationForm(zh-CN)*

Итоговая оценка знаний обучающего по дисциплине осуществляется по 100 балльной системе и включает:

  • 40% результата, полученного на экзамене;
  • 60% результатов текущей успеваемости.

Формула подсчета итоговой оценки:

И= 0,6 Р12 +0,4Э
2

 

где, Р1, Р2 – цифровые эквиваленты оценок первого, второго рейтингов соответственно; Э – цифровой эквивалент оценки на экзамене.

Итоговая буквенная оценка и ее цифровой эквивалент в баллах:

Буквенная система оценки учебных достижений обучающихся, соответствующая цифровому эквиваленту по четырехбалльной системе:

Оценка по буквенной системе Цифровой эквивалент Баллы (%-ное содержание) Оценка по традиционной системе
A 4.0 95-100 Отлично
A- 3.67 90-94
B+ 3.33 85-89 Хорошо
B 3.0 80-84
B- 2.67 75-79
C+ 2.33 70-74
C 2.0 65-69 Удовлетворительно
C- 1.67 60-64
D+ 1.33 55-59
D 1.0 50-54
FX 0.5 25-49 Неудовлетворительно
F 0 0-24
Темы лекционных занятий
  • Знакомство с технологией NLP. История и эволюция NLP. Области применения и компоненты NLP-систем.
  • Методы предварительной обработки текста.
  • Определение частей речи в NLP
  • Частота терминов и взвешивание. Модель векторного пространства.
  • Методы векторного представления слов в NLP.
  • Извлечение признаков на основе n-грамм.
  • Методы снижения размерности признакового пространства.
  • Анализ настроения с помощью логистической регрессии.
  • Анализ тональности текстов с использованием наивного байесовского классификатора
  • Меры сходства и уменьшение размерности в NLP: Евклидово расстояние, Косинусное сходство и PCA.
  • Разметка частей речи. Цепи Маркова. Скрытые модели Маркова.
  • Архитектура модели CBOW
  • Нейронные сети и рекуррентные модели в обработке текста
Основная литература
  • Sunil Patel. Getting Started with Deep Learning for Natural Language Processing, BPB PUBLICATIONS, ISBN: 978-93-89898-11-8, 2021.
  • Ekaterina Kochmar. Getting Started with Natural Language Processing, Manning Publications Co., ISBN: 9781617296765, 2022
  • Материалы https://www.deeplearning.ai/
  • Francesco Mosconi. Zero to Deep Learning, 2019
  • Hobson Lane. Natural Language Processing in Action. 2020
Дополнительная литература
  • Thushan Ganegedara. Natural Language Processing with TensorFlow, ISBN 978-1-83864-135-1, 2022