Обработка естественного языка
内容描述: Курс посвящён основам обработки естественного языка (NLP): от предобработки текста и языковых моделей до векторных представлений, анализа тональности и технологий машинного перевода. Изучаются ключевые методы классификации, снижения размерности и построения эффективных NLP-систем.
贷款数: 6
Пререквизиты:
- Технология программирования
*СomplexityDiscipline(zh-CN)*:
*TypesOfClasses(zh-CN)* | *hours(zh-CN)* |
---|---|
*Lectures(zh-CN)* | 30 |
*PracticalWork(zh-CN)* | |
*LaboratoryWork(zh-CN)* | 30 |
*srop(zh-CN)* | 30 |
*sro(zh-CN)* | 90 |
*FormOfFinalControl(zh-CN)* | экзамен |
*FinalAssessment(zh-CN)* |
零件: Вузовский компонент
循环次数: Профилирующие дисциплины
Цель
- Сформировать у студентов теоретические знания и практические навыки в области обработки естественного языка, необходимые для разработки и применения алгоритмов, методов и моделей автоматического анализа текстовых данных, а также научить использовать современные инструменты и модели NLP для решения практических задач.
Задача
- Изучить основные концепции, методы и технологии обработки текстовой информации и речевых данных.
- Развить навыки анализа и предобработки текстовых корпусов, а также оценки качества NLP-моделей.
Результат обучения: знание и понимание
- Теоретические знания и практические навыки в области обработки естественного языка (NLP).
Результат обучения: применение знаний и пониманий
- Уметь обрабатывать и анализировать большие объемы данных с помощью современного программного обеспечения
Результат обучения: формирование суждений
- способность самостоятельно применять методы и средства познания, обучения и самоконтроля, осознавать перспективность интеллектуального, культурного, нравственного, физического и профессионального саморазвития и самосовершенствования, уметь критически оценивать свои достоинства и недостатк
Результат обучения: коммуникативные способности
- осуществлять коммуникации в профессиональной сфере и в обществе целом, в том числе на иностранном языке, анализировать существующую и разрабатывать самостоятельно техническую документацию, четко излагать и защищать результаты комплексной инженерной деятельности в области IT-технологий
*AssessmentKnowledge(zh-CN)*
Преподаватель проводит все виды работ текущего контроля и выводит соответствующую оценку текущей успеваемости обучающихся два раза в академический период. По результатам текущего контроля формируется рейтинг 1 и 2. Учебные достижения обучающегося оцениваются по 100-балльной шкале, итоговая оценка Р1 и Р2 выводится как средняя арифметическая из оценок текущей успеваемости. Оценка работы обучающегося в академическом периоде осуществляется преподавателем в соответствии с графиком сдачи заданий по дисциплине. Система контроля может сочетать письменные и устные, групповые и индивидуальные формы.
*Period2(zh-CN)* | *TypeOfTask(zh-CN)* | *Total(zh-CN)* |
---|---|---|
1 *Rating(zh-CN)* | Лабораторная работа 1 | 0-100 |
Лабораторная работа 2 | ||
Лабораторная работа 3 | ||
Лабораторная работа 4 | ||
2 *Rating(zh-CN)* | Лабораторная работа 5 | 0-100 |
Лабораторная работа 6 | ||
Лабораторная работа 7 | ||
Лабораторная работа 8 | ||
*TotalControl(zh-CN)* | экзамен | 0-100 |
*PolicyAssignmentTask(zh-CN)*
*TypeOfTask(zh-CN)* | 90-100 | 70-89 | 50-69 | 0-49 |
---|---|---|---|---|
Excellent | *Grade4(zh-CN)* | *Grade3(zh-CN)* | *Grade2(zh-CN)* |
*EvaluationForm(zh-CN)*
Итоговая оценка знаний обучающего по дисциплине осуществляется по 100 балльной системе и включает:
- 40% результата, полученного на экзамене;
- 60% результатов текущей успеваемости.
Формула подсчета итоговой оценки:
И= 0,6 | Р1+Р2 | +0,4Э |
2 |
где, Р1, Р2 – цифровые эквиваленты оценок первого, второго рейтингов соответственно; Э – цифровой эквивалент оценки на экзамене.
Итоговая буквенная оценка и ее цифровой эквивалент в баллах:
Буквенная система оценки учебных достижений обучающихся, соответствующая цифровому эквиваленту по четырехбалльной системе:
Оценка по буквенной системе | Цифровой эквивалент | Баллы (%-ное содержание) | Оценка по традиционной системе |
---|---|---|---|
A | 4.0 | 95-100 | Отлично |
A- | 3.67 | 90-94 | |
B+ | 3.33 | 85-89 | Хорошо |
B | 3.0 | 80-84 | |
B- | 2.67 | 75-79 | |
C+ | 2.33 | 70-74 | |
C | 2.0 | 65-69 | Удовлетворительно |
C- | 1.67 | 60-64 | |
D+ | 1.33 | 55-59 | |
D | 1.0 | 50-54 | |
FX | 0.5 | 25-49 | Неудовлетворительно |
F | 0 | 0-24 |
Темы лекционных занятий
- Знакомство с технологией NLP. История и эволюция NLP. Области применения и компоненты NLP-систем.
- Методы предварительной обработки текста.
- Определение частей речи в NLP
- Частота терминов и взвешивание. Модель векторного пространства.
- Методы векторного представления слов в NLP.
- Извлечение признаков на основе n-грамм.
- Методы снижения размерности признакового пространства.
- Анализ настроения с помощью логистической регрессии.
- Анализ тональности текстов с использованием наивного байесовского классификатора
- Меры сходства и уменьшение размерности в NLP: Евклидово расстояние, Косинусное сходство и PCA.
- Разметка частей речи. Цепи Маркова. Скрытые модели Маркова.
- Архитектура модели CBOW
- Нейронные сети и рекуррентные модели в обработке текста
Основная литература
- Sunil Patel. Getting Started with Deep Learning for Natural Language Processing, BPB PUBLICATIONS, ISBN: 978-93-89898-11-8, 2021.
- Ekaterina Kochmar. Getting Started with Natural Language Processing, Manning Publications Co., ISBN: 9781617296765, 2022
- Материалы https://www.deeplearning.ai/
- Francesco Mosconi. Zero to Deep Learning, 2019
- Hobson Lane. Natural Language Processing in Action. 2020
Дополнительная литература
- Thushan Ganegedara. Natural Language Processing with TensorFlow, ISBN 978-1-83864-135-1, 2022