Табиғи мәтінді өңдеу

Жомартқызы Гүльназ

Оқытушының портфолиосы

Сипаттама: Курс табиғи тілді өңдеудің (NLP) негіздеріне арналған: мәтінді алдын ала өңдеу, тілдік модельдер, векторлық көріністер, сентиментті талдау және машиналық аударма технологиялары. Курста классификацияның, өлшемділікті азайтудың және тиімді NLP жүйелерін құрудың негізгі әдістері қарастырылады.

Кредиттер саны: 6

Пререквизиты:

  • Бағдарламалау технологиясы

Пәннің еңбек сыйымдылығы:

Жұмыс түрлері сағат
Дәрістер 30
Практикалық жұмыстар
Зертханалық жұмыстар 30
СӨЖО 30
СӨЖ 90
Қорытынды бақылау нысаны емтихан
Қорытынды бақылауды жүргізу нысаны

Компонент: ЖОО компоненті

Цикл: Кәсіптік пәндер

Мақсат
  • Студенттерге мәтінді автоматты түрде талдауға арналған алгоритмдер, әдістер мен модельдерді әзірлеу және қолдану үшін қажетті табиғи тілді өңдеу (NLP) саласындағы теориялық білім мен практикалық дағдыларды қалыптастыру, заманауи NLP құралдары мен модельдерін практикалық міндеттерді шешуде қолдануды үйрету.
Міндет
  • Изучить основные концепции, методы и технологии обработки текстовой информации и речевых данных.
  • Развить навыки анализа и предобработки текстовых корпусов, а также оценки качества NLP-моделей.
Оқыту нәтижесі: білу және түсіну
  • Теоретические знания и практические навыки в области обработки естественного языка (NLP).
Оқыту нәтижесі: білім мен ұғымды қолдану
  • Уметь обрабатывать и анализировать большие объемы данных с помощью современного программного обеспечения
Оқыту нәтижесі: талқылай білуді қалыптастыру
  • способность самостоятельно применять методы и средства познания, обучения и самоконтроля, осознавать перспективность интеллектуального, культурного, нравственного, физического и профессионального саморазвития и самосовершенствования, уметь критически оценивать свои достоинства и недостатк
Оқыту нәтижесі: коммуникативтік қабілеттіліктер
  • осуществлять коммуникации в профессиональной сфере и в обществе целом, в том числе на иностранном языке, анализировать существующую и разрабатывать самостоятельно техническую документацию, четко излагать и защищать результаты комплексной инженерной деятельности в области IT-технологий
Білім алушының білімін бағалау

Оқытушы ағымдағы бақылау жұмыстарының барлық түрлерін жүргізеді және академиялық кезеңде екі рет білім алушылардың ағымдағы үлгеріміне тиісті баға береді. Ағымдағы бақылау нәтижелері бойынша 1 және 2 рейтинг қалыптастырылады. Білім алушының оқу жетістіктері 100 балдық шкала бойынша бағаланады, Р1 және Р2 қорытынды бағасы ағымдағы үлгерім бағасынан орташа арифметикалық ретінде шығарылады. Академиялық кезеңде білім алушының жұмысын бағалауды пән бойынша тапсырмаларды тапсыру кестесіне сәйкес оқытушы жүзеге асырады. Бақылау жүйесі жазбаша және ауызша, топтық және жеке формаларды біріктіре алады.

Кезең Тапсырма түрі Өлшем
1  рейтинг Лабораторная работа 1 0-100
Лабораторная работа 2
Лабораторная работа 3
Лабораторная работа 4
2  рейтинг Лабораторная работа 5 0-100
Лабораторная работа 6
Лабораторная работа 7
Лабораторная работа 8
Қорытынды бақылау емтихан 0-100
Жұмыс түрлері бойынша оқыту нәтижелерін бағалау саясаты
Тапсырма түрі 90-100 70-89 50-69 0-49
Өте жақсы Жақсы Қанағаттанарлық Қанағаттанарлықсыз
Бағалау нысаны

Пән бойынша білім алушының білімін қорытынды бағалау 100 баллдық жүйе бойынша жүзеге асырылады және:

  • Емтиханда алынған нәтиженің 40%;
  • Ағымдағы үлгерімнің 60% - ы.

Қорытынды бағаны есептеу формуласы:

И= 0,6 Р12 +0,4Э
2

 

мұндағы, Р1, Р2-тиісінше бірінші, екінші рейтингті бағалаудың сандық эквиваленттері;

Э - емтихандағы бағаның сандық баламасы.

Қортынды әріптік бағасы және оның балдық сандық эквиваленті:

Төрт балдық жүйе бойынша цифрлық баламаға сәйкес келетін білім алушылардың оқу жетістіктерін бағалаудың әріптік жүйесі:

Әріптік жүйе бойынша бағалар Балдардың сандық эквиваленті Балдар (%-тік құрамы) Дәстүрлі жүйе бойынша бағалар
A 4.0 95-100 Өте жақсы
A- 3.67 90-94
B+ 3.33 85-89 Жақсы
B 3.0 80-84
B- 2.67 75-79
C+ 2.33 70-74
C 2.0 65-69 Қанағаттанарлық
C- 1.67 60-64
D+ 1.33 55-59
D 1.0 50-54
FX 0.5 25-49 Қанағаттанарлықсыз
F 0 0-24
Дәріс сабақтарының тақырыптары
  • Знакомство с технологией NLP
  • Методы предварительной обработки текста
  • Определение частей речи в NLP
  • Частота терминов и взвешивание
  • Методы векторного представления слов в NLP
  • Извлечение признаков на основе n-грамм
  • Методы снижения размерности признакового пространства
  • Анализ настроения с помощью логистической регрессии
  • Анализ тональности текстов с использованием наивного байесовского классификатора
  • Меры сходства и уменьшение размерности в NLP: Евклидово расстояние, Косинусное сходство и PCA
  • Разметка частей речи
  • Архитектура модели CBOW
  • Нейронные сети и рекуррентные модели в обработке текста
Негізгі әдебиет
  • Sunil Patel. Getting Started with Deep Learning for Natural Language Processing, BPB PUBLICATIONS, ISBN: 978-93-89898-11-8, 2021.
  • Ekaterina Kochmar. Getting Started with Natural Language Processing, Manning Publications Co., ISBN: 9781617296765, 2022
  • Материалы https://www.deeplearning.ai/
  • Francesco Mosconi. Zero to Deep Learning, 2019
  • Hobson Lane. Natural Language Processing in Action. 2020
Қосымша әдебиеттер
  • Thushan Ganegedara. Natural Language Processing with TensorFlow, ISBN 978-1-83864-135-1, 2022