Интеллектуальный анализ данных

Смаилова Сауле Сансызбаевна

*InstructorProfile(zh-CN)*

内容描述: Интеллектуальный анализ данных как междисциплинарная область объединяет методы из баз данных, статистики, машинного обучения и поиска информации. Курс знакомит с основными методами интеллектуального анализа данных, используемыми в настоящее время, включая хранилище данных и очистку данных, кластеризацию, классификацию, интеллектуальный анализ ассоциативных правил, текстовое индексирование и алгоритмы поиска,. Разработка алгоритмов для этих задач затруднена, потому что наборы входных данных очень большие, а задачи могут быть очень сложными. Одним из основных направлений в этой области является интеграция этих алгоритмов с реляционными базами данных и извлечение информации из полуструктурированных данных.

贷款数: 6

Пререквизиты:

  • Экспертные и интеллектуальные системы

*СomplexityDiscipline(zh-CN)*:

*TypesOfClasses(zh-CN)* *hours(zh-CN)*
*Lectures(zh-CN)* 15
*PracticalWork(zh-CN)*
*LaboratoryWork(zh-CN)* 30
*srop(zh-CN)* 45
*sro(zh-CN)* 90
*FormOfFinalControl(zh-CN)* экзамен
*FinalAssessment(zh-CN)*

零件: Компонент по выбору

循环次数: Базовые дисциплины

Цель
  • Цель курса: познакомить магистрантов с основными понятиями и методами интеллектуального анализа данных; развить навыки использования новейшего программного обеспечения интеллектуального анализа данных для решения практических задач, получить опыт самообучения и исследования
Задача
  • понимать алгоритмы и методы интеллектуального анализа данных
  • разрабатывать программы и приложения интеллектуального анализа данных
  • программировать, используя доступные инструменты интеллектуального анализа данных и языки общего назначения
  • понимать анализ, метрики, визуализацию и навигацию по результатам интеллектуального анализа данных
  • научиться использовать коммерческие инструменты интеллектуального анализа данных
Результат обучения: знание и понимание
  • объяснить основные принципы методов интеллектуального анализа данных
Результат обучения: применение знаний и пониманий
  • уметь выбирать эффективные методы решения прикладных задач с использованием технологии Data Mining в области бизнес-аналитики и исследований
  • проектировать модели интеллектуального анализа данных и базы данных, чтобы использовать технологии интеллектуального анализа данных как часть более крупных систем
Результат обучения: формирование суждений
  • умение формировать представление о нестандартных подходах к решению проблем и в поиске новых оригинальных идей и приемов проектирования с использованием технологии Data Mining в области бизнес-аналитики и исследований
Результат обучения: коммуникативные способности
  • умение читать и переводить литературу по IT, работать с программными приложениями в области майнинга с английским интерфейсом
Результат обучения: навыки обучения или способности к учебе
  • навыки получения новых знаний в области профессионального и дополнительного образования
*TeachingMethods(zh-CN)*

- Технология научно-исследовательской деятельности

- Технология учебно-научной деятельности

- Коммуникационные технологии (дискуссии, пресс-конференция, мозговой штурм, образовательные дебаты, и др.)

- Информационно-коммуникационные (в том числе дистанционные) технологии

*AssessmentKnowledge(zh-CN)*

Преподаватель проводит все виды работ текущего контроля и выводит соответствующую оценку текущей успеваемости обучающихся два раза в академический период. По результатам текущего контроля формируется рейтинг 1 и 2. Учебные достижения обучающегося оцениваются по 100-балльной шкале, итоговая оценка Р1 и Р2 выводится как средняя арифметическая из оценок текущей успеваемости. Оценка работы обучающегося в академическом периоде осуществляется преподавателем в соответствии с графиком сдачи заданий по дисциплине. Система контроля может сочетать письменные и устные, групповые и индивидуальные формы.

*Period2(zh-CN)* *TypeOfTask(zh-CN)* *Total(zh-CN)*
1  *Rating(zh-CN)* Assignment1 0-100
Assignment2
Assignment3
Midterm1
2  *Rating(zh-CN)* Assignment4 0-100
Assignment5
Assignment6
Midterm2
*TotalControl(zh-CN)* экзамен 0-100
*PolicyAssignmentTask(zh-CN)*
*TypeOfTask(zh-CN)* 90-100 70-89 50-69 0-49
Excellent *Grade4(zh-CN)* *Grade3(zh-CN)* *Grade2(zh-CN)*
*EvaluationForm(zh-CN)*

Итоговая оценка знаний обучающего по дисциплине осуществляется по 100 балльной системе и включает:

  • 40% результата, полученного на экзамене;
  • 60% результатов текущей успеваемости.

Формула подсчета итоговой оценки:

И= 0,6 Р12 +0,4Э
2

 

где, Р1, Р2 – цифровые эквиваленты оценок первого, второго рейтингов соответственно; Э – цифровой эквивалент оценки на экзамене.

Итоговая буквенная оценка и ее цифровой эквивалент в баллах:

Буквенная система оценки учебных достижений обучающихся, соответствующая цифровому эквиваленту по четырехбалльной системе:

Оценка по буквенной системе Цифровой эквивалент Баллы (%-ное содержание) Оценка по традиционной системе
A 4.0 95-100 Отлично
A- 3.67 90-94
B+ 3.33 85-89 Хорошо
B 3.0 80-84
B- 2.67 75-79
C+ 2.33 70-74
C 2.0 65-69 Удовлетворительно
C- 1.67 60-64
D+ 1.33 55-59
D 1.0 50-54
FX 0.5 25-49 Неудовлетворительно
F 0 0-24
Темы лекционных занятий
  • Введение и математические основы. KDD процесс и методология Многомерный взгляд на интеллектуальный анализ данных Краткая история интеллектуального анализа данных и общества интеллектуального анализа данных
  • Хранилище данных . Преимущества производительности хранилищ данных. Концепция многомерных данных.
  • Многомерная модель данных OLAP. Определение OLAP-систем. Концептуальный многомерный взгляд. Двенадцать правил Кодда. Тест FASMI. Архитектура OLAP-систем. MOLAP. ROLAP. HOLAP
  • Представление знаний Данные, информация, знания. Набор данных и их атрибуты. Измерение. Типы наборов данных. Форматы хранения данных. Базы данных. Классификация типов данных
  • Подготовка данных для извлечения знаний. Понимание данных. Очистка данных. Интеграция и преобразование данных. Сжатие данных. Дискретизация и построение иерархии понятий
  • Машинное обучение и классификация
  • Деревья решений Индукция дерева решений. Пример дерева решений. Задача классификации дерева решений
  • Нейронные сети Искусственные нейроны и нейронные сети. Процессы обучения. Математика нейронных сетей.
  • Основные понятия кластеризации Алгоритмы кластеризации
  • Ассоциативные правила. Алгоритм Apriori
  • Логистическая регрессия
  • Визуализация. Техники визуализации. Методы геометрических преобразований. Методы ориентированные на пиксели. Иерархические образы
  • Text Mining. Задачи Text Mining.
  • Этапы процесса интеллектуального анализа данных. Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM).
  • Data Mining и общество: вопросы конфиденциальности и безопасности. Будущие направления
Основная литература
  • Jiawei Han, Micheline Kamber, Jian Pei Data Mining: Concepts and Techniques 3rd Edition
  • Graham J.Williams Simeon J. Data Mining: Theory, Methodology, Techniques and Applications, Springer, Australia, 2007. P.140
Дополнительная литература
  • Sumathi S., Sivanandam S. Introduction to Data Mining and its Applications, Springer-Verlag Berlin Heidelberg 2006, P. 835