Читается в осеннем семестре на четвертом курсе бакалавриата ВШЭ и ВМК МГУ.

Преподаватель: к.ф.-м.н. Турдаков Денис Юрьевич

Спецкурс предназначен для студентов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.

Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.

Рассматриваемые темы:

  1. Задачи обработки текстов.
  2. Методы машинного обучения для обработки текстов.
  3.  Статистические методы в обработки текстов. Поиск словосочетаний.
  4. Искусственные нейронные сети для обработки текстов.
  5. Векторные представления слов.
  6. Базовые задачи обработки текстов.
  7. Синтаксический анализ.
  8. Лексическая семантика.
  9. Машинный перевод.
  10. Языковые модели на основе нейронных сетей.
  11. Информационный поиск.
  12. Прикладные задачи обработки текстов.
  13. Кластеризация текстов. Тематическое моделирование.

Литература:

  • Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Prentice Hall.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.
  • Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python. O’Reilly Media, 2009 (http://www.nltk.org/book)
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep learning. MIT Press. 2016
  • ACL Anthology

Более подробную информацию по курсу можно получить здесь.