Читается в осеннем семестре на четвертом курсе бакалавриата ВШЭ и ВМК МГУ.
Преподаватель: к.ф.-м.н. Турдаков Денис Юрьевич
Спецкурс предназначен для студентов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.
Рассматриваемые темы:
- Задачи обработки текстов.
- Методы машинного обучения для обработки текстов.
- Статистические методы в обработки текстов. Поиск словосочетаний.
- Искусственные нейронные сети для обработки текстов.
- Векторные представления слов.
- Базовые задачи обработки текстов.
- Синтаксический анализ.
- Лексическая семантика.
- Машинный перевод.
- Языковые модели на основе нейронных сетей.
- Информационный поиск.
- Прикладные задачи обработки текстов.
- Кластеризация текстов. Тематическое моделирование.
Литература:
- Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Prentice Hall.
- Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.
- Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python. O’Reilly Media, 2009 (http://www.nltk.org/book)
- Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep learning. MIT Press. 2016
- ACL Anthology
Более подробную информацию по курсу можно получить здесь.