Нейротехнологии и Искусственный интеллект (ИИ)/Обработка естественного языка
Обработка естественного языка (Natural Language Processing, NLP) опирается на многие дисциплины, включая информатику и компьютерную лингвистику, в своем стремлении заполнить пробел между человеческим общением и компьютерным пониманием.
Примеры разработчиков и решений в рамках суб-СЦТ «Обработка естественного языка»:
- ABBYY — российская компания-разработчик решений в области распознавания текстов (OCR) и лингвистики. Наиболее известные продукты в данной области — система потокового ввода данных ABBYY FlexiCapture и анализа/понимания текста ABBYY Compreno;
- Алиса — виртуальный голосовой помощник, созданный компанией «Яндекс». Алиса распознает естественную речь, имитирует живой диалог, дает ответы на вопросы пользователя и, благодаря запрограммированным навыкам, решает прикладные задачи;
- DeepPavlov — библиотека диалогового ИИ, которая используется для обработки естественного языка и разработки сложных диалоговых систем. Команда проекта стала одной из десяти команд, отобранных для участия в соревновании Alexa Prize Socialbot Grand Challenge 3, многомиллионном университетском конкурсе по улучшению взаимодействия между человеком и компьютером.
Содержание
Эволюция обработки естественного языка
Хотя обработка естественного языка не является новой наукой, технология быстро развивается благодаря возросшему интересу к коммуникациям между людьми, а также доступности больших данных, мощных вычислений и улучшенных алгоритмов.
Как человек, вы можете говорить и писать на английском, испанском или китайском языках. Но родной язык компьютера - известный как машинный код или машинный язык - в значительной степени непостижим для большинства людей. На самых низких уровнях вашего устройства общение происходит не со словами, а через миллионы нулей и единиц, которые производят логические действия.
Действительно, программисты использовали перфокарты для связи с первыми компьютерами 70 лет назад. Этот ручной и трудный процесс был понят относительно небольшим количеством людей. Теперь вы можете сказать: «Алекса, мне нравится эта песня», и устройство, воспроизводящее музыку в вашем доме, снизит громкость и ответит: «ОК. Рейтинг сохранен », - по-человечески. Затем он адаптирует свой алгоритм для воспроизведения этой песни - и других подобных ей - при следующем прослушивании этой музыкальной станции.
Давайте внимательнее посмотрим на это взаимодействие. Ваше устройство активировалось, когда оно услышало, что вы говорите, поняло невысказанное намерение в комментарии, выполнило действие и предоставило обратную связь в правильно сформированном английском предложении, и все это за пять секунд. Полное взаимодействие стало возможным благодаря NLP, наряду с другими элементами ИИ, такими как машинное обучение и глубокое обучение.
Почему это важно?
Большие объемы текстовых данных
Обработка естественного языка помогает компьютерам общаться с людьми на их родном языке и масштабировать другие языковые задачи. Например, NLP позволяет компьютерам читать текст, слышать речь, интерпретировать его, измерять настроения и определять, какие части важны.
Современные машины могут анализировать больше языковых данных, чем люди, без усталости и последовательным, непредвзятым образом. Учитывая огромное количество неструктурированных данных, которые генерируются каждый день, от медицинских карт до социальных сетей, автоматизация будет иметь решающее значение для эффективного анализа текстовых и речевых данных.
Структурирование крайне неструктурированного источника данных
Человеческий язык поразительно сложен и разнообразен. Мы выражаем свои мысли как устно, так и письменно. Существуют не только сотни языков и диалектов, но в каждом языке есть уникальный набор грамматических и синтаксических правил, терминов и сленга. Когда мы пишем, мы часто неправильно пишем или сокращаем слова, или пропускаем знаки препинания. Когда мы говорим, у нас есть региональные акценты, и мы бормочем, заикаемся и заимствуем термины из других языков.
Хотя контролируемое и неконтролируемое обучение, и особенно глубокое обучение, в настоящее время широко используются для моделирования человеческого языка, существует также необходимость в синтаксическом и семантическом понимании и экспертных знаниях в предметной области, которые необязательно присутствуют в этих подходах машинного обучения. NLP важен, потому что он помогает устранить неоднозначность в языке и добавляет полезную числовую структуру к данным для многих последующих приложений, таких как распознавание речи или анализ текста.