Нейротехнологии и Искусственный интеллект (ИИ)/Обработка естественного языка

Обработка естественного языка

Отрасль искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком

Сегмент

IT/soft

Рекомендовано

Полезно

Сложность

Средняя

Направление исследований

Цифровые сквозные технологии

Основная статья

Нейротехнологии и Искусственный интеллект (ИИ)

Обработка естественного языка (Natural Language Processing, NLP) опирается на многие дисциплины, включая информатику и компьютерную лингвистику, в своем стремлении заполнить пробел между человеческим общением и компьютерным пониманием.

Примеры разработчиков и решений в рамках суб-СЦТ «Обработка естественного языка»:

ABBYY — российская компания-разработчик решений в области распознавания текстов (OCR) и лингвистики. Наиболее известные продукты в данной области — система потокового ввода данных ABBYY FlexiCapture и анализа/понимания текста ABBYY Compreno;
Алиса — виртуальный голосовой помощник, созданный компанией «Яндекс». Алиса распознает естественную речь, имитирует живой диалог, дает ответы на вопросы пользователя и, благодаря запрограммированным навыкам, решает прикладные задачи;
DeepPavlov — библиотека диалогового ИИ, которая используется для обработки естественного языка и разработки сложных диалоговых систем. Команда проекта стала одной из десяти команд, отобранных для участия в соревновании Alexa Prize Socialbot Grand Challenge 3, многомиллионном университетском конкурсе по улучшению взаимодействия между человеком и компьютером.

Источник: Дорожная карта

Эволюция обработки естественного языка

Хотя обработка естественного языка не является новой наукой, технология быстро развивается благодаря возросшему интересу к коммуникациям между людьми, а также доступности больших данных, мощных вычислений и улучшенных алгоритмов.

Как человек, вы можете говорить и писать на английском, испанском или китайском языках. Но родной язык компьютера - известный как машинный код или машинный язык - в значительной степени непостижим для большинства людей. На самых низких уровнях вашего устройства общение происходит не со словами, а через миллионы нулей и единиц, которые производят логические действия.

Действительно, программисты использовали перфокарты для связи с первыми компьютерами 70 лет назад. Этот ручной и трудный процесс был понят относительно небольшим количеством людей. Теперь вы можете сказать: «Алекса, мне нравится эта песня», и устройство, воспроизводящее музыку в вашем доме, снизит громкость и ответит: «ОК. Рейтинг сохранен », - по-человечески. Затем он адаптирует свой алгоритм для воспроизведения этой песни - и других подобных ей - при следующем прослушивании этой музыкальной станции.

Давайте внимательнее посмотрим на это взаимодействие. Ваше устройство активировалось, когда оно услышало, что вы говорите, поняло невысказанное намерение в комментарии, выполнило действие и предоставило обратную связь в правильно сформированном английском предложении, и все это за пять секунд. Полное взаимодействие стало возможным благодаря NLP, наряду с другими элементами ИИ, такими как машинное обучение и глубокое обучение.

Почему это важно?

Большие объемы текстовых данных

Обработка естественного языка помогает компьютерам общаться с людьми на их родном языке и масштабировать другие языковые задачи. Например, NLP позволяет компьютерам читать текст, слышать речь, интерпретировать его, измерять настроения и определять, какие части важны.

Современные машины могут анализировать больше языковых данных, чем люди, без усталости и последовательным, непредвзятым образом. Учитывая огромное количество неструктурированных данных, которые генерируются каждый день, от медицинских карт до социальных сетей, автоматизация будет иметь решающее значение для эффективного анализа текстовых и речевых данных.

Структурирование крайне неструктурированного источника данных

Человеческий язык поразительно сложен и разнообразен. Мы выражаем свои мысли как устно, так и письменно. Существуют не только сотни языков и диалектов, но в каждом языке есть уникальный набор грамматических и синтаксических правил, терминов и сленга. Когда мы пишем, мы часто неправильно пишем или сокращаем слова, или пропускаем знаки препинания. Когда мы говорим, у нас есть региональные акценты, и мы бормочем, заикаемся и заимствуем термины из других языков.

Хотя контролируемое и неконтролируемое обучение, и особенно глубокое обучение, в настоящее время широко используются для моделирования человеческого языка, существует также необходимость в синтаксическом и семантическом понимании и экспертных знаниях в предметной области, которые необязательно присутствуют в этих подходах машинного обучения. NLP важен, потому что он помогает устранить неоднозначность в языке и добавляет полезную числовую структуру к данным для многих последующих приложений, таких как распознавание речи или анализ текста.

Источник: Обработка естественного языка. SAS