Нейротехнологии и Искусственный интеллект (ИИ)/Обработка естественного языка

Материал из CDTOwiki
Перейти к: навигация, поиск

dt2i_ai_2.png Обработка естественного языка Отрасль искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком 200 Цифровые сквозные технологии Средняя Полезно IT/soft Да Инфраструктура и инструменты (раздел) Цифровые технологии (раздел) Производные понятия (раздел) Межотраслевое (раздел) Искусственный интеллект (раздел) Технологические решения (раздел) 4 Нейротехнологии и Искусственный интеллект (ИИ)/Обработка естественного языка

Обработка естественного языка
Отрасль искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком
Сегмент
IT/softIT/soft
Рекомендовано
ПолезноПолезно
Сложность
СредняяСредняя
Направление исследований
 

Обработка естественного языка (Natural Language Processing, NLP) опирается на многие дисциплины, включая информатику и компьютерную лингвистику, в своем стремлении заполнить пробел между человеческим общением и компьютерным пониманием.

Примеры разработчиков и решений в рамках суб-СЦТ «Обработка естественного языка»:

  • ABBYY — российская компания-разработчик решений в области распознавания текстов (OCR) и лингвистики. Наиболее известные продукты в данной области — система потокового ввода данных ABBYY FlexiCapture и анализа/понимания текста ABBYY Compreno;
  • Алиса — виртуальный голосовой помощник, созданный компанией «Яндекс». Алиса распознает естественную речь, имитирует живой диалог, дает ответы на вопросы пользователя и, благодаря запрограммированным навыкам, решает прикладные задачи;
  • DeepPavlov — библиотека диалогового ИИ, которая используется для обработки естественного языка и разработки сложных диалоговых систем. Команда проекта стала одной из десяти команд, отобранных для участия в соревновании Alexa Prize Socialbot Grand Challenge 3, многомиллионном университетском конкурсе по улучшению взаимодействия между человеком и компьютером.

Эволюция обработки естественного языка

Хотя обработка естественного языка не является новой наукой, технология быстро развивается благодаря возросшему интересу к коммуникациям между людьми, а также доступности больших данных, мощных вычислений и улучшенных алгоритмов.

Как человек, вы можете говорить и писать на английском, испанском или китайском языках. Но родной язык компьютера - известный как машинный код или машинный язык - в значительной степени непостижим для большинства людей. На самых низких уровнях вашего устройства общение происходит не со словами, а через миллионы нулей и единиц, которые производят логические действия.

Действительно, программисты использовали перфокарты для связи с первыми компьютерами 70 лет назад. Этот ручной и трудный процесс был понят относительно небольшим количеством людей. Теперь вы можете сказать: «Алекса, мне нравится эта песня», и устройство, воспроизводящее музыку в вашем доме, снизит громкость и ответит: «ОК. Рейтинг сохранен », - по-человечески. Затем он адаптирует свой алгоритм для воспроизведения этой песни - и других подобных ей - при следующем прослушивании этой музыкальной станции.

Давайте внимательнее посмотрим на это взаимодействие. Ваше устройство активировалось, когда оно услышало, что вы говорите, поняло невысказанное намерение в комментарии, выполнило действие и предоставило обратную связь в правильно сформированном английском предложении, и все это за пять секунд. Полное взаимодействие стало возможным благодаря NLP, наряду с другими элементами ИИ, такими как машинное обучение и глубокое обучение.

Почему это важно?

Большие объемы текстовых данных

Обработка естественного языка помогает компьютерам общаться с людьми на их родном языке и масштабировать другие языковые задачи. Например, NLP позволяет компьютерам читать текст, слышать речь, интерпретировать его, измерять настроения и определять, какие части важны.

Современные машины могут анализировать больше языковых данных, чем люди, без усталости и последовательным, непредвзятым образом. Учитывая огромное количество неструктурированных данных, которые генерируются каждый день, от медицинских карт до социальных сетей, автоматизация будет иметь решающее значение для эффективного анализа текстовых и речевых данных.

Структурирование крайне неструктурированного источника данных

Человеческий язык поразительно сложен и разнообразен. Мы выражаем свои мысли как устно, так и письменно. Существуют не только сотни языков и диалектов, но в каждом языке есть уникальный набор грамматических и синтаксических правил, терминов и сленга. Когда мы пишем, мы часто неправильно пишем или сокращаем слова, или пропускаем знаки препинания. Когда мы говорим, у нас есть региональные акценты, и мы бормочем, заикаемся и заимствуем термины из других языков.

Хотя контролируемое и неконтролируемое обучение, и особенно глубокое обучение, в настоящее время широко используются для моделирования человеческого языка, существует также необходимость в синтаксическом и семантическом понимании и экспертных знаниях в предметной области, которые необязательно присутствуют в этих подходах машинного обучения. NLP важен, потому что он помогает устранить неоднозначность в языке и добавляет полезную числовую структуру к данным для многих последующих приложений, таких как распознавание речи или анализ текста.

Обработка и анализ естественных языков

Дополнительные материалы

Дата последней редакции 27 мая 20202020/05/27