Анализ корпуса интернет-текстов показал, что искусственный интеллект воспринимает не только формальную структуру языка, но и языковые стереотипы.
Принято считать, что искусственный интеллект решает задачи и делает выводы гораздо более рационально, чем человек. Компьютеры обрабатывают огромные объемы информации, их алгоритмы созданы по строгим законам логики и неподвластны эмоциям. Во многих сферах это действительно приносит результаты. Например, суперкомпьютер IBM Watson, основываясь на анализе медицинской литературы, верно поставил диагноз 90% больных раком легких, а врачи-люди во время теста справились с этим лишь в 50% случаев.
Однако новые исследования показывают, что и искусственный интеллект не застрахован от «человеческих» ошибок и стереотипов. Причина в том, что многие материалы, с помощью которых ИИ обучается, созданы людьми. Например, «учителями» искусственного интеллекта могут стать обычные пользователи Интернета.
Для чего это нужно? Одна из важнейших задач, стоящих перед системами искусственного интеллекта, заключается в том, чтобы компьютер мог воспринимать команды не только на формальных языках (таких как языки программирования), но и на естественном языке – на таком, с помощью которого люди общаются между собой. Это поможет усовершенствовать машинный перевод, работу поисковых систем, автоматическую генерацию текстов и многое другое. Для обучения систем искусственного интеллекта компьютерная лингвистика использует корпусы текстов – большие массивы текстов, подобранных и обработанных по определенным правилам. Интернет – один из самых доступных источников «живого» языка. Поэтому лингвисты активно пользуются интернет-корпусами, в которые включены тексты социальных сетей, блогов, новостных ресурсов.
Авторы нового исследования, опубликованного в журнале Science, предположили, что искусственный интеллект не только усваивает структуру естественного языка, но и перенимает особенности семантики, исторически закрепившиеся в языке. Ученые использовали алгоритм самообучения GloVe, работающий подобно тесту подсознательных ассоциаций (implicit-association test). GloVe составляет статистику ассоциативно связанных друг с другом слов: чем чаще два слова встречаются в текстах на сравнительно небольшом расстоянии друг от друга, тем чаще они ассоциируются между собой. Алгоритм проанализировал корпус интернет-текстов из 840 млрд слов.
Названия цветов (роза, маргаритка) оказались связаны с положительными понятиями (ласка, любовь), а названия насекомых – с отрицательными (грязь, уродливый). Следующие выводы были не такими безобидными. Совместив корпус с базой имен, часто встречающихся у американцев европейского или африканского происхождения, ИИ выявил: европейцев обычно ассоциируют с такими понятиями, как «семья», «друг», «счастливый», а афроамериканцев – со словами «бедность», «тюрьма», «убийство». Также выяснилось, что мужские имена чаще ассоциируются с понятиями из области карьеры (профессиональный, зарплата), а женские – с семейными (материнство, свадьба).
Исследователи показали, что системы искусственного интеллекта не просто фиксируют стереотипы, но и используют их в материалах, которые составлены самим ИИ. Например, Google Translate переводит турецкое гендерно нейтральное местоимение «о» в зависимости от профессии: «o bir doktor» – «он врач», но «o bir hemsire» – «она медсестра».
Недавно была создана система искусственного интеллекта, использующая стратегию эволюции. Этот подход позволил быстрее решать задачи, связанные с обучением нейронных сетей.
Источник: naked-science.ru