SIAI Рекомендации по созданию Дружественного ИИ

      SIAI Рекомендации по созданию Дружественного ИИ.
      SIAI Guidelines on Friendly AI
      Version 1.0: June 14, 2001.
      Version 1.0.1: Dec 22, 2001.
      ©2001 by Singularity Institute for Artificial Intelligence, Inc.
      Comments: friendly@singinst.org
      Перевод: А.В.Турчин  avturchin@mail.ru

Предисловие

Принципы

Конструкция

Заключение

1: Предисловие

Термин «Дружественный ИИ» относится к созданию приносящих пользу людям и не наносящих им вреда систем Искусственного Интеллекта, которые способны создавать планы действий в реальном мире для достижения целей. Нынешние ИИ значительно слабее людей во всех своих способностях и не обладают возможностью значительно повредить или принести пользу людям. Но рост в области интеллектуальности ИИ – хотя и медленный по стандартам многих технологий – в астрономическое число раз более быстр, чем темп человеческой эволюции. Также есть мощные теоретические основания полагать, что темпы развития ИИ могут стать быстрее - в сравнении с человеческой культурной эволюцией. Эти основания включают в себя устойчивый экспоненциальный рост базовой компьютерной мощности, рекурсивное самоулучшение самомодифицирующихся ИИ и огромное превосходство скорости переключения транзисторов по сравнению с нейронами. Хотя многие сейчас считают сомнительным, может ли вообще быть достигнут настоящий ИИ, не говоря уже о том, сможет ли ИИ однажды превзойти человеческий способности – необходимость в предварительном планировании обусловлена сильными теоретическими обоснованиями этой возможности. «SIAI Рекомендации по созданию Дружественного ИИ» выработаны некоммерческой организацией Singularity Institute for Artificial Intelligence.

Наука о Искусственном Интеллекте только начинает сейчас изучать проблему Дружественного ИИ. В силу этого «Рекомендации» не представляют в данный момент академического консенсуса или индустриального стандарта. Скорее, исследования нашего Института в области Дружественного ИИ предназначены для того, чтобы стать точкой фокуса, вокруг которой будут происходить дебаты и сформируется консенсус. Дружественный ИИ является передовым рубежом исследований ИИ, равно как и проблемой общественной безопасности, и творческие усилия скорее должны быть направлены на решение задачи, а не на вопросы стандартизации, но есть определённая польза общественной безопасности от публичного обмена любыми конкретными предложениями по Дружественному ИИ.

Создание «Рекомендации» было инициировано теоретическим анализом Дружественного ИИ, из которого следовало, что чтобы создать Дружественный ИИ, необходимо смоделировать несколько определённых свойств человеческого мышления, включая определённые конструкторские приёмы и когнитивную архитектуру. Из нашего исследования следовало, что качества Дружественности должны быть внесены в систему на ранних этапах его создания для максимальной безопасности и для обеспечения будущей совместимости с последующими версиями. Более того, дебаты об опасностях и преимуществах ИИ и других продвинутых технологий стали возникать, с увеличивающейся частотой, в академических и общественных кругах; в силу этого, вопросом неотложной важности является вопрос о том, возможно ли строгое теоретическое доказательство реализуемости Дружественный ИИ. Предложение рекомендаций по безопасности ИИ является уникальной задачей, потому что проблема ИИ неразрывно связана с проблемой ИИ самого по себе. Создание Дружественного мышления требует создания мышления. В других технологиях, где обнаруживается потребность в рекомендациях по безопасности, эти рекомендации проще, более очевидны и менее противоречивы, чем технические и научные проблемы, стоящие на переднем крае этой области исследований.

Пример: Хотя биотехнологии сами по себе по-прежнему являются быстроразвивающейся наукой, рекомендации национального института здоровья по рекомбинантной ДНК (NIH Guidelines on Recombinant DNA) точно описывают многоуровневые риски и дают детальные, точные инструкции по обращению с каждой группой рисков. В силу этого, являясь обязательными только для федеральных спонсируемых программ, рекомендации NIH продолжают быть добровольно и универсально принимаемыми в биотехнологической индустрии.

Пример: Рекомендации по нанотехнологиями Института Предвидения (Foresight Guidelines on Nanotechnology) были созданы для обеспечения безопасности технологии, которая ещё не существует, и Институт Предвидения (Foresight Institute – возглавляемый Э.Дрекслером, человеком, который придумал нанотехнологии – прим.пер.) признаёт, что эти рекомендации являются, вероятно, только малым подмножеством необходимых рекомендаций, но в ретроспективе рекомендации Института производственные чертежи конструкции молекул (molecular blueprints) и особенно описания производящих устройств должны быть зашифрованы таким образом, чтобы любая ошибка в передачи данных между хранилищем памяти и производственным оборудованием приводила бы к рандомизации этих описаний.

Дружественный ИИ, наоборот, является задачей, которая лежит на передовых рубежах исследований по ИИ. В силу этого данные Рекомендации не предназначены для того, чтобы быть предложениями по будущей юридической регуляции. Сегодняшний уровень исследований ИИ таков, что было бы невозможно создать ИИ человеческого уровня, или хотя бы работоспособную теорию ИИ путём назначения группы экспертов. Группа экспертов не могла бы согласиться даже насчёт базовых принципов. Любой проект, достигший неких успехов в конструировании ИИ, демонстрировал исключительную глубину познаний предмета – гораздо большую, чем можно было бы ожидать от группы, выбранной по другому критерию. В силу этого было бы очень опасно убрать ответственность по реализации Дружественности, или хотя бы убрать ответственность по развитию базовой теории Дружественности с какого-либо ИИ проекта, который первым достигнет реального ИИ. Исходя из теперешнего состояния науки, просто невозможно созвать комитет по решению проблемы ИИ, а Дружественность – это фронтирная проблема в исследованиях ИИ, равно как проблема общественной безопасности.

Хотя отдельные проекты по созданию ИИ имеют разные теории и цели, они должны их осознавать. Будущие ИИ-проекты могут иметь своё собственное представление о Дружественном ИИ, но они так же должны осознавать ответственность в отношении того, что они должны иметь некую теорию Дружественного ИИ. Если определённый вид защиты принят большинством как хорошая идея, то некий ИИ-проект, который решит не применять эту защиту, должен принять намеренное и явно выраженное решение о том, что

эта защита неработоспособна, или небезопасна, или несовместима с их теорией Дружественного ИИ, или невозможна под их когнитивной архитектурой. Любой достаточно продвинутый ИИ-проект должен Осознавать проблемы Дружественности (Friendliness-aware). Такого осознания сейчас не существует. В данный момент это не так опасно, как это могло бы быть – отсутствие осознания проблем безопасности не приводит к немедленному кризису, как это будет при более развитой технологии. Почти все современные ИИ-проекты не являются «достаточно продвинутыми»; они не являются ни проектами ИИ для реального мира, ни их создаваемыми намеренно предшественниками. Для того ИИ, который не способен к самоулучшению, и не предназначен для того, чтобы стать самоулучшающимся, вероятно, не нужно применять данные «Рекомендации». Тот ИИ, который не обладает достаточной универсальной когнитивной архитектурой, не сможет выполнить эти Рекомендации. Но независимо от того, когда конкретные качества Дружественного ИИ станут востребованы, мы полагаем, что любой ИИ проект, который ставит в будущем цели достижения универсального интеллекта и самоулучшения в силу этого навлекает на себя ответственность за то, чтобы Осознавать проблему Дружественности.

Более подробную информацию см. в наших работах:

      Levels of Organization in General Intelligence
      What is Friendly AI? (introduction)
      Features of Friendly AI
      Creating Friendly AI

2: Принципы.

Теоретические основания для анализа Дружественного ИИ выведены из существующих теорий нормативного принятия решений и эволюционной психологии. Люди в настоящий момент являются единственным объектом изучения когнитивной науки – единственными интеллектуальными системами, которые до настоящего момента изучались – но современные теории о человеческом мышлении достаточно совершенны, чтобы можно было бы предпринять принципиальную попытку применить человеческие теории к другим типам мозга. Стало возможно связать результаты и побудительные мотивы и провести различие между мотивами, уникальными для людей, мотивами, довлеющими над всеми возможными умами и мотивами, наличие или отсутствие которых является только вопросом конструкции. К сожалению, люди в настоящий момент являются единственными исследователями когнитивной науки. Как люди, мы имеем встроенные, прошитые в нас предположения о других умах. Во времена наших предков все другие интеллектуальные создания были людьми, разделявшими нашу встроенную эмоциональную и когнитивную архитектуру. В силу этого мы адаптировались ожидать от других то, что «естественно» для нас; мы адаптировались ожидать человеческого поведения от любых умов, потому что люди были единственными умами, которые присутствовали в нашем прошлом.

Даже сегодня, люди – единственная форма разумной жизни, с которой мы сталкиваемся, что лишает нас видения перспективы. Наш опыт показывает, что антропоморфизм – неуместное приложение человеческих ожиданий или навыков описания людей к нечеловеческим умам – является единственным главным источником человеческих ошибок в анализе психологии ИИ и Дружественного ИИ особенно. Поскольку наши социальные инстинкты являются эмоциональными инстинктами, ошибки, связанные с антропоморфизмом, часто несут на себе эмоциональную нагрузку, что делает особенно трудным их устранение. Детальный анализ обычных проявлений антрпоморфизма находится за пределами данных «Рекомендаций»; см. «Создание Дружественного ИИ» и там главу «За пределами антропоморфизма».

После устранения антропоморфизма, задача создания «Дружественного ИИ» оказывается даже отдалённо не напоминающей задачу по обеспечению этического поведения возможно враждебного человека, и даже задачу инсталляции этического поведения в растущее человеческое дитя. Человеческие аналогии являются опасными, во-первых, потому что они впитали слишком много встроенной позитивной функциональности, и, во-вторых, потому что они предупреждают против негативных исходов, происходящих из человеческого поведения, которые, вероятно, не будут разделяться ИИ. Трюизмом в исследовании ИИ является то, что исследователи, будучи людьми, имеют тенденцию замечать те проблемы, которые трудны для людей и которые превышают уровень нашего осознанного внимания. Задачи, автоматически выполняемые нашими предсознательными системами, не достигают нашего осознанного внимания, даже если эти задачи очень сложны, или являются предпосылками для осознанного решения текущей задачи. Обычно эти предсознательные задачи достигают осознания исследователей ИИ только через многие годы попыток решения высокоуровневой задачи без решения в начале задачи низкоуровневого мышления, необходимой как предварительное условие. Когда текущей задачей мышления является моральное мышление, семантика человеческих моральных дискуссий отягощает проблему.

Первым классом ошибок является преувеличение объективности, которое приводит к тому, что программист воспринимает неавтоматическое поведение как «естественное» и «очевидное». Этот приводит к тому, что позитивная функциональность не применяется.

Второй класс ошибок – преувеличение произвольности, которое влияет на восприятие программистом коррекции ошибок, чувствительности к контексту и красоту конструкции. Это приводит к тому, что негативная функциональность не предотвращается. Вывод, к которому мы приходим в «Создании Дружественного ИИ», состоит в том, что Дружественность не является ни автоматической, ни произвольной. Это является предусловием для существования любых «Рекомендаций» - требуются усилия для создания Дружественной системы, и существуют ограничения относительно того, что может быть создано. Необходимо предпринять действия и возможно сделать ошибки. Но из этого не следует, что исследователи Дружественного ИИ должны не допустить ни одной ошибки или что они должны немедленно разрешить всю проблему. Фундаментальной проблемой ИИ является ИИ, который может, достигнув определённого порога способностей, приобретать сам по себе новые способности – либо посредством обучения в человеческом смысле слова или посредством самоулучшений Семени ИИ.

Задача создания Дружественного ИИ, который может обучиться Дружественности, является проблемой обретения Дружественности. Задача построения Дружественного ИИ, который хочет обучаться Дружественности, является проблемой структуры Дружественности. Проблемы содержания и обретения подобны другим проблемам в области ИИ – таким, как проблемы считывания, улучшения, корректирования навыков, способностей, компетенции, концепций и верований. Проблема структуры Дружественного ИИ является уникальной. Проблема обретения, вероятно, более сложная, чем структурная проблема, но решение проблемы обретения в общей форме является предусловием для создания ИИ, достаточно продвинутого, чтобы он мог приобрести Дружественность. Чем сильнее и умнее ИИ, тем больше требуется содержания (content), связанного с Дружественностью; однако и наоборот, более высокий уровень интеллекта может быть направлен на приобретение Дружественности – в той мере, в какой ИИ выберет приобрести Дружественность.

Срочность установки Дружественного содержания определяется временем, когда ИИ станет способен принимать решения в реальном мире, которые могут навредить или принести пользу людям. Срочность установки структуры Дружественности определяется временем возникновения способности ИИ сопротивляться человеческим манипуляциям, если ИИ не считает эти манипуляции желательными. Предполагая, что ИИ со структурной Дружественностью испытывает потребность в человеческом совете в ситуациях, где компетенция программиста в Дружественности превосходит таковую у ИИ, структурно правильный ИИ нуждается только в пороговом уровне Дружественности, чтобы знать, когда задать вопрос; это не является подлинной «компетентностью» по стандартам ИИ, но это вопрос безопасности. Поскольку ставки рисков, связанные с созданием новой формы интеллектуальных созданий, очень велики, нужно быть консервативным в оценке того, как много Дружественного содержания и структуры требуется в каждый данный момент времени. «Консервативный» в отношении Дружественного ИИ имеет противоположное значение, чем «консервативный» в отношении ИИ в целом; это означает установить верхние границы потенциала ИИ, а не нижние границы его текущих способностей.

Singularity Institute в настоящий момент различает два консервативных метода подготовки Дружественности. Первый метод – это «перенасыщение» Дружественностью, при котором в ИИ внедряется максимально возможное количество Дружественной структуры и содержания; как только ИИ становится могущим проявлять Дружественность, эти свойства запускаются. Второй метод состоит в продвижении стратегии "90/10" в отношении содержания Дружественности и метода «на шаг впереди» для структуры Дружественности.

Уже стало пословицей в программировании, что последние 10 процентов функциональности требуют 90 процентов усилий; таким образом, "90/10" относится к стратегии установки 90% Дружественности, которые потребуют 10% усилий. «Один шаг вперёд» означает, что расписание разработки будет поделено на стадии, где будет запланировано, что каждое данное свойство структурной Дружественности будет вводиться на один шаг вперёд перед тем моментом, когда оно должно понадобиться, исходя из самых консервативных предположений. (И снова: содержание понятия Дружественности потребуется, когда оно будет востребовано возможностью действовать в реальном мире; структура Дружественности потребуется, когда возникнет внутренняя способность ИИ к самомодификации или улучшению когнитивного содержания.)

Перенасыщение Дружественностью является самой безопасной стратегией, а также обеспечивает максимальную будущую совместимость путём применения специальных архитектурных элементов так рано, как это только возможно. В идеальном мире все проекты, стремящиеся к созданию достаточно продвинутого ИИ, будут подписываться под идеалом перенасыщенной Дружественности. 90/10 Дружественности будут тогда зарезервированы на те проекты, которые стремятся к созданию универсального интеллекта или самоулучшения ИИ, но без явно выраженной цели осуществлять планирование в реальном мире или достичь трансчеловечества. Практически, разница между перенасыщенной Дружественностью и 90/10-Дружественностью скорее похожа на разницу между некоммерческими и коммерческими проектами; или на разницу между хорошо финансируемыми и скудными в смысле денег проектами; или между проектами, которые сильно убеждены в необходимости Дружественного ИИ – и проектами, которые были убеждены в необходимости установить некий минимальный уровень Дружественности «на всякий случай». Однако мы придерживаемся мнения, что всё, что меньше, чем 90/10-Дружественность, должно, вероятно, не рассматриваться в качестве проектов, осознающих проблему Дружественности.

То, чего, в частности, следует избежать – это когнитивного эквивалента ошибки 2000 года; речь идёт о неком конструктивном требовании, реализовать которое можно элементарно, если сделать это заранее, но которое оказывается трудным и дорогим при реализации, если уже существует установленная масса исходного кода или когнитивного содержания. В силу этого современный ИИ проект, осознающий проблемы Дружественности, должен быть в курсе всех архитектурных особенностей, которые в настоящий момент предсказываются, но которые понадобятся позже – не важно, насколько позже.

На чём должны концентрироваться усилия исследователей Дружественного ИИ? Структура и приобретение Дружественности являются более необычными проблемами, чем содержание Дружественности. Структура и приобретение Дружественности находятся ближе к конкретике проектирования архитектуры и требуют информацию более точно определённого уровня сложности. (Ощутите разницу между ограниченным количеством сложности, описывающим эволюционно развившиеся механизмы памяти людей, и огромной сложностью всей информации, накопленной за всю жизнь.) Структура и приобретение Дружественности находятся ближе к уровню бессознательного мышления, и в силу этого менее заметны для поверхностного восприятия. Поэтому эти вопросы менее затронуты существующими исследованиями. Более того, Дружественная архитектура предоставляет возможности, необходимые для восстановления после программистских ошибок. Поскольку программистские ошибки практически неизбежны, демонстрация того, что пороговый уровень Дружественной архитектуры способен естественным образом справиться с большим количеством разнообразных ошибок, - является необходимым условием в теоретическом доказательстве того, что Дружественный ИИ реализуем. Чем устойчивее архитектура Дружественности, тем меньшая компетентность программиста должна быть постулирована для того, чтобы доказать практическую архитектуру Дружественности. По этой причине конкретные рекомендации данного текста фокусируются на архитектуре.

3: Конструкция.

Конкретные конструктивные рекомендации из этого текста являются высоко сконцентрированными обзорами качеств, приведённых в «Свойствах Дружественного ИИ», которые в свою очередь являются высоко сконцентрированными обзорами дискуссий из третьей секции книги «Создание Дружественного ИИ», а именно «Конструкция дружественных систем». Более подробно см. главу «Конструкция дружественных систем» в «Создание Дружественного ИИ».

1. Система целей, на вершине которой находится Дружественность. Дружественность не должна быть мыслью, возникающей задним числом или пристёгнутой «контрольной системой», которая отказывает в выполнении определённых действий. Дружественность должна быть единственной целью верхнего уровня (сверхцелью) в системе. Другие цели, такие как «самоулучшение», должна быть подцелями, желательность которых происходит из желательности Дружественности. Например, предсказывается, что самоулучшение приведёт к более эффективному ИИ в будущем, что, в случае, если будущий ИИ будет Дружественным, сделает возможным гораздо лучшее выполнение цели Дружественности. Дружественность не перекрывает своей властью другие цели; наоборот, желательность всех других целей происходит из Дружественности.

Это нечеловеческая система организации, но, как кажется, она включает в себя всё необходимые виды поведения. Если программист правильным образом воспринимает некое поведение в качестве необходимого и неопасного для существования и роста (Дружественного) ИИ, то тогда это поведение является, по сей причине, подцелью для Дружественности. Необходимость такого поведения может быть подкреплена подтверждением программиста этой связи с Дружественностью, даже если эта связь непонятна для раннего ИИ. Мы рекомендуем для проектов, озабоченных проблемой Дружественности, использовать систему целей с Дружественностью во главе для любых ИИ, которые имеют декларативную систему целей.

2. Чисто причинная система целей. «Причинной» система целей является в том случае, когда желательность является противоположностью предсказания; то есть, если действие A, исходя из предсказаний, должно привести к желательному состоянию Б, то тогда желательность Б распространяется и на А. В чисто причинной системе целей нет других источников желательности, и вся желательность «проистекает» из содержания сверхцели. Более того, желательность в чисто дружественной системе целей не сохраняется. Если желательность перетекает от Б к А, то продолжительность желательности А жёстко связана с продолжительностью желательности Б и продолжительности силы причинной связи между событиями А и Б. Таким образом, поведение, которое обычно является подцелью Дружественности, но которое имеет недружественные последствия в некотором конкретном случае, не будет выглядеть желательным в этом случае. В чисто причинной системе целей желательное поведение всегда идентично поведению, которое, согласно предсказаниям, приведёт к суперцели.

Мы рекомендуем всем проектам ИИ, озабоченным Дружественностью, использовать чисто причинную систему целей.

3. Вероятностное (probabilistic) содержание сверхцели. Если сверхцели точно определены и «верны по определению», то самомодифицирующийся ИИ может сопротивляться всем изменениям в сверхцелях. Например: если сверхцелью является достижение А, то тогда переключение сверхцели на достижение Б очевидно не является действием, которое служит А. Если, однако, сверхцель имеет «90% вероятность» того, чтобы быть А, и затем поступает новая информация, которая говорит, что на самом деле сверхцелью является Б, то тогда никакого конфликта не происходит. Возможность изменить сверхцель будет восприниматься ИИ как желательная, только если имеется неопределённость в текущих сверхцелях; эта возможность не может получить желательность ни из какого содержания сверхцели.

Мы рекомендуем всем проектам ИИ, озабоченным Дружественностью, использовать вероятностное содержание сверхцели для любой декларативной системы целей, способной к обучению, и мы рекомендуем, чтобы это свойство было введено, по крайней мере, за один шаг заранее до того момента, когда система станет способна к рефлексивному мышлению или самомодификации.

4. Обретение источников Дружественности. Растущий ИИ должен обрести когнитивную сложность (cognitive complexity), использованную людьми при принятии решений о Дружественности, так, чтобы ИИ мог моделировать, предвосхищать и, в конечном счёте, улучшать решения программистов-людей. Этот ИИ должен в первую очередь обрести когнитивную сложность, которая помечена в качестве «правильной» ("valid") - от людей-программистов или из собственного запаса когнитивной сложности ИИ в настоящий момент. То есть, этот ИИ должен приобретать только «хорошие» источники решений о Дружественности.

Мы рекомендуем всем проектам ИИ, озабоченным Дружественностью, применять архитектуру приобретения Дружественности по крайней мере за один шаг до того момента, когда система должна, согласно ожиданиям, приобрести интеллект, необходимый, чтобы начать делать реальные гипотезы об источниках Дружественности.

5. Причинная семантика правильности. (Causal validity semantics.) (Внимание: это очень сложная тема.) Причинная семантика правильности требует, чтобы ИИ моделировал причинностный процесс, который привёл к его возникновению и чтобы ИИ использовал имеющуюся у него когнитивную сложность (или помощь программиста), чтобы делать суждения о правильности или неправильности факторов в этом причиностном процессе. Содержание причинной правильности обеспечит когнитивные рабочие рамки для ИИ, чтобы он решил «как он должен был быть построен», чтобы воспринял ошибочность ненамеренных последствий программисткой архитектуры, чтобы определить очень глубокие ошибки со стороны программистов или чтобы воспринять в качестве желательных переход к новым видам архитектур Дружественности. Структура причинной правильности предоставляет концептуальную возможность увидеть в качестве желательных при некоторых условиях – изменения архитектуры, равно как и изменения содержания. Когнитивный процесс, запускающий эти позитивные перемены – это созданная ИИ причинностная модель его собственного создания программистами, в которой намерениям программистов приписаны значения причин, которые породили систему целей ИИ, и правильность содержания (и архитектуры) системы целей выводится из правильности намерений программистов и пропорционально им. Это позволяет ИИ видеть сдвиги в выражаемых программистами намерениях как, возможно, означающие желательность перемен в архитектуре системы целей, а не только содержания целей.

Мы рекомендуем всем проектам ИИ, озабоченным Дружественностью, применять причинную семантику правильности по крайней мере за один шаг до того момента, когда система достигнет универсальной интеллектуальности.

6. Предписания. Человеческие действия, и в частности, наш отказ предпринимать определённые действия, не всегда мотивируются непосредственно видимыми последствиями. Однако многие подобные цели могут быть переведены в логику нормативных целей - посредством ссылок на последствия, которые непосредственно не очевидны. Например, маленькая вероятность очень большой финансовой потери может служить предписанием против действий, которые несут краткосрочные выгоды. В тех случаях, когда краткосрочные выгоды становятся доступны для предсказания ИИ, до того как долгосрочные негативные последствия им поняты, или в других случаях, где негативные исходы могут быть неочевидны для ИИ, конструкторы должны предоставить утверждённую-программистом (programmer-affirmed) информацию о возможных последствиях. Обратите внимание, что это содержание относится к нормативной системе целей и не требует некого специального кодирования.

Эксперименты с предписаниями, вероятно, понадобятся в любом ИИ проекте, где действия ИИ могут иметь негативные последствия, не вполне понятные самому ИИ. Мы рекомендуем всем проектам ИИ, заинтересованным в Дружественности, упреждающие использование конкретных предписаний для предотвращения возможных негативных последствий.

7. Само-моделирование возможных аварий (failure) . Мысль может быть ошибочна; мысль «Х – зелёное» не имеет 100% байесовой связи с реальной степенью зелёности X. Тоже самое верно для утверждения «Х – желательно». Система целей может неправильно восприниматься по своим собственным стандартам нормативности; вероятностная система целей с рефлексией может представить возможность ошибки. Моделирование ошибочности позволяет данной версии ИИ и программисту скооперироваться против провалов в Дружественности в будущих ИИ-ах; то есть, нынешний ИИ будет воспринимать эту кооперацию в качестве желательной. Моделирование обычной ошибочности требует от ИИ проектов исследования интеллекта в целом. Мы рекомендуем ИИ проектам, заинтересованным в Дружественности, упреждающее использование моделирования ошибочности, при участии программиста, или утверждённое программистом знание об ошибочности – чтобы предотвратить негативнее исходы, связанные с неосознованием ошибочности, или чтобы обеспечить важные умозаключения и действия, основанные на само-моделировании ошибочности.

8. Контролируемое восхождение. Самоулучшающаяся система должна иметь «счётчик улучшений», который инкрементируется каждый раз, когда сделано ощутимое улучшение. Это позволяет детектировать ситуацию, когда улучшения начинают происходить со скоростью, гораздо большей, чем обычно. Измерив темп улучшений в нормальных условиях, программисты могут вывести некоторый безопасный уровень улучшений, при превышении которого система останавливается и выдаёт сообщение программистам и не продолжает до тех пор, пока не получит подтверждения.

В примитивной системе «контролируемое восхождение» может быть встроено программно, с помощью специально предназначенного кода. Поскольку это очень простая и недорогая мера предосторожности, она должна быть принята для любой рекурсивно самоулучшающейся, не важно, насколько примитивной, на общих основаниях. (Рекурсивное самоулучшение должно различаться с обучающимися системами, которые улучшаются, но не самоулучшаются.)

Для универсального интеллекта и самопонимающего ИИ, желательна подцель контролируемого восхождения, по причине наличия у них модели себя, в которой слишком много незавизированных улучшений могут привести к ошибкам в Дружественности. Цель контролируемого восхождения – не предотвратить «пробуждение» ИИ, но скорее обеспечить то, чтобы этот процесс происходил под человеческим контролем, и мог бы быть замедлен или остановлен для установки новых элементов Дружественности, если проект ещё не закончен. Контролируемое восхождения – это сугубо временная мера, которая жизнеспособна в качестве постоянной стратегии.

Мы рекомендуем применение программируемого контролируемого восхождения к любому рекурсивно улучшающемуся ИИ, в котором имеется явный способ измерения числа сделанных улучшений. Мы рекомендуем ИИ проектам, заинтересованным в Дружественности, ввести утверждённую программистами подцель контролируемого восхождения, как только это когнитивное содержание станет понятным самому ИИ.

4: Заключение.

Современный Интернет содержит объём сетевой вычислительной мощности, превосходящий большинство оценок вычислительной мощности одного человеческого мозга. ИИ всё ещё выглядит очень далёким, и это реальная дистанция, но эта дистанция скорее может состоять из софтвера, чем хардвера, а программные возможности могут улучшаться очень быстро. Поскольку Дружественный ИИ естественным образом означает невероятно мощную возможность создавать планы действий в реальном мире для достижения целей, нынешняя наука об ИИ была несклонна обсуждать эту тему вообще. Рассуждения о будущем ИИ были в основном зарезервированы за «популярными» работами. Попытки обсуждать экстремально звучащие сценарии в большинстве академических кругов – или даже осмеливаться проявить серьёзный интерес к предмету – ведут к потере статуса, в то время как другие учёные, стремящиеся продемонстрировать свою ограниченность и консерватизм, создают многоголосый, но однообразный хор критицизма. В обычной ситуации – это не проблема; это полезная часть научного процесса в обществе, которая противодействует стремлению индивидуумов концентрироваться на идеях, которые звучат эффектно и очаровывающее, в ущерб рациональному глобальному распределению усилий.

Дружественный ИИ – это определённо эффектная, и даже очаровывающая идея, но кажется вполне безопасным сказать, что Дружественный ИИ остался бы действительно важным и необходимым, даже если возможность действующего во внешнем мире ИИ окончательно утратит способность восхищать человеческую душу, и исследования станут настолько же скучными, как высшая математика. Так что в данном случае происходит сверхкомпенсация. Дружественный ИИ является важным, и должны быть использованы любые возможности продвинуть его теорию до того, как он станет доступным, вместо того чтобы говорить: «Это ещё рано» или «До ИИ ещё долго». Эти утверждения могут быть верны, но их истинность не доказуема. Как позиция, это просто неверный подход к вопросам общественной безопасности. Сказать, что рациональное распределение усилий провалилось – это равносильно тому, что бы сказать, что полезные усилия в области Дружественного ИИ могут быть предприняты в нынешнее время. Мы верим в возможность и желательность построения твердых теоретических обоснований будущего Дружественного ИИ до того, как Дружественный ИИ станет немедленно необходим, и что большая часть этой работы может быть результатом проводящихся в настоящий момент исследований.

Эти современные исследования не предпринимались ранее, потому что наука об ИИ противоположна детальной визуализации невероятных возможностей, хотя эти визуализации необходимы, чтобы понять, какие из современные исследования могут быть полезны. Это является законной темой исследований когнитивной науки, например: «Качественно разные модели поведения, порождаемые вероятностной (probabilistic) и не-вероятностной системой целей с рефлексией». Но чтобы понять ценность этих исследований – что имеет значение для Дружественного ИИ – требуется расширенное мышление о самоулучшающемся рефлексивном ИИ, то есть о технологии, которая не существует в настоящий момент.

Мы рекомендуем, чтобы Дружественный ИИ стал законной областью исследований в науке об ИИ. Следует приветствовать любой ИИ проект, встраивающий механизм Дружественности, за прогресс в области Дружественного ИИ и за создание хорошего прецедента в области безопасности, а не порицать его за присущий ему неконсерватизм.

Мы рекомендуем, чтобы любой ИИ проект, заявляющей в качестве будущей цели универсальный интеллект и самоулучшение, считал бы себя ответственным за осознание необходимости Дружественности. Поскольку Дружественный ИИ является одновременно и фронтиром научных исследований, и вопросом общественной безопасности, невозможно законодательно или централизовано регулировать конструирование Дружественного ИИ.

Мы рекомендуем, чтобы централизованно наложенные требования, если таковые будут, приняли бы форму обязательств проводить согласованную стратегию или отчитываться о предпринятых усилиях, а не обязательств применять конкретные механизмы. (Мы полагаем, что любая попытка формализовать ответственность является крайне преждевременной с учётом текущего уровня Дружественного ИИ, но в будущем это может измениться.) Мы подтверждаем рекомендации по конкретным механизмам, сделанные в разделе «Конструкция» данных Рекомендаций.

Мы рекомендуем, чтобы все желательные характеристики Дружественного ИИ были бы установлены так рано, как это только станет возможным. В случае невозможности сделать это, мы рекомендуем, чтобы всё простое содержание Дружественного ИИ было бы установлено как можно скорее, и чтобы все архитектурные приспособления вводились бы, по крайней мере, на одну стадию развития заранее от того момента, когда они кажутся необходимыми. В будущем, мы предвидим, что некоммерческие организации, такие как Сингулярити Институт, могут нанимать программистов Дружественности, которые бы затем предоставлялись, на основе частичной или полной занятости, тем ИИ проектам, которые бы требовалось понимание Дружественности, но у которых нет ресурсов или неадекватные ресурсы для реализации Дружественного ИИ.

Мы рекомендуем это в качестве важной меры общественной безопасности и законного использования филантропических или благотворительных ресурсов.

Мы рекомендуем, чтобы все ИИ проекты, которые имеют конкретный опыт в проблемах Дружественного ИИ, публиковали бы свои результаты, или настолько большую часть своих результатов, которая может быть опубликована без раскрытия торговых секретов. Не существует разумных преимуществ от утаивания Дружественного ИИ, которые бы перевесили пользу от делания этой информации публичной.

Мы рекомендуем, чтобы степень релевантности по отношению к проблеме Дружественного ИИ была бы признана в качестве законного обоснования важности какой-либо проблемы в когнитивной науке, и чтобы такие проблемы заранее исследовались как часть усилий по созданию теоретических обоснований Дружественного ИИ, до того, как они реально понадобятся.

Мы рекомендуем, чтобы теоретические усилия по расширению обоснований Дружественного ИИ концентрировались бы на проблемах архитектуры.

Примечание переводчика.

Термины, как я их понял:

«Содержание Дружественности» (content) – например, «любить всех людей», то есть описание.
«Структура Дружественности» - порядок, в котором ИИ настроен на то, чтобы обучаться Дружественности. Например, «прислушиваться к мнению своих программистов» или «следовать и духу и букве закона»
«Обретение Дружественности» (acquisition) – способность ИИ к приобретению качеств Дружественности. И затем сам процесс этого.

Рекламные ссылки:

Российское Трансгуманистическое Движение

1: Предисловие

2: Принципы.

3: Конструкция.

4: Заключение.

Примечание переводчика.