Что такое базовая модель?
Базовые модели (FM), обученные на огромных наборах данных, представляют собой крупные нейронные сети с глубоким обучением, которые изменили подход специалистов по работе с данными к машинному обучению (ML). Вместо того чтобы разрабатывать искусственный интеллект с нуля, специалисты по работе с данными используют базовую модель в качестве отправной точки для разработки моделей машинного обучения, позволяющих быстрее и экономичнее осваивать новые сферы применения. Термин «базовая модель» был придуман исследователями для описания моделей ML, обученных на широком спектре обобщенных и немаркированных данных и способных выполнять широкий спектр общих задач, таких как понимание языка, генерирование текста и изображений и общение на естественном языке.
В чем уникальность базовых моделей?
Уникальной особенностью базовых моделей является их адаптируемость. Эти модели могут выполнять широкий спектр разрозненных задач с высокой степенью точности на основе подсказок по вводу. Некоторые задачи включают обработку естественного языка (NLP), ответы на вопросы и классификацию изображений. Размер и универсальный характер FM отличают их от традиционных моделей машинного обучения, которые обычно выполняют определенные задачи, такие как анализ текста на предмет настроений, классификация изображений и прогнозирование тенденций.
Базовые модели можно использовать в качестве основных моделей для разработки более специализированных целевых приложений. Эти модели стали кульминацией более чем десятилетней работы, в результате которой они увеличились в размерах и стали сложнее.
Например, BERT, одна из первых двунаправленных базовых моделей, была выпущена в 2018 году. Она была обучен с использованием 340 миллионов параметров и набора обучающих данных объемом 16 ГБ. В 2023 году, всего пять лет спустя, OpenAI обучил GPT-4, используя 170 триллионов параметров и набор обучающих данных объемом 45 ГБ. Согласно OpenAI, вычислительная мощность, необходимая для создания базовых моделей, удваивалась каждые 3,4 месяца с 2012 года. Современные базовые модели, такие как большие языковые модели (LLM) Claude 2 и Llama 2, а также модель преобразования текста в изображение Stable Diffusion от Stability AI, могут выполнять ряд задач без дополнительной настройки в нескольких областях, таких как написание публикаций в блогах, создание изображений, решение математических задач, участие в диалоге и ответы на вопросы на основе документа.
Почему создание базовых моделей важно?
Базовые модели могут существенно изменить жизненный цикл машинного обучения. Хотя разработка базовой модели с нуля в настоящее время обходится в миллионы долларов, ее можно затем долго использовать. Специалистам по работе с данными быстрее и дешевле использовать предварительно обученные базовые модели для разработки новых приложений ML, а не обучать уникальные модели ML с нуля.
Одна из возможных сфер применения – автоматизация задач и процессов, особенно тех, которые требуют умения рассуждать. Вот несколько сфер применения для базовых моделей:
- Поддержка клиентов
- Языковые переводы
- Генерация контента
- Копирайтинг
- Классификация изображений
- Создание и редактирование изображений с высоким разрешением
- Извлечение документов
- Робототехника
- Здравоохранение
- Автономные транспортные средства
Как работают базовые модели?
Базовые модели – это форма генеративного искусственного интеллекта. Они генерируют выходные данные из одного или нескольких входов (подсказок) в виде инструкций на естественном языке. Модели основаны на сложных нейронных сетях, включая генеративно-состязательные сети (GAN), трансформеры и вариационные кодеры.
Хотя каждый тип сети функционирует по-разному, принципы, лежащие в основе их работы, схожи. Как правило, FM использует изученные закономерности и взаимосвязи для прогнозирования следующего элемента последовательности. Например, при создании изображения модель его анализирует и создает более резкую и четкую версию. Аналогично, в случае с текстом модель предсказывает следующее слово в текстовой строке на основе предыдущих слов и их контекста. Затем она выбирает следующее слово, используя методы вероятностного распределения.
В базовых моделях используется самоконтролируемое обучение для создания этикеток на основе входных данных. Это означает, что никто не проинструктировал или не обучил модель с помощью маркированных наборов данных для обучения. Эта функция отличает LLM от предыдущих архитектур машинного обучения, в которых используется обучение с наблюдением или без наблюдения.
На что способны базовые модели?
Базовые модели, даже если они прошли предварительное обучение, могут продолжать учиться на основе введенных данных или подсказок во время логических выводов. Это означает, что вы можете получить исчерпывающие результаты с помощью тщательно подобранных подсказок. Задачи, которые могут выполнять базовые модели, включают обработку языка, визуальное восприятие, генерацию кода и взаимодействие, ориентированное на человека.
Обработка языка
Эти модели обладают замечательными возможностями, они могут отвечать на вопросы на естественном языке и даже писать короткие сценарии или статьи в ответ на подсказки. Они также могут выполнять языковые переводы с помощью технологий NLP.
Визуальное понимание
Базовые модели демонстрируют отличные результаты в сфере машинного зрения, особенно в том, что касается идентификации изображений и физических объектов. Эти возможности могут найти применение в таких приложениях, как автономное вождение транспортных средств и робототехника. Другой возможностью является генерация изображений на основе введенного текста, а также редактирование фотографий и видео.
Генерация кода
Базовые модели могут генерировать компьютерный код на различных языках программирования на основе входных данных на естественном языке. Также можно использовать базовые модели для оценки и отладки кода. Узнайте больше о генерации кода на основе искусственного интеллекта.
Взаимодействие, ориентированное на человека
Модели генеративного искусственного интеллекта используют входные данные, полученные от человека, для изучения и улучшения прогнозов. Важной и иногда упускаемой из виду является способность этих моделей поддерживать процесс принятия решений человеком. Потенциальные области применения включают клиническую диагностику, системы поддержки принятия решений и аналитику.
Еще одна возможность – разработка новых приложений искусственного интеллекта путем точной настройки существующих базовых моделей.
Преобразование речи в текст
Поскольку базовые модели понимают язык, их можно использовать для задач преобразования речи в текст, таких как транскрипция и создание субтитров к видео на разных языках.
Каковы примеры базовых моделей?
Количество и размер базовых моделей на рынке растут быстрыми темпами. В настоящее время доступны десятки моделей. Вот список известных моделей тональных кремов, выпущенных с 2018 года.
BERT
Выпущенные в 2018 году двунаправленные кодеры на архитектуре трансформеров (BERT) стали одной из первых базовых моделей. BERT – это двунаправленная модель, которая анализирует контекст полной последовательности, а затем делает прогноз. Обучение проводилось на текстовом корпусе и в Википедии с использованием 3,3 миллиарда токенов (слов) и 340 миллионов параметров. BERT может отвечать на вопросы, прогнозировать предложения и переводить тексты.
GPT
Модель генеративного предварительно обученного трансформера (GPT) была разработана компанией OpenAI в 2018 году. В нем используется 12-уровневый декодер-трансформер с механизмом самоконтроля. Обучение было проведено на основе набора данных BookCorpus, содержащего более 11 000 бесплатных романов. Примечательной особенностью GPT-1 является возможность обучения с нуля.
GPT-2 выпущен в 2019 году. Компания OpenAI обучила его, используя 1,5 миллиарда параметров (по сравнению со 117 миллионами параметров, используемых в GPT-1). GPT-3 имеет 96-уровневую нейронную сеть и 175 миллиардов параметров и обучается с использованием набора данных Common Crawl объемом 500 миллиардов слов. Популярный чат-бот ChatGPT основан на GPT-3.5. А последняя версия GPT-4, выпущенная в конце 2022 года, успешно сдала Единый экзамен в адвокатуру, набрав 297 баллов (76 %).
Amazon Titan
Базовые модели Amazon Titan предварительно обучены работе с большими наборами данных, что делает их мощными моделями общего назначения. Их можно использовать как есть или настраивать в частном порядке с учетом специфических для компании данных для выполнения конкретной задачи без аннотирования больших объемов данных. Первоначально Titan будет предлагать две модели. Первая – это генеративная программа LLM для таких задач, как обобщение, генерация текста, классификация, открытые вопросы и ответы и извлечение информации. Вторая – это LLM для эмбеддингов, которая переводит входные текстовые данные, включая слова, фразы и большие блоки текста, в числовые представления (известные как эмбеддинги), содержащие семантическое значение текста. Хотя эта LLM не генерирует текст, она полезна для таких задач, как персонализация и поиск, поскольку при сравнении эмбеддингов модель дает более релевантные и контекстные ответы, чем сопоставление слов. Чтобы и впредь поддерживать передовые практики ответственного использования искусственного интеллекта, базовые модели Titan предназначены для обнаружения и удаления вредоносного контента в данных, отклонения неприемлемого контента при вводе данных пользователем и фильтрации выходных данных моделей, содержащих неприемлемый контент, такой как ненавистнические высказывания, ненормативная лексика и насилие.
AI21 Jurassic
Выпущенная в 2021 году модель Jurassic-1 представляет собой 76-уровневую авторегрессивную языковую модель со 178 миллиардами параметров. Jurassic-1 генерирует текст, похожий на написанный человеком, и решает сложные задачи. Его производительность сопоставима с производительностью GPT-3.
В марте 2023 года компания AI21 Labs выпустила модель Jurrassic-2, в которой улучшены соблюдение инструкций и языковые возможности.
Claude
Claude 3.5 Sonnet
Наиболее интеллектуальная и продвинутая модель компании Anthropic, Claude 3.5 Sonnet, демонстрирует исключительные возможности при выполнении разнообразных задач и оценок, а также превосходит Claude 3 Opus.
Claude 3 Opus
Opus – это высокоинтеллектуальная модель, демонстрирующая надежную производительность при выполнении сложных задач. Она может перемещаться по открытым подсказкам и невидимым сценариям с удивительной легкостью и пониманием, подобным человеческому. Используйте модель Opus для автоматизации задач и ускорения исследований и разработок в самых разных сценариях использования и отраслях.
Claude 3 Haiku
Haiku – самая быстрая и компактная модель компании Anthropic, обеспечивающая почти мгновенное реагирование. Haiku – лучший выбор для создания удобных систем искусственного интеллекта, имитирующих человеческое взаимодействие. Предприятия могут использовать Haiku для модерации контента, оптимизации управления запасами, быстрого и точного перевода, обобщения неструктурированных данных и многого другого.
Cohere
У компании Cohere есть две большие языковые модели: одна – генеративная модель, по возможностям аналогичная GPT-3, а другая – репрезентативная модель, предназначенная для понимания языков. Хотя Cohere имеет всего 52 миллиарда параметров, она во многих отношениях превосходит GPT-3.
Stable Diffusion
Stable Diffusion – это модель преобразования текста в изображение, которая позволяет создавать реалистичные изображения высокой четкости. Она была выпущена в 2022 году и имеет модель диффузии, в которой используются технологии создания и удаления шума, позволяющие научиться создавать изображения.
Эта модель меньше конкурирующих диффузионных технологий, таких как DALL-E 2, что означает, что она не требует обширной вычислительной инфраструктуры. Stable Diffusion будет работать на обычной видеокарте или даже на смартфоне с платформой Snapdragon Gen 2.
Узнать больше о Stable Diffusion »
BLOOM
BLOOM – многоязычная модель с архитектурой, аналогичной GPT-3. Она была разработана в 2022 году в результате совместных усилий более тысячи ученых и команды Hugging Space. Модель имеет 176 миллиардов параметров, а обучение заняло три с половиной месяца с использованием 384 графических процессоров Nvidia A100. Хотя контрольная точка BLOOM требует 330 ГБ хранилища, она будет работать на автономном ПК с 16 ГБ оперативной памяти. BLOOM может создавать текст на 46 языках и писать код на 13 языках программирования.
Hugging Face
Hugging Face – это платформа, которая предлагает инструменты с открытым исходным кодом для создания и развертывания моделей машинного обучения. Она выступает в роли центра сообщества, где разработчики могут делиться моделями и наборами данных и изучать их. Членство для физических лиц бесплатное, хотя при оформлении платной подписки предлагается более высокий уровень доступа. У вас есть публичный доступ к почти 200 000 моделей и 30 000 наборов данных.
В чем заключаются проблемы, связанные с базовыми моделями?
Базовые модели могут согласованно реагировать на запросы по предметам, которым они специально не обучались. Но у них есть определенные недостатки. Вот некоторые из проблем, с которыми сталкиваются базовые модели:
- Требования к инфраструктуре. Создание базовой модели с нуля обходится дорого и требует огромных ресурсов, а обучение может занять несколько месяцев.
- Разработка пользовательского интерфейса. Для практического применения разработчикам необходимо интегрировать базовые модели в программный стек, включая инструменты для быстрого проектирования, точной настройки и проектирования конвейера обработки запросов.
- Недостаток понимания. Хотя базовые модели могут давать грамматически и фактологически правильные ответы, им трудно понять контекст запроса. И они не осведомлены ни в социальном, ни в психологическом плане.
- Ненадежные ответы. Ответы на вопросы по определенным темам могут быть ненадежными, а иногда и неуместными, токсичными или неправильными.
- Предвзятость. Предвзятость вполне возможна, поскольку модели могут улавливать ненавистнические высказывания и неуместный оттенок из наборов учебных данных. Чтобы избежать этого, разработчикам следует тщательно фильтровать обучающие данные и кодировать в своих моделях определенные нормы.
Как AWS может помочь?
Amazon Bedrock – самый простой способ создавать и масштабировать приложения с генеративным искусственным интеллектом на базовых моделях. Amazon Bedrock – это полностью управляемый сервис, который делает базовые модели Amazon и ведущих стартапов в сфере искусственного интеллекта доступными через API, благодаря чему вы можете выбрать модель, наиболее подходящую для вашего варианта использования, из различных FM. С помощью Bedrock вы можете ускорить разработку и развертывание масштабируемых, надежных и безопасных видов применения генеративного искусственного интеллекта без управления инфраструктурой.
Amazon SageMaker JumpStart – это центр машинного обучения, содержащий модели, алгоритмы и решения. Он предоставляет доступ к сотням базовых моделей, включая самые эффективные из общедоступных. Продолжается добавление новых базовых моделей, включая Llama 2, Falcon и Stable Diffusion XL 1.0.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.