ForgetMe Avatar

ForgetMe

Автор телеграм и ютуб канала о нейросетях. Увлекаюсь ИИ уже больше 2-х лет (ещё до того, как это стало мейнстримом). Я - 18-летний студент вуза в России. Я делюсь своими знаниями о нейросетях, объясняя как их использовать и на что они способны.

Мои Проекты

ForgetGPT Logo

ForgetGPT

Совершенно бесплатный бот с ChatGPT и другими нейросетями. Он работает уже больше года. Там можно бесплатно использовать разные нейросети, включая языковые модели (GPT4o, o1-mini, Claude, Gemini, Llama) и модели для генерации изображений (DALL-E, Flux). Также поддерживается веб-поиск.

Попробовать
ForgetAPI Logo

ForgetAPI

Мой собственный API сервис, предоставляющий доступ к множеству топовых нейросетей, включая все те, что доступны в ForgetGPT, а также поисковые системы на основе ИИ (Perplexity, SearchGPT) и языковые модели (GPT, o1, Gemini, Claude, Llama и т.д.). Для более подробной информации напишите мне в телеграм.

Подробнее

О ForgetBench

Мониторинг ИИ

Отслеживание и анализ производительности различных языковых моделей с использованием системы рейтинга ELO.

Объективность

Беспристрастное сравнение моделей на основе различных метрик и бенчмарков.

Аналитика

Детальный анализ возможностей, производительности и особенностей каждой модели.

Языковые модели

0

Количество моделей в базе данных

Бенчмарки

0

Уникальных тестов производительности

Провайдеры

0

Компаний-разработчиков

Средний рейтинг

0

Средний рейтинг всех моделей

Всего тестов

0

Общее количество пройденных тестов

Средний возраст

0 мес

Средний возраст моделей в месяцах

Система Рейтинга ForgetBench

Наша система рейтинга создана для того, чтобы сравнивать различные языковые модели (LLM) на основе их производительности в различных задачах. Она использует модифицированную версию алгоритма ELO, который обычно используется для оценки уровня мастерства игроков в шахматах и других играх.

Базовая Идея

  • Каждая модель начинает с базового рейтинга
  • Модели сравниваются через бенчмарки
  • Рейтинг корректируется после каждого сравнения
  • Учитывается временной бонус (до 10% за год)

Модификаторы K-фактора

  • Уверенность в результатах (0-1)
  • Вес бенчмарка (0.5-1.5)
  • Время на рынке (до +20%)
  • Разнообразие тестов (до +10%)
  • Надежность результатов (0-1)

Учитываемые факторы

Бенчмарки
  • • Вес (базовый множитель)
  • • Популярность
  • • Сложность
  • • Надежность
Метрики
  • • Разнообразие тестов
  • • Надежность результатов
  • • Уверенность в оценке
  • • Время на рынке

Система сортировки

Приоритеты
  • • Надёжность (>30% разницы)
  • • Уверенность (>30% разницы)
  • • Разнообразие (>40% разницы)
  • • Финальный скоринг
Финальный скоринг
  • • Базовый рейтинг
  • • Временной бонус (10%)
  • • Уверенность (40%)
  • • Надёжность (30%)
  • • Разнообразие (30%)

Как происходит сравнение моделей:

1. Сбор результатов
  • Модели проходят одинаковые бенчмарки
  • Результаты нормализуются в диапазоне 0-1
  • Учитывается сложность и надежность каждого теста
2. Расчет ожидаемого результата
  • На основе текущих рейтингов моделей
  • С учетом времени на рынке (до +10% за год)
  • Пример: модель с рейтингом 1200 vs 1000 → ожидается победа первой
3. Сравнение результатов
  • Фактический результат сравнивается с ожидаемым
  • Разница менее 1% считается "ничьей"
  • Неожиданные результаты дают больше очков
4. Корректировка рейтингов
  • Применяются все модификаторы K-фактора
  • При ничьей влияние уменьшается на 50%
  • Победитель получает очки, проигравший теряет
Пример полного сравнения:

Исходные данные:

  • Модель A: рейтинг 1200, 6 месяцев на рынке
  • Модель B: рейтинг 1000, 2 месяца на рынке
  • Бенчмарк: вес 1.2, надежность 0.9

Процесс:

  1. Ожидаемый результат: победа модели A с вероятностью 75%
  2. Временной бонус: +3.3% (разница 4 месяца)
  3. Если модель B побеждает → получает больше очков за неожиданный результат
  4. Финальное изменение рейтинга учитывает все модификаторы