ForgetMe

Автор телеграм и ютуб канала о нейросетях. Увлекаюсь ИИ уже больше 2-х лет (ещё до того, как это стало мейнстримом). Я - 18-летний студент вуза в России. Я делюсь своими знаниями о нейросетях, объясняя как их использовать и на что они способны.

Telegram Channel YouTube Связаться

Мои Проекты

ForgetGPT

Совершенно бесплатный бот с ChatGPT и другими нейросетями. Он работает уже больше года. Там можно бесплатно использовать разные нейросети, включая языковые модели (GPT4o, o1-mini, Claude, Gemini, Llama) и модели для генерации изображений (DALL-E, Flux). Также поддерживается веб-поиск.

Попробовать

ForgetAPI

Мой собственный API сервис, предоставляющий доступ к множеству топовых нейросетей, включая все те, что доступны в ForgetGPT, а также поисковые системы на основе ИИ (Perplexity, SearchGPT) и языковые модели (GPT, o1, Gemini, Claude, Llama и т.д.). Для более подробной информации напишите мне в телеграм.

Подробнее

О ForgetBench

Мониторинг ИИ

Отслеживание и анализ производительности различных языковых моделей с использованием системы рейтинга ELO.

Объективность

Беспристрастное сравнение моделей на основе различных метрик и бенчмарков.

Аналитика

Детальный анализ возможностей, производительности и особенностей каждой модели.

Языковые модели

Количество моделей в базе данных

Бенчмарки

Уникальных тестов производительности

Провайдеры

Компаний-разработчиков

Средний рейтинг

Средний рейтинг всех моделей

Всего тестов

Общее количество пройденных тестов

Средний возраст

0 мес

Средний возраст моделей в месяцах

Система Рейтинга ForgetBench

Наша система рейтинга создана для того, чтобы сравнивать различные языковые модели (LLM) на основе их производительности в различных задачах. Она использует модифицированную версию алгоритма ELO, который обычно используется для оценки уровня мастерства игроков в шахматах и других играх.

Базовая Идея

Каждая модель начинает с базового рейтинга
Модели сравниваются через бенчмарки
Рейтинг корректируется после каждого сравнения
Учитывается временной бонус (до 10% за год)

Модификаторы K-фактора

Уверенность в результатах (0-1)
Вес бенчмарка (0.5-1.5)
Время на рынке (до +20%)
Разнообразие тестов (до +10%)
Надежность результатов (0-1)

Учитываемые факторы

Бенчмарки

• Вес (базовый множитель)
• Популярность
• Сложность
• Надежность

Метрики

• Разнообразие тестов
• Надежность результатов
• Уверенность в оценке
• Время на рынке

Система сортировки

Приоритеты

• Надёжность (>30% разницы)
• Уверенность (>30% разницы)
• Разнообразие (>40% разницы)
• Финальный скоринг

Финальный скоринг

• Базовый рейтинг
• Временной бонус (10%)
• Уверенность (40%)
• Надёжность (30%)
• Разнообразие (30%)

Как происходит сравнение моделей:

1. Сбор результатов

•Модели проходят одинаковые бенчмарки
•Результаты нормализуются в диапазоне 0-1
•Учитывается сложность и надежность каждого теста

2. Расчет ожидаемого результата

•На основе текущих рейтингов моделей
•С учетом времени на рынке (до +10% за год)
•Пример: модель с рейтингом 1200 vs 1000 → ожидается победа первой

3. Сравнение результатов

•Фактический результат сравнивается с ожидаемым
•Разница менее 1% считается "ничьей"
•Неожиданные результаты дают больше очков

4. Корректировка рейтингов

•Применяются все модификаторы K-фактора
•При ничьей влияние уменьшается на 50%
•Победитель получает очки, проигравший теряет

Пример полного сравнения:

Исходные данные:

Модель A: рейтинг 1200, 6 месяцев на рынке
Модель B: рейтинг 1000, 2 месяца на рынке
Бенчмарк: вес 1.2, надежность 0.9

Процесс:

Ожидаемый результат: победа модели A с вероятностью 75%
Временной бонус: +3.3% (разница 4 месяца)
Если модель B побеждает → получает больше очков за неожиданный результат
Финальное изменение рейтинга учитывает все модификаторы

Изучить бенчмарки