
ForgetMe
Автор телеграм и ютуб канала о нейросетях. Увлекаюсь ИИ уже больше 2-х лет (ещё до того, как это стало мейнстримом). Я - 18-летний студент вуза в России. Я делюсь своими знаниями о нейросетях, объясняя как их использовать и на что они способны.
Мои Проекты

ForgetGPT
Совершенно бесплатный бот с ChatGPT и другими нейросетями. Он работает уже больше года. Там можно бесплатно использовать разные нейросети, включая языковые модели (GPT4o, o1-mini, Claude, Gemini, Llama) и модели для генерации изображений (DALL-E, Flux). Также поддерживается веб-поиск.
Попробовать
ForgetAPI
Мой собственный API сервис, предоставляющий доступ к множеству топовых нейросетей, включая все те, что доступны в ForgetGPT, а также поисковые системы на основе ИИ (Perplexity, SearchGPT) и языковые модели (GPT, o1, Gemini, Claude, Llama и т.д.). Для более подробной информации напишите мне в телеграм.
ПодробнееО ForgetBench
Мониторинг ИИ
Отслеживание и анализ производительности различных языковых моделей с использованием системы рейтинга ELO.
Объективность
Беспристрастное сравнение моделей на основе различных метрик и бенчмарков.
Аналитика
Детальный анализ возможностей, производительности и особенностей каждой модели.
Языковые модели
0
Количество моделей в базе данных
Бенчмарки
0
Уникальных тестов производительности
Провайдеры
0
Компаний-разработчиков
Средний рейтинг
0
Средний рейтинг всех моделей
Всего тестов
0
Общее количество пройденных тестов
Средний возраст
0 мес
Средний возраст моделей в месяцах
Система Рейтинга ForgetBench
Наша система рейтинга создана для того, чтобы сравнивать различные языковые модели (LLM) на основе их производительности в различных задачах. Она использует модифицированную версию алгоритма ELO, который обычно используется для оценки уровня мастерства игроков в шахматах и других играх.
Базовая Идея
- Каждая модель начинает с базового рейтинга
- Модели сравниваются через бенчмарки
- Рейтинг корректируется после каждого сравнения
- Учитывается временной бонус (до 10% за год)
Модификаторы K-фактора
- Уверенность в результатах (0-1)
- Вес бенчмарка (0.5-1.5)
- Время на рынке (до +20%)
- Разнообразие тестов (до +10%)
- Надежность результатов (0-1)
Учитываемые факторы
Бенчмарки
- • Вес (базовый множитель)
- • Популярность
- • Сложность
- • Надежность
Метрики
- • Разнообразие тестов
- • Надежность результатов
- • Уверенность в оценке
- • Время на рынке
Система сортировки
Приоритеты
- • Надёжность (>30% разницы)
- • Уверенность (>30% разницы)
- • Разнообразие (>40% разницы)
- • Финальный скоринг
Финальный скоринг
- • Базовый рейтинг
- • Временной бонус (10%)
- • Уверенность (40%)
- • Надёжность (30%)
- • Разнообразие (30%)
Как происходит сравнение моделей:
1. Сбор результатов
- •Модели проходят одинаковые бенчмарки
- •Результаты нормализуются в диапазоне 0-1
- •Учитывается сложность и надежность каждого теста
2. Расчет ожидаемого результата
- •На основе текущих рейтингов моделей
- •С учетом времени на рынке (до +10% за год)
- •Пример: модель с рейтингом 1200 vs 1000 → ожидается победа первой
3. Сравнение результатов
- •Фактический результат сравнивается с ожидаемым
- •Разница менее 1% считается "ничьей"
- •Неожиданные результаты дают больше очков
4. Корректировка рейтингов
- •Применяются все модификаторы K-фактора
- •При ничьей влияние уменьшается на 50%
- •Победитель получает очки, проигравший теряет
Пример полного сравнения:
Исходные данные:
- Модель A: рейтинг 1200, 6 месяцев на рынке
- Модель B: рейтинг 1000, 2 месяца на рынке
- Бенчмарк: вес 1.2, надежность 0.9
Процесс:
- Ожидаемый результат: победа модели A с вероятностью 75%
- Временной бонус: +3.3% (разница 4 месяца)
- Если модель B побеждает → получает больше очков за неожиданный результат
- Финальное изменение рейтинга учитывает все модификаторы