podcast

#74 Как работает Search Engine под капотом: ранжирование и релевантность | Рауф Алиев

15.02.2026
Listen to the episode on your favorite platforms:
  • Apple Podcasts
  • Yandex Music
  • Youtube
  • Spotify
  • Castbox
  • Pocket Casts
  • ВКонтакте
  • Overcast
  • Castro
  • RadioPublic

Сегодня у меня в гостях Рауф Алиев — человек, который варится в поиске уже четверть века. Он начинал с самописного inverted index в начале 2000-х, когда всё приходилось изобретать руками, и дошёл до современных гибридных систем — с векторным поиском, трансформерами и рекомендациями поверх всего этого.

Мы обсудили, как вообще устроен полнотекстовый поиск: что такое inverted index на практике, зачем нужен BM25, почему важно учитывать длину документа, что дают proximity и exact match. Отдельно разобрали, почему фасеты — это не совсем «поиск», как работают стемминг и лемматизация, зачем иногда хранить и нормализованный, и оригинальный текст, и почему работа с разными языками — это отдельная инженерная боль.

Потом ушли в гибридные модели: как смешиваются ключевые слова, query expansion, синонимы и векторные представления. Поговорили о том, почему векторный поиск лучше понимает смысл, но хуже объясняет свои решения, и как LLM можно использовать не для болтовни в чате, а как инструмент, который превращает человеческий запрос в понятные системе фильтры.

Ну и, конечно, обсудили качество. Что такое precision, recall, NDCG на практике, как собрать свой ground truth и как сравнивать конфигурации поиска без мучительных A/B-экспериментов на пользователях. И почему почти всегда, улучшая одну метрику, ты неизбежно просаживаешь другую — и с этим просто приходится жить.

Полезные ссылки:
https://testmysearch.com/my-books.html

Подписывайтесь на канал «Организованное программирование» в Telegram: https://ttttt.me/orgprog
– Список подкаст-платформ (Apple Podcast, Google Podcast, Spotify, Яндекс.Музыка и другие): https://podcast.ru/1734325321

🔹 Telegram-канал Организованного Программирования: https://t.me/orgprog
🔹Хекслет Клуб в Telegram https://t.me/HexletClubBot
🔹Курсы по программированию — начни учиться уже сегодня: https://ru.hexlet.io/courses

#программирование #разработка  #кириллмокевнин  #подкаст  #организованноепрограммирование #поисковыесистемы #invertedindex #векторныйпоиск

Как работает Search Engine под капотом: ранжирование и релевантность

  • () - Введение. Поиск сложнее, чем вы думаете - 25 лет опыта за 2 часа
  • () - От Сфинкса до Elastic: как менялся рынок поисковых систем
  • () - Теория или практика? Как правильно входить в сложные системы
  • () - Как SEO и маркетплейсы ломают алгоритмы
  • () - SEO началось с манипуляций: как PageRank всё изменил
  • () - Архив за 100 лет и гибридный поиск на практике
  • () - Гибридный поиск — будущее индустрии
  • () - Транслитерация и языковые ловушки
  • () - Как искать Go или C и не сломать поиск
  • () - LLM как ревизор поисковой системы
  • () - Локальные поисковики против Google
  • () - Китайский без пробелов и другие языковые боли
  • () - Заключение. Поиск — это компромисс между математикой и бизнесом
★ Support this podcast ★