Как оценить поисковую систему?

Мне нравится Проверка ссылок W3C .

8
задан ire_and_curses 1 October 2009 в 23:46
поделиться

10 ответов

Обычно это делается путем создания тестового набора вопросов и затем оценки того, насколько хорошо ответ поиска отвечает на эти вопросы. В некоторых случаях ответы должны быть однозначными (если вы наберете slashdot в поисковой системе, вы ожидаете получить slashdot.org в качестве наиболее популярного), так что вы можете рассматривать их как класс сложных запросов с «правильными» ответами.

Большинство других запросов по своей сути субъективны. Чтобы свести к минимуму предвзятость, вам следует попросить нескольких пользователей попробовать вашу поисковую систему и оценить результаты для сравнения с оригиналом. Вот пример статьи по информатике, которая делает нечто подобное:

http://www.cs.uic.edu/~liub/searchEval/SearchEngineEvaluation.htm

Что касается конкретного сравнения алгоритмов, хотя и очевидно, то, что вы измеряете, зависит от того, что вам интересно знать. Например, вы можете сравнить эффективность вычислений, использования памяти, накладных расходов на сканирование или времени для возврата результатов. Если вы пытаетесь создать очень конкретное поведение, например, выполнять специализированный поиск (например, поиск литературы) по определенным параметрам, вам необходимо явно проверить это.

Эвристика релевантности также является полезной проверкой. Например, когда кто-то использует поисковые запросы, которые, вероятно, «связаны с программированием», склонны ли вы получать больше результатов от stackoverflow.com ? Были бы ваши результаты поиска лучше, если бы вы это сделали? Если вы предоставляете набор коэффициентов доверия для определенных сайтов или доменов (например, рейтинг .edu или .ac.uk доменов как более заслуживающих доверия с точки зрения технических результатов),

11
ответ дан 5 December 2019 в 05:56
поделиться

Чтобы что-то оценить, вы должны определить, что вы ожидаете от Это. Это поможет определить, как его измерить.
Тогда вы сможете измерить улучшение.

Что касается поисковой системы, я полагаю, что вы могли бы измерить ее способность находить вещи, ее точность в возврате того, что имеет значение.

Это интересная задача.

2
ответ дан 5 December 2019 в 05:56
поделиться

Вы должны четко определять положительные и отрицательные качества, например, как быстро человек получает ответ, который ищет, или сколько «неправильных» ответов он получает по пути. Будет ли улучшение, если правильный ответ - №5, но результаты возвращаются в 20 раз быстрее? Подобные вещи будут отличаться для каждого приложения. Правильный ответ может быть более важным при поиске в корпоративной базе знаний, но быстрый ответ может потребоваться для приложения поддержки по телефону.

Без параметров ни один тест не может считаться победой.

0
ответ дан 5 December 2019 в 05:56
поделиться

Я не думаю, что вы найдете окончательное математическое решение, если это ваша цель. Чтобы оценить данный алгоритм, вам необходимы стандарты и цели, которые должны быть достигнуты.

  • С чем вы хотите сравнивать?
  • Что вы классифицируете как «улучшенный»?
  • Что вы считаете «успешным поиском»?
  • Насколько велика ваша тестовая группа?
  • Что ваши тесты?

Например, если ваша цель - улучшить процесс ранжирования страниц, тогда решите, оцениваете ли вы эффективность алгоритма или точность. Оценка эффективности означает, что вы рассчитываете свой код для согласованного большого набора данных и записываете результаты. Затем вы должны работать со своим алгоритмом, чтобы улучшить время.

Если ваша цель - повысить точность, вам нужно определить, что является «неточным». Если вы выполните поиск по запросу «Кубок», вы можете сказать, что первый из представленных сайтов является «лучшим», если вы сами сможете точно определить, какой ответ является лучшим для «Кубок».

Я предлагаю вам сузить рамки вашего эксперимента . Определите одно или два качества поисковой системы, которые, по вашему мнению, нуждаются в улучшении, и работайте над их улучшением.

2
ответ дан 5 December 2019 в 05:56
поделиться

В комментариях вы сказали: «Я слышал о способе измерения качество поисковых систем путем подсчета того, сколько раз пользователю нужно щелкнуть кнопку «Назад», прежде чем найти нужную ссылку, но я могу использовать этот метод, потому что вам нужно, чтобы пользователи тестировали вашу поисковую систему, а это само по себе головная боль ». Что ж, если вы разместите свой движок в сети бесплатно на несколько дней и немного порекомендуете, вы, вероятно, получите как минимум пару десятков попыток. Предоставьте этим пользователям старую или новую версию наугад и измерьте эти клики.

Другой вариант: предположите, что Google по определению идеален, и сравните свой ответ с его ответами на определенные запросы. (Может быть, сумма расстояний между десятью вашими первыми ссылками и их аналогами в Google, например: если ваша вторая ссылка является двенадцатой ссылкой Google, это расстояние 10). Это серьезное предположение, но его гораздо проще реализовать.

1
ответ дан 5 December 2019 в 05:56
поделиться

Во-первых, позвольте мне начать с того, что вам спасибо за попытку применить традиционные методы исследования к результатам поисковых систем. Многие SEO-специалисты сделали это до вас и обычно держат это при себе, так как обмен «удивительными открытиями» обычно означает, что вы больше не можете использовать или иметь преимущество, это говорит о том, что я поделюсь как можно лучше некоторыми указателями и вещами, которые нужно искать .

  1. Определите , какую часть алгоритма вы пытаетесь улучшить?

При разных поисках выполняются разные алгоритмы.

Широкий поиск

Например, в расширенном поиске h поисковые машины, как правило, возвращают различные результаты. Общая часть этих результатов включает

  1. Ленты новостей
  2. Продукты
  3. Изображения
  4. Сообщения в блогах
  5. Локальные результаты (это основано на поиске IP-адреса с географической привязкой).

Какой из этих типов результатов будет добавлен в микс, зависит от слова.

Пример: Cats возвращает изображения кошек и новости, Shoes возвращает местные покупки для обуви. (это основано на моем IP-адресе в Чикаго 6 октября)

Цель получения результатов для широкого термина - предоставить всем понемногу, чтобы все были довольны.

Региональные модификаторы

Обычно каждый раз, когда к поисковому запросу добавляется региональный термин, результаты значительно меняются. Если вы выполните поиск по запросу "Веб-дизайн Чикаго", потому что к нему добавлено слово Чикаго, результаты будут начинаться с 10 лучших региональных результатов. (это один лайнер справа от карты), после 10 листингов будет отображаться в общем "режиме результатов".

Результаты в «десятке местных» как правило, кардинально отличаются от приведенных ниже в органическом списке. Это связано с тем, что локальные результаты (из карт Google) для ранжирования полагаются на совершенно разные данные.

Пример. Наличие номера телефона на вашем веб-сайте с кодом города Чикаго поможет в местных результатах ... но НЕ в общих результатах. То же самое с адресом, списком в желтой книге и так далее.

Скорость результатов

В настоящее время (по состоянию на 10.06.09) Google проводит бета-тестирование «кофеина». Основным преимуществом этой сборки движка является то, что он возвращает результаты почти в половине случаев. Хотя сейчас вы можете не считать, что Google работает медленно ... ускорение алгоритма важно, когда миллионы поисковых запросов выполняются каждый час.

Сокращение списков спама

Все мы сталкивались с поиском, пронизанным спамом. Новый выпуск Google Caffeine http: //www2.sandbox. google.com/ - хороший пример. За последние 10+ одна из крупнейших битв в сети была между поисковыми оптимизаторами и поисковыми системами. Игровой google (и другие движки) очень прибыльный, на борьбу с чем Google тратит большую часть своего времени.

Хорошим примером снова является новая версия Google Caffeine. На данный момент мое исследование, а также несколько других специалистов в области SEO показывают, что это первая сборка за более чем 5 лет, которая придавала больший вес элементам на месте (таким как ключевые слова, внутренние ссылки на сайт и т. Д.), Чем предыдущие сборки. До этого казалось, что каждый «выпуск» все больше и больше отдавал предпочтение входящим ссылкам ... это первый шаг назад к «контенту».

Способы тестирования алгоритма.

  1. Сравните две сборки одного и того же движка. В настоящее время это возможно, сравнивая кофеин (см. Ссылку выше или в Google, google caffeine) и текущий Google.

  2. Сравните местные результаты в разных регионах. Попробуйте найти такие условия поиска, как веб-дизайн, которые возвращают локальные результаты без модификатора локального ключевого слова. Затем используйте прокси-сервер (найденный через Google) для поиска в разных местах. Вам нужно будет убедиться, что вы знаете местоположение прокси (найдите сайт в Google, который сообщит ваш IP-адрес, географический IP-адрес, почтовый индекс или город). Затем вы можете увидеть, как разные регионы возвращают разные результаты.

Предупреждение ... НЕ выбирайте термин "слесарь" ... и будьте осторожны с любыми терминами, которые при возврате результата содержат ОЧЕНЬ спамерских списков. Google local довольно легко спамить, особенно на конкурентных рынках.

  1. Сделайте, как упоминалось в предыдущем ответе, сравните, сколько «кликов назад» нужно пользователям, чтобы найти результат. Вы должны знать, что в настоящее время основные двигатели не используют " Это ВЕРОЯТНО, потому что было бы ЛЕГКО создать впечатление, будто ваш результат имеет показатель отказов в диапазоне 4-8%, не имея на самом деле такого низкого уровня ... другими словами, было бы легко играть.

  2. Отслеживайте, сколько вариантов поиска пользователи используют в среднем для данного термина, чтобы найти желаемый результат. Это хороший показатель того, насколько хорошо движок угадывает тип запроса (как уже упоминалось выше в этом ответе).

** Заявление об ограничении ответственности. Эти взгляды основаны на моем отраслевом опыте по состоянию на 6 октября 2009 г. Одна вещь о SEO и движках заключается в том, что они меняются КАЖДЫЙ ДЕНЬ. Google может выпустить кофеин завтра, и это сильно изменит ... тем не менее, это развлечение SEO-исследования!

Приветствую

Это ВЕРОЯТНО, потому что было бы ЛЕГКО сделать вид, будто ваш результат имеет показатель отказов в диапазоне 4-8%, но на самом деле он не такой низкий ... другими словами, было бы легко играть.

  • Отслеживайте, сколько вариантов поиска пользователи используют в среднем для данного термина, чтобы найти желаемый результат. Это хороший показатель того, насколько хорошо движок угадывает тип запроса (как уже упоминалось выше в этом ответе).

  • ** Заявление об ограничении ответственности. Эти взгляды основаны на моем отраслевом опыте по состоянию на 6 октября 2009 г. Одна вещь о SEO и движках заключается в том, что они меняются КАЖДЫЙ ДЕНЬ. Google может выпустить кофеин завтра, и это сильно изменит ... тем не менее, это развлечение SEO-исследования!

    Приветствую

  • Отслеживайте, сколько вариантов поиска пользователи используют в среднем для данного термина, чтобы найти желаемый результат. Это хороший показатель того, насколько хорошо движок угадывает тип запроса (как уже упоминалось выше в этом ответе).

  • ** Заявление об ограничении ответственности. Эти взгляды основаны на моем отраслевом опыте по состоянию на 6 октября 2009 г. Одна вещь о SEO и движках - они меняются КАЖДЫЙ ДЕНЬ. Google может выпустить кофеин завтра, и это сильно изменит ... тем не менее, это развлечение SEO-исследования!

    Приветствую

  • Отслеживайте, сколько вариантов поиска пользователи используют в среднем для данного термина, чтобы найти желаемый результат. Это хороший показатель того, насколько хорошо движок угадывает тип запроса (как уже упоминалось выше в этом ответе).

  • ** Заявление об ограничении ответственности. Эти взгляды основаны на моем отраслевом опыте по состоянию на 6 октября 2009 г. Одна вещь о SEO и движках - они меняются КАЖДЫЙ ДЕНЬ. Google может выпустить кофеин завтра, и это сильно изменит ... тем не менее, это развлечение SEO-исследования!

    Приветствую

    Что касается SEO и движков, они меняются КАЖДЫЙ ДЕНЬ. Google может выпустить кофеин завтра, и это сильно изменит ... тем не менее, это развлечение SEO-исследования!

    Приветствую

    Что касается SEO и движков, они меняются КАЖДЫЙ ДЕНЬ. Google может выпустить кофеин завтра, и это сильно изменит ... тем не менее, это развлечение SEO-исследования!

    Приветствую

    10
    ответ дан 5 December 2019 в 05:56
    поделиться

    Специалисты по информатике обычно используют точность и отзыв как два конкурирующих критерия качества для информационно-поисковой системы (например, поисковой машины).

    Таким образом, вы можете измерить эффективность своей поисковой системы по сравнению с Google, например, подсчитав количество релевантных результатов в первой десятке (назовите эту точность) и количество важных страниц для этого запроса, которые, по вашему мнению, должны были быть в топ-10, но не вошли (назовите это отзывом).

    Вам все равно придется вручную сравнивать результаты каждой поисковой системы по некоторому набору запросов, но, по крайней мере, у вас будет один показатель для их оценки . И баланс этих двух тоже важен:

    2
    ответ дан 5 December 2019 в 05:56
    поделиться

    http: // www. bingandgoogle.com/

    Создайте подобное приложение, которое сравнивает и извлекает данные. Затем запустите тест с 50 разными вещами, которые вам нужно найти, а затем сравните с желаемыми результатами.

    0
    ответ дан 5 December 2019 в 05:56
    поделиться

    I have had to test a search engine professionally. This is what I did.

    The search included fuzzy logic. The user would type into a web page "Kari Trigger", and the search engine would retrieve entries like "Gary Trager", "Trager, C", "Corey Trager", etc, each with a score from 0->100 so that I could rank them from most likely to least likely.

    First, I re-architected the code so that it could be executed removed from the web page, in a batch mode using a big file of search queries as input. For each line in the input file, the batch mode would write out the top search result and its score. I harvested thousands of actual search queries from our production system and ran them thru the batch setup in order to establish a baseline.

    From then on, each time I modified the search logic, I would run the batch again and then diff the new results against the baseline. I also wrote tools to make it easier to see the interesting parts of the diff. For example, I didn't really care if the old logic returned "Corey Trager" as an 82 and the new logic returned it as an 83, so my tools would filter those out.

    I could not have accomplished as much by hand-crafting test cases. I just wouldn't have had the imagination and insight to have created good test data. The real world data was so much richer.

    So, to recap:

    1) Create a mechanism that lets you diff the results of running new logic versus the results of prior logic. 2) Test with lots of realistic data.
    3) Create tools that help you work with the diff, filtering out the noise, enhancing the signal.

    0
    ответ дан 5 December 2019 в 05:56
    поделиться

    Примите тот факт, что качество результатов поиска в конечном итоге субъективно. У вас должно быть несколько алгоритмов оценки для сравнения: старый, новый и несколько контрольных групп (например, оценка по длине URI или размеру страницы или какой-либо аналогично намеренно нарушенной концепции). Теперь выберите несколько запросов, которые реализуют ваши алгоритмы, скажем, сотню или около того. Допустим, у вас всего 4 алгоритма. Составьте таблицу 4x5, отображающую первые 5 результатов запроса по каждому алгоритму. (Вы можете выбрать первую десятку, но первые пять гораздо важнее.) Не забудьте рандомизировать, какой алгоритм появляется в каждом столбце. Затем поставьте человека перед этим предметом и попросите его выбрать, какой из 4 наборов результатов ему больше нравится. Повторите эти действия для всего набора запросов. Повторите то же самое для как можно большего числа людей.

    0
    ответ дан 5 December 2019 в 05:56
    поделиться
    Другие вопросы по тегам:

    Похожие вопросы: