Оптимальная архитектура данных для меток, облаков и поиска (как StackOverflow)?

Question

Оптимальная архитектура данных для меток, облаков и поиска (как StackOverflow)?

Что такое NullPointerException?

Хорошим местом для начала является JavaDocs . Они охватывают это:

Брошено, когда приложение пытается использовать null в случае, когда требуется объект. К ним относятся:

Вызов метода экземпляра нулевого объекта.

Доступ или изменение поля нулевого объекта.

Выполнение длины null, как если бы это был массив.

Доступ или изменение слотов с нулевым значением, как если бы это был массив.

Бросать нуль, как если бы это было значение Throwable.

Приложения должны бросать экземпляры этого класса для указания других незаконных видов использования нулевого объекта.
blockquote>
Также, если вы попытаетесь использовать нулевую ссылку с synchronized, который также выдаст это исключение, за JLS :
SynchronizedStatement:
    synchronized ( Expression ) Block
В противном случае, если значение выражения равно null, NullPointerException.

blockquote>
Как это исправить?

Итак, у вас есть NullPointerException. Как вы это исправите? Возьмем простой пример, который выдает NullPointerException:
public class Printer {
    private String name;

    public void setName(String name) {
        this.name = name;
    }

    public void print() {
        printString(name);
    }

    private void printString(String s) {
        System.out.println(s + " (" + s.length() + ")");
    }

    public static void main(String[] args) {
        Printer printer = new Printer();
        printer.print();
    }
}
Идентифицирует нулевые значения

. Первый шаг - точно определить , значения которого вызывают исключение . Для этого нам нужно выполнить некоторую отладку. Важно научиться читать stacktrace . Это покажет вам, где было выбрано исключение:
Exception in thread "main" java.lang.NullPointerException
    at Printer.printString(Printer.java:13)
    at Printer.print(Printer.java:9)
    at Printer.main(Printer.java:19)
Здесь мы видим, что исключение выбрано в строке 13 (в методе printString). Посмотрите на строку и проверьте, какие значения равны нулю, добавив протоколирующие операторы или используя отладчик . Мы обнаруживаем, что s имеет значение null, а вызов метода length на него вызывает исключение. Мы видим, что программа перестает бросать исключение, когда s.length() удаляется из метода.

Трассировка, где эти значения взяты из

Затем проверьте, откуда это значение. Следуя вызовам метода, мы видим, что s передается с printString(name) в методе print(), а this.name - null.

Трассировка, где эти значения должны быть установлены

Где установлен this.name? В методе setName(String). С некоторой дополнительной отладкой мы видим, что этот метод вообще не вызывается. Если этот метод был вызван, обязательно проверьте порядок , что эти методы вызывают, а метод set не будет называться после методом печати.

Этого достаточно, чтобы дать нам решение: добавить вызов printer.setName() перед вызовом printer.print().

Другие исправления

Переменная может иметь значение по умолчанию (и setName может помешать ему установить значение null):
private String name = "";
Либо метод print, либо printString может проверить значение null например:
printString((name == null) ? "" : name);
Или вы можете создать класс, чтобы name всегда имел ненулевое значение :
public class Printer {
    private final String name;

    public Printer(String name) {
        this.name = Objects.requireNonNull(name);
    }

    public void print() {
        printString(name);
    }

    private void printString(String s) {
        System.out.println(s + " (" + s.length() + ")");
    }

    public static void main(String[] args) {
        Printer printer = new Printer("123");
        printer.print();
    }
}
См. также:

Избегание операторов «! = null» в Java?

Я все еще не могу найти проблему

Если вы попытались отладить проблему и до сих пор не имеете решения, вы можете отправить вопрос для получения дополнительной справки, но не забудьте включить то, что вы пробовали до сих пор. Как минимум, включите stacktrace в вопрос и отметьте важные номера строк в коде. Также попробуйте сначала упростить код (см. SSCCE ).

38

database-design tags full-text-search tag-cloud

задан rene 10 March 2014 в 12:12

2 ответа

Я не знаю, квалифицируют ли они, поскольку оптимальный, но и DotNetKicks и Kigg являются открытым исходным кодом digg реализации клона. Можно посмотреть на то, как они делают теги и поиск.

Мои лучшие предположения без большого обдумывания:)

мне никогда не нравится идея сериализировать несколько значений в единственное поле, таким образом, разграниченные строки, сохраненные в одном поле, не обращаются ко мне... мог бы работать на пути смежности с деревьями, но тем всегда приказывают, и теги не должны быть. Это кажется, что обложило бы налогом работу оператора LIKE, которую Вы могли бы сделать для нахождения их.

, Таким образом, моим начальным взятием является, вероятно, Объект-> EntityTag < - Тег.

Этот подход делает объекты открытия через Тег довольно легкими, соединение назад через EntityTag, прекратить дело.

Вам нужна вторичная операция здесь для выбора отличных тегов для набора результатов. Так a.) вытягивают набор результатов, b.) нормализуют пространство тега. Я думаю, что Вы делаете это, неважно, что ответ к № 1 - даже наполняющие теги в одно поле все еще приведут к дублирующимся тегам (и необходимо десериализовать их для выполнения этого op - так больше работы, другой аргумент в пользу полностью реляционного подхода).

Все еще легкий. Вот одна область, где сериализированный подход работает лучше. Никакая потребность присоединиться для дочерних тегов, это находится тут же в Объекте. Однако выходящий 0.. n теги через два соединения таблицы не кажется слишком сложным мне. Если Вы говорите соображения перфекта, создаете его, нормализовал, сначала тогда оптимизируют через кэш или denorm.

другая опция, "делают обоих". Это чувствует себя подобно преждевременной оптимизации, но Вы могли сделать, полный нормализованный подход, чтобы поддерживать любые центральные тегом операции и сериализировать на сохраняется для имения денормализованной версии тут же в Объекте. Немного больше работы, некоторый потенциал для падения из синхронизации, если не полностью покрытый, но лучший из обоих миров, если существуют реальные ограничения к полностью нормализованному пути в вариантах использования.

Lucene интересен также, можно объявить определенные метаданные в индексах IIRC, таким образом, Вы могли потенциально усилить поиск тега этот путь также. Мое подозрение, если Вы заходите слишком далеко вниз эта дорога, тогда Вы заканчиваете тем, что имели некоторые разъединения между тем, что Вы храните в базе данных и индексе в какой-то момент. Я могу говорить благоприятно о Lucene, это очень способно и просто в использовании - я полагаю, что.Text использовал его, поскольку это - возможности поиска, и это поддерживало весь weblogs.asp.net до него переключающийся на Сервер Сообщества. Я придерживался бы его для полнотекстового поиска, если MSSQL не находится в изображении / достаточен, решите проблемы тега в базе данных imo.

5

ответ дан Grant 27 November 2019 в 03:41
поделиться

Другие вопросы по тегам:
database-design tags full-text-search tag-cloud

Похожие вопросы:

36
Что важнее? БД дизайн или кодирование? [закрыто] - 7 July 2011 18:56

29
Что каждый разработчик должен знать о базах данных? [закрытый] - 30 December 2009 16:02

29
Что случилось с внешними ключами? - 18 September 2018 22:58

26
Как Вам нравятся Ваши первичные ключи? [закрытый] - 19 January 2017 12:01

25
Ошибки в разработке баз данных, сделанные разработчиками приложений [закрыто] - 13 September 2010 19:19

23
Зачем использовать базу данных SQL? [закрыто] - 24 May 2010 22:15

23
Именование решений для таблиц базы данных [duplicate] - 29 September 2011 15:40

score 57 · Answer 1

Ничего себе, я просто записал большое сообщение и ТАК дросселировал и завис на нем, и когда я поразил свою кнопку "Назад", чтобы повторно отправить, редактор разметки был пуст. aaargh.

, Таким образом, здесь я иду снова...

Относительно Переполнения стека, оказывается, что они используют полнотекстовый поиск SQL-сервера 2005 .

Относительно проектов ОС, рекомендуемых @Grant:

*DotNetKicks использует DB для меток и Lucene для полнотекстового поиска. Кажется, нет никакого способа объединить полнотекстовый поиск с поиском тега
, Kigg использует Linq к SQL и для поиска и для запросов тега. Оба запроса присоединяются к Историям-> StoryTags-> Теги.
Оба проекта имеют подход с 3 таблицами к меткам, поскольку все обычно, кажется, рекомендуют

, я также нашел некоторые другие вопросы на том, Так, чтобы я отсутствовал прежде:

, Что я в настоящее время делаю для каждого из объектов, которые я упомянул:

В DB, 3 таблицах: Объект, Тег, Entity_Tag. Я использую DB для:
- Сборка по всему сайту облака тегов
- обзор тегом (т.е. URL как SO's /questions/tagged/ASP.NET)
Для поиска я использую Lucene + NHibernate. Поиск
- Теги являются concat'd в TagString, который индексируется <литием> Lucene
- , Lucene возвращает потенциально огромный набор результатов, который я разбиваю на страницы к 20 результатам
- Тогда, NHibernate загружает Объекты результата идентификатором, или от DB или от кэша Объекта
- , Таким образом, совершенно возможно, что результаты поиска в 0 хитах к DB
, Не делающему это все же, но я думаю, что, вероятно, попытаюсь найти, что способ создать облако тегов из TagString в Lucene, вместо того, чтобы получить другой удар DB
не сделали этого еще также, но я, вероятно, сохраню TagString в DB так, чтобы я мог показать список Тега Объекта, не имея необходимость делать еще 2 соединения.

Это означает, что каждый раз, когда теги Объекта изменяются, я имею к:

Вставляют любые новые Теги, которые уже не существуют
, Вставляют/Удаляют от Объекта Обновления таблицы
EntityTag. TagString
Обновляет индекс Lucene для Объекта

, Учитывая, что отношение чтений к записям является очень большим в моем приложении, я думаю, что соглашаюсь с этим. Единственная действительно трудоемкая часть является индексацией Lucene, потому что Lucene может [только 116] вставить и удаляют из его индекса, таким образом, я должен повторно индексировать весь объект для обновления TagString. Я не взволнован этим, но я думаю, что, если я делаю это в фоновом потоке, это будет прекрасно.

Время покажет...

score 5 · Answer 2

Я не знаю, квалифицируют ли они, поскольку оптимальный, но и DotNetKicks и Kigg являются открытым исходным кодом digg реализации клона. Можно посмотреть на то, как они делают теги и поиск.

Мои лучшие предположения без большого обдумывания:)

мне никогда не нравится идея сериализировать несколько значений в единственное поле, таким образом, разграниченные строки, сохраненные в одном поле, не обращаются ко мне... мог бы работать на пути смежности с деревьями, но тем всегда приказывают, и теги не должны быть. Это кажется, что обложило бы налогом работу оператора LIKE, которую Вы могли бы сделать для нахождения их.

, Таким образом, моим начальным взятием является, вероятно, Объект-> EntityTag < - Тег.

Этот подход делает объекты открытия через Тег довольно легкими, соединение назад через EntityTag, прекратить дело.
Вам нужна вторичная операция здесь для выбора отличных тегов для набора результатов. Так a.) вытягивают набор результатов, b.) нормализуют пространство тега. Я думаю, что Вы делаете это, неважно, что ответ к № 1 - даже наполняющие теги в одно поле все еще приведут к дублирующимся тегам (и необходимо десериализовать их для выполнения этого op - так больше работы, другой аргумент в пользу полностью реляционного подхода).
Все еще легкий. Вот одна область, где сериализированный подход работает лучше. Никакая потребность присоединиться для дочерних тегов, это находится тут же в Объекте. Однако выходящий 0.. n теги через два соединения таблицы не кажется слишком сложным мне. Если Вы говорите соображения перфекта, создаете его, нормализовал, сначала тогда оптимизируют через кэш или denorm.

другая опция, "делают обоих". Это чувствует себя подобно преждевременной оптимизации, но Вы могли сделать, полный нормализованный подход, чтобы поддерживать любые центральные тегом операции и сериализировать на сохраняется для имения денормализованной версии тут же в Объекте. Немного больше работы, некоторый потенциал для падения из синхронизации, если не полностью покрытый, но лучший из обоих миров, если существуют реальные ограничения к полностью нормализованному пути в вариантах использования.

Lucene интересен также, можно объявить определенные метаданные в индексах IIRC, таким образом, Вы могли потенциально усилить поиск тега этот путь также. Мое подозрение, если Вы заходите слишком далеко вниз эта дорога, тогда Вы заканчиваете тем, что имели некоторые разъединения между тем, что Вы храните в базе данных и индексе в какой-то момент. Я могу говорить благоприятно о Lucene, это очень способно и просто в использовании - я полагаю, что.Text использовал его, поскольку это - возможности поиска, и это поддерживало весь weblogs.asp.net до него переключающийся на Сервер Сообщества. Я придерживался бы его для полнотекстового поиска, если MSSQL не находится в изображении / достаточен, решите проблемы тега в базе данных imo.