Я работаю над проектом базы знаний с использованием полнотекстового поискового движка SQL Server 2008. Проект включается в статьи и файлы, где каждая статья имеет несколько файлов. В этих статьях весь контент представляет собой чистый HTML .
Сейчас я успешно создал полнотекстовый каталог и индекс для SQL Server 2008, и моя база данных совместима с версией 10.
Вот мои вопросы:
1) Можно ли при поиске в этих статьях игнорировать теги html, более четко тексты, содержащиеся в «<...>», потому что, если я хочу найти div, table и т. д. результат не должен возвращаться?
2) Статьи будут обновляться в любое время, поэтому полнотекстовый индекс должен обновляться при вставке новой записи. Достаточно ли установить только «TRACK CHANGES AUTOMATIC» "при создании полнотекстового каталога?
3) Мы можем использовать функцию FILESTREAM в дальнейшем, имеет ли SQL Server 2008 хорошую производительность для файлов, использующих полнотекстовый индекс? Какие конкретные типы документов SQL Server 2008 хорош при индексировании?
С уважением
Пожалуйста, проверьте эти:
1) в SQL Server Полный текст, мы можем определить шумовые слова / секунды. Вы можете редактировать файл Wash World, а затем вы должны восстановить каталог. Таким образом, вы можете поставить все HTML-теги как шум. Пожалуйста, проверьте
http://msdn.microsoft.com/en-us/library/ms142551.ascx
2) с изменением трека, он автоматически включает изменения в текущий полный текстовый поиск, но рейтинг этих недавно добавленных Статья изменена с предыдущей. Поэтому до тех пор, пока не будет синхронизироваться, он сдастся и вниз с рейтингом.
3) Насколько я знаю, мы можем реализовать пользовательские фильтры, stemmers и выключатели слов и могут подключиться к SQL Server Full Text Search.by По умолчанию я могу не знать полный список, но он делает DOC и PDF.
Для получения дополнительной информации о SQL Server Полный текстовый поиск 2008 Пожалуйста, проверьте:
есть фильтр для файлов .htm и .html.
, чтобы проверить, установлен ли у вас фильтр, запустите этот sql:
SELECT * FROM sys.fulltext_document_types
, вы должны увидеть:
.htm E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation
.html E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation
поэтому, если вы можете преобразовать столбец статей в varbinary (max), вы можете добавить к нему полнотекстовый индекс и укажите тип документа '.html'
после заполнения индекса, вы можете проверить ключевые слова, используя этот sql:
SELECT display_term, column_id, document_count
FROM sys.dm_fts_index_keywords
(DB_ID('your_db'), OBJECT_ID('your_table'))