Как игнорировать HTML-теги в Sql Server 2008 Полнотекстовый поиск

Я работаю над проектом базы знаний с использованием полнотекстового поискового движка SQL Server 2008. Проект включается в статьи и файлы, где каждая статья имеет несколько файлов. В этих статьях весь контент представляет собой чистый HTML .

Сейчас я успешно создал полнотекстовый каталог и индекс для SQL Server 2008, и моя база данных совместима с версией 10.

Вот мои вопросы:

1) Можно ли при поиске в этих статьях игнорировать теги html, более четко тексты, содержащиеся в «<...>», потому что, если я хочу найти div, table и т. д. результат не должен возвращаться?

2) Статьи будут обновляться в любое время, поэтому полнотекстовый индекс должен обновляться при вставке новой записи. Достаточно ли установить только «TRACK CHANGES AUTOMATIC» "при создании полнотекстового каталога?

3) Мы можем использовать функцию FILESTREAM в дальнейшем, имеет ли SQL Server 2008 хорошую производительность для файлов, использующих полнотекстовый индекс? Какие конкретные типы документов SQL Server 2008 хорош при индексировании?

С уважением

8
задан Myra 12 January 2010 в 09:21
поделиться

2 ответа

Пожалуйста, проверьте эти:

1) в SQL Server Полный текст, мы можем определить шумовые слова / секунды. Вы можете редактировать файл Wash World, а затем вы должны восстановить каталог. Таким образом, вы можете поставить все HTML-теги как шум. Пожалуйста, проверьте

http://msdn.microsoft.com/en-us/library/ms142551.ascx

2) с изменением трека, он автоматически включает изменения в текущий полный текстовый поиск, но рейтинг этих недавно добавленных Статья изменена с предыдущей. Поэтому до тех пор, пока не будет синхронизироваться, он сдастся и вниз с рейтингом.

3) Насколько я знаю, мы можем реализовать пользовательские фильтры, stemmers и выключатели слов и могут подключиться к SQL Server Full Text Search.by По умолчанию я могу не знать полный список, но он делает DOC и PDF.

Для получения дополнительной информации о SQL Server Полный текстовый поиск 2008 Пожалуйста, проверьте:

http://technet.microsoft.com/en-us/library/cc721269.aspx

-1
ответ дан 5 December 2019 в 06:23
поделиться

есть фильтр для файлов .htm и .html.

, чтобы проверить, установлен ли у вас фильтр, запустите этот sql:

SELECT * FROM sys.fulltext_document_types

, вы должны увидеть:

.htm E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation

.html E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation

поэтому, если вы можете преобразовать столбец статей в varbinary (max), вы можете добавить к нему полнотекстовый индекс и укажите тип документа '.html'

после заполнения индекса, вы можете проверить ключевые слова, используя этот sql:

SELECT display_term, column_id, document_count
FROM sys.dm_fts_index_keywords
(DB_ID('your_db'), OBJECT_ID('your_table')) 
27
ответ дан 5 December 2019 в 06:23
поделиться
Другие вопросы по тегам:

Похожие вопросы: