Программно извлеките ключевые слова из доменных имен

На самом деле в этом случае это довольно просто: подайте заявку вертикаль выравниваются к изображению. Так как это - все в одной строке, это - действительно изображение, которое Вы хотите выровненный, не текст.

<!-- moved "vertical-align:middle" style from span to img -->
<div>
  <img style="vertical-align:middle" src="https://placehold.it/60x60">
  <span style="">Works.</span>
</div>

Протестированный в FF3.

Теперь можно использовать flexbox для этого типа расположения.

.box {
   display: flex;
   align-items:center;
}
<div class="box">
    <img src="https://placehold.it/60x60">
    <span style="">Works.</span>
</div>
6
задан Martin v. Löwis 22 August 2009 в 07:38
поделиться

6 ответов

Хорошо, я запустил сценарий, который написал для этого вопроса SO , с парой незначительных изменений - используя вероятности журнала, чтобы избежать переполнения, и изменив его для чтения нескольких файлы в качестве корпуса.

Для своего корпуса я загрузил кучу файлов из проекта Gutenberg - реального метода для этого нет, просто взял все англоязычные файлы из etext00, etext01 и etext02.

Ниже приведены результаты , Я сохранил тройку лучших для каждой комбинации.

expertsexchange: 97 possibilities
 -  experts exchange -23.71
 -  expert sex change -31.46
 -  experts ex change -33.86

penisland: 11 possibilities
 -  pen island -20.54
 -  penis land -22.64
 -  pen is land -25.06

choosespain: 28 possibilities
 -  choose spain -21.17
 -  chooses pain -23.06
 -  choose spa in -29.41

kidsexpress: 15 possibilities
 -  kids express -23.56
 -  kid sex press -32.65
 -  kids ex press -34.98

childrenswear: 34 possibilities
 -  children swear -19.85
 -  childrens wear -25.26
 -  child ren swear -32.70

dicksonweb: 8 possibilities
 -  dickson web -27.09
 -  dick son web -30.51
 -  dicks on web -33.63
6
ответ дан 8 December 2019 в 14:45
поделиться

choosespain.com kidsexpress.com childrenswear.com dicksonweb.com

Удачи (и хорошего юриста), если вы собираетесь попытаться проанализировать URL-адрес с помощью словаря.

Возможно, вам удастся найти те же символы, но разделенные пробелом в их сети сайт.

Другие возможности: извлечь данные из ssl сертификата; запросить сервер доменного имени верхнего уровня; Доступ к серверу доменных имен (TLD); или воспользуйтесь одним из инструментов или служб "whois" (просто "whois" Google).

2
ответ дан 8 December 2019 в 14:45
поделиться

Если у вас есть список допустимых слов, вы можете перебирать строку домена и пытаться каждый раз обрезать допустимое слово с помощью алгоритма поиска с возвратом. Если вам удалось использовать все слова, все готово. Имейте в виду, что временная сложность этого не оптимальна :)

1
ответ дан 8 December 2019 в 14:45
поделиться

Вам нужно будет использовать словарный механизм для записи домена, чтобы найти допустимые слова, и запустить этот словарь для результата, чтобы убедиться, что результатом являются допустимые слова.

0
ответ дан 8 December 2019 в 14:45
поделиться

Возможно, вы захотите проверить этот вопрос SO .

3
ответ дан 8 December 2019 в 14:45
поделиться

You need to develop a heuristic that will get likely matches out of the domain. The way I would do it is first find a large corpus of text. For example, you could download Wikipedia.

Next take your corpus, and combine every two adjacent words. For example, if your sentence is:

quick brown fox jumps over the lazy dog

You'll create a list:

quickbrown
brownfox
foxjumps
jumpsover
overthe
thelazy
lazydog

Each of these would have a count of one. As you parse your corpus, you'll keep track of the frequency pairs of every two words. Additionally, for each pair, you'll need to sort what the original two words were.

Sort this list by frequency, and then attempt to find matches in your domain based on these words.

Lastly, do a domain check for the top two word phrases which aren't registered!

I think the sites like DomainTool take a list of the highest ranking words. They then try to parse these words out first. Depending on the purpose, you may want to consider using MTurk to do the job. Different people will parse the same words differently, and might not do so in proportion to how common the words are.

3
ответ дан 8 December 2019 в 14:45
поделиться
Другие вопросы по тегам:

Похожие вопросы: