фильтр “ругательств” [закрывается]

, если вы считаете, что будут дубликаты, добавление уникального индекса не удастся. сначала проверьте, какие дубликаты есть:

select * from
(select a,b,c,d,count(*) as n from table_name group by a,b,c,d) x
where x.n > 1

Это может быть дорогостоящий запрос на 20-миллиметровых строках, но вы получите все дубликаты ключей, которые помешают вам добавить основной индекс. Вы можете разбить это на более мелкие куски, если вы делаете что-то в подзапросе: where a='some_value'

. Для извлеченных записей вам нужно что-то изменить, чтобы сделать строки уникальными. Если это будет сделано (запрос возвращает 0 строк), вы должны быть безопасны для добавления первичного индекса.

50
задан Keng 22 October 2010 в 04:38
поделиться

6 ответов

Я не видел указанного языка, но можно использовать это для PHP, он генерирует RegEx для каждой работы instered так, чтобы даже намеренные орфографические ошибки (т.е. @ss, i3itch) были также пойманы.

<?php

/**
 * @author unkwntech@unkwndesign.com
 **/

if($_GET['act'] == 'do')
 {
    $pattern['a'] = '/[a]/'; $replace['a'] = '[a A @]';
    $pattern['b'] = '/[b]/'; $replace['b'] = '[b B I3 l3 i3]';
    $pattern['c'] = '/[c]/'; $replace['c'] = '(?:[c C (]|[k K])';
    $pattern['d'] = '/[d]/'; $replace['d'] = '[d D]';
    $pattern['e'] = '/[e]/'; $replace['e'] = '[e E 3]';
    $pattern['f'] = '/[f]/'; $replace['f'] = '(?:[f F]|[ph pH Ph PH])';
    $pattern['g'] = '/[g]/'; $replace['g'] = '[g G 6]';
    $pattern['h'] = '/[h]/'; $replace['h'] = '[h H]';
    $pattern['i'] = '/[i]/'; $replace['i'] = '[i I l ! 1]';
    $pattern['j'] = '/[j]/'; $replace['j'] = '[j J]';
    $pattern['k'] = '/[k]/'; $replace['k'] = '(?:[c C (]|[k K])';
    $pattern['l'] = '/[l]/'; $replace['l'] = '[l L 1 ! i]';
    $pattern['m'] = '/[m]/'; $replace['m'] = '[m M]';
    $pattern['n'] = '/[n]/'; $replace['n'] = '[n N]';
    $pattern['o'] = '/[o]/'; $replace['o'] = '[o O 0]';
    $pattern['p'] = '/[p]/'; $replace['p'] = '[p P]';
    $pattern['q'] = '/[q]/'; $replace['q'] = '[q Q 9]';
    $pattern['r'] = '/[r]/'; $replace['r'] = '[r R]';
    $pattern['s'] = '/[s]/'; $replace['s'] = '[s S $ 5]';
    $pattern['t'] = '/[t]/'; $replace['t'] = '[t T 7]';
    $pattern['u'] = '/[u]/'; $replace['u'] = '[u U v V]';
    $pattern['v'] = '/[v]/'; $replace['v'] = '[v V u U]';
    $pattern['w'] = '/[w]/'; $replace['w'] = '[w W vv VV]';
    $pattern['x'] = '/[x]/'; $replace['x'] = '[x X]';
    $pattern['y'] = '/[y]/'; $replace['y'] = '[y Y]';
    $pattern['z'] = '/[z]/'; $replace['z'] = '[z Z 2]';
    $word = str_split(strtolower($_POST['word']));
    $i=0;
    while($i < count($word))
     {
        if(!is_numeric($word[$i]))
         {
            if($word[$i] != ' ' || count($word[$i]) < '1')
             {
                $word[$i] = preg_replace($pattern[$word[$i]], $replace[$word[$i]], $word[$i]);
             }
         }
        $i++;
     }
    //$word = "/" . implode('', $word) . "/";
    echo implode('', $word);
 }

if($_GET['act'] == 'list')
 {
    $link = mysql_connect('localhost', 'username', 'password', '1');
    mysql_select_db('peoples');
    $sql = "SELECT word FROM filters";
    $result = mysql_query($sql, $link);
    $i=0;
    while($i < mysql_num_rows($result))
     {
        echo mysql_result($result, $i, 'word') . "<br />";
        $i++;
     }
     echo '<hr>';
 }
?>
<html>
    <head>
        <title>RegEx Generator</title>
    </head>
    <body>
        <form action='badword.php?act=do' method='post'>
            Word: <input type='text' name='word' /><br />
            <input type='submit' value='Generate' />
        </form>
        <a href="badword.php?act=list">List Words</a>
    </body>
</html>
39
ответ дан UnkwnTech 7 November 2019 в 10:34
поделиться

Остерегайтесь ошибки clbuttic .

"Apple сделала clbuttic ошибку выгоняния их провидца - я имею в виду, посмотрите на то, что был готов NeXT!"

Хм. "clbuttic".

Google "clbuttic" - тысячи хитов!

существует кто-то, кто называет его автомобиль 'clbuttic'.

существуют "форумы" Парового двигателя Clbuttic.

словарь Webster - никакая справка.

Хм. Каково это может быть?

ПОДСКАЗКА: Люди, которые делают buttumptions об их regex сценариях, будут embarbutted, когда они повторят эту ошибку mbuttive.

57
ответ дан callisto 7 November 2019 в 10:34
поделиться

Я сказал бы, чтобы просто удалить сообщения, поскольку Вы узнаете их и блокируете пользователей, которые являются чрезмерно явными с их регистрациями. Можно сказать очень наступательные вещи, не используя ругательств. Если Вы заблокируете задницу слова (иначе осел), то люди просто введут $ a$ или/\55, или независимо от того, что они должны ввести для заканчивания фильтра.

4
ответ дан Kibbee 7 November 2019 в 10:34
поделиться

+1 на ошибке Clbuttic, я думаю, что для фильтров "ругательства" важно просканировать и для продвижения и для конечных пробелов (например, "задница"), как отклонено для просто точной строки так, чтобы у нас не было слов как clbuttic, clbuttes, buttert, холмы, и т.д.

4
ответ дан Jon Limjap 7 November 2019 в 10:34
поделиться

Вы могли всегда убеждать клиент иметь сессию пользователей просто постоянно регистрация ругательств и делать легкое решение добавить их к системе. Это - большая работа, но это, вероятно, будет более представительным для сообщества.

1
ответ дан Ross 7 November 2019 в 10:34
поделиться

Исследуя эту тему, я пришел к выводу, что нужно нечто большее, чем просто список, который выполняет произвольные замены. Я создал веб-сервис, который позволяет вам определить желаемый уровень «чистоты». Он также пытается выявить ложные срабатывания, то есть когда слово может быть плохим в одном контексте, но не в другом. Взгляните на http://filterlanguage.com

-3
ответ дан 7 November 2019 в 10:34
поделиться
Другие вопросы по тегам:

Похожие вопросы: