Библиотека с открытым исходным кодом для лингвистического запроса и подсчета слов [закрытый] (LIWC)

12
задан zfranciscus 24 March 2010 в 22:24
поделиться

2 ответа

Следуя совету Гамбо и Пекки, я написал curl_exec_utf8

/** The same as curl_exec except tries its best to convert the output to utf8 **/
function curl_exec_utf8($ch) {
    $data = curl_exec($ch);
    if (!is_string($data)) return $data;

    unset($charset);
    $content_type = curl_getinfo($ch, CURLINFO_CONTENT_TYPE);

    /* 1: HTTP Content-Type: header */
    preg_match( '@([\w/+]+)(;\s*charset=(\S+))?@i', $content_type, $matches );
    if ( isset( $matches[3] ) )
        $charset = $matches[3];

    /* 2: <meta> element in the page */
    if (!isset($charset)) {
        preg_match( '@<meta\s+http-equiv="Content-Type"\s+content="([\w/]+)(;\s*charset=([^\s"]+))?@i', $data, $matches );
        if ( isset( $matches[3] ) ) {
            $charset = $matches[3];
            /* In case we want do do further processing downstream: */
            $data = preg_replace('@(<meta\s+http-equiv="Content-Type"\s+content="[\w/]+\s*;\s*charset=)([^\s"]+)@i', '$1utf-8', $data, 1);
        }
    }

    /* 3: <xml> element in the page */
    if (!isset($charset)) {
        preg_match( '@<\?xml.+encoding="([^\s"]+)@si', $data, $matches );
        if ( isset( $matches[1] ) ) {
            $charset = $matches[1];
            /* In case we want do do further processing downstream: */
            $data = preg_replace('@(<\?xml.+encoding=")([^\s"]+)@si', '$1utf-8', $data, 1);
        }
    }

    /* 4: PHP's heuristic detection */
    if (!isset($charset)) {
        $encoding = mb_detect_encoding($data);
        if ($encoding)
            $charset = $encoding;
    }

    /* 5: Default for HTML */
    if (!isset($charset)) {
        if (strstr($content_type, "text/html") === 0)
            $charset = "ISO 8859-1";
    }

    /* Convert it if it is anything but UTF-8 */
    /* You can change "UTF-8"  to "UTF-8//IGNORE" to 
       ignore conversion errors and still output something reasonable */
    if (isset($charset) && strtoupper($charset) != "UTF-8")
        $data = iconv($charset, 'UTF-8', $data);

    return $data;
}

Регулярные выражения в основном взяты из http://nadeausoftware.com/articles/2007/06/php_tip_how_get_web_page_content_type

-121 3232413-

Вы можете найти набор инструментов естественного языка (NLTK) для Python: http://www.nltk.org/

-5
ответ дан 3 December 2019 в 00:36
поделиться

Как указывает ealdent , LIWC - это и программное обеспечение, и набор данных. Набор данных является проприетарным, поэтому его версии с открытым исходным кодом не существует. Что касается программного обеспечения, то TAWC - это полезная версия Perl с открытым исходным кодом. Из комментариев:

Это полусложный сценарий, адаптированный из того, что использовался в моих статьях по ОМС . Задача этого скрипта - читать регулярные выражения из словаря (или, если они не являются RE, преобразовывать их в RE), который должен быть обратно совместим с программным обеспечением LIWC. набор (см. http://www.liwc.net ). Затем он подсчитывает количество совпадений для RE в одной входной строке / пользователю и выводит его для этой строки / пользователя.

Затем вы можете купить LIWClite , что составляет менее половины стоимости LIWC. Вы также можете бесплатно использовать TAWC со своими словарями.

2
ответ дан 3 December 2019 в 00:36
поделиться
Другие вопросы по тегам:

Похожие вопросы: