Интересный проект в стиле НЛП/машинного обучения — анализ политик конфиденциальности

Я хотел внести свой вклад в интересную задачу, которую мне поручили. Задача состоит в том, чтобы проанализировать сотни, а в конечном итоге и тысячи политик конфиденциальности и определить их основные характеристики. Например, принимают ли они местоположение пользователя?, Делятся ли/продают ли они третьим лицам? и т. д.

Я разговаривал с несколькими людьми, много читал о политике конфиденциальности и сам думал об этом. Вот мой текущий план атаки:

Во-первых, прочитайте много информации о конфиденциальности и найдите основные «подсказки» или индикаторы того, что определенная характеристика соблюдена. Например, если в сотнях политик конфиденциальности есть одна и та же строчка: «Мы возьмем ваше местоположение.", эта строка может быть признаком со 100% уверенностью в том, что эта политика конфиденциальности включает определение местоположения пользователя. Другие подсказки дадут гораздо меньшую степень уверенности в отношении определенной характеристики. Например, присутствие слова "местоположение" может увеличить вероятность того, что местоположение пользователя сохраняется на 25%

. Это может быть сделано для систем перехвата спама в электронной почте, которые используют байесовские фильтры для определения того, какая почта, скорее всего, является коммерческой, а какая нежелательной.

Я хотел спросить, ребята, считаете ли вы, что это хороший подход к этой проблеме. подобная проблема? Кроме того, есть ли какие-либо конкретные инструменты или платформы, которые вы бы порекомендовали использовать. Любое мнение приветствуется. Это мой первый проект, который касается искусственного интеллекта, в частности обучение и НЛП.

6
задан bgcode 14 March 2012 в 19:57
поделиться