Я хотел внести свой вклад в интересную задачу, которую мне поручили. Задача состоит в том, чтобы проанализировать сотни, а в конечном итоге и тысячи политик конфиденциальности и определить их основные характеристики. Например, принимают ли они местоположение пользователя?, Делятся ли/продают ли они третьим лицам? и т. д.
Я разговаривал с несколькими людьми, много читал о политике конфиденциальности и сам думал об этом. Вот мой текущий план атаки:
Во-первых, прочитайте много информации о конфиденциальности и найдите основные «подсказки» или индикаторы того, что определенная характеристика соблюдена. Например, если в сотнях политик конфиденциальности есть одна и та же строчка: «Мы возьмем ваше местоположение.", эта строка может быть признаком со 100% уверенностью в том, что эта политика конфиденциальности включает определение местоположения пользователя. Другие подсказки дадут гораздо меньшую степень уверенности в отношении определенной характеристики. Например, присутствие слова "местоположение" может увеличить вероятность того, что местоположение пользователя сохраняется на 25%
. Это может быть сделано для систем перехвата спама в электронной почте, которые используют байесовские фильтры для определения того, какая почта, скорее всего, является коммерческой, а какая нежелательной.
Я хотел спросить, ребята, считаете ли вы, что это хороший подход к этой проблеме. подобная проблема? Кроме того, есть ли какие-либо конкретные инструменты или платформы, которые вы бы порекомендовали использовать. Любое мнение приветствуется. Это мой первый проект, который касается искусственного интеллекта, в частности обучение и НЛП.