Алгоритм надежного обнаружения онлайн-хулиганов

Почти в каждом интернет-сообществе есть люди, которые хотят только хранить или хранить там. Проблема чрезвычайно важна, и вскоре ее можно будет решить с помощью алгоритмов.

Практически в каждом интернет-сообществе тоже есть люди, которые только и хотят там пошалить или наделать бед. Проблема чрезвычайно важна, и вскоре ее можно будет смягчить с помощью алгоритмов.

Так называемые тролли — настоящая чума на многих интернет-сайтах. Эти люди ведут себя заведомо антиобщественным образом, публикуя оскорбительные комментарии или резко отклоняясь от актуальной темы. В лучшем случае они мешают, в худшем превращают жизнь других в ад.

В результате было бы полезно иметь возможность выявлять троллей на ранних этапах их онлайн-карьеры и предотвращать их худшие эксцессы.

Это именно то, что Джастин Ченг из Стэнфордского университета в Калифорнии и двое его коллег попытались сделать: как они сообщают в технической статье, они разработали инструмент, который может анализировать поведение троллей на веб-сайтах; алгоритм надежно распознает авторов комментариев уже после десяти постов. По словам Ченга и его коллег, этот метод может быть очень полезен модераторам интернет-сообществ.

Для своего проекта исследователи изучили три новостных сайта: CNN.com для общих новостей, Breitbart.com для политического контента и IGN.com для компьютерных игр.

Для каждого из этих сайтов у них был список пользователей, забаненных за антиобщественное поведение, насчитывающий более 10 000 человек. У них также были все комментарии, которые эти пользователи написали за время своей активности. «Такие люди — явный пример антисоциальных пользователей. Они составляют основу нашего анализа», — пишет Ченг.

Исходя из этого, исследователи попытались ответить на три вопроса об асоциальных пользователях: являются ли они асоциальными все время своего существования в сообществе или становятся таковыми только к концу?? Приводит ли реакция сообщества к ухудшению их поведения?? И: Можно ли надежно идентифицировать антисоциальных пользователей на ранней стадии??

Сравнив комментарии пользователей, которые впоследствии были забанены, и комментарии тех, кто никогда не был забанен, Ченг и его коллеги выявили некоторые явные различия. Одним из показателей, которые они используют, является удобочитаемость сидений, оцениваемая с помощью Automated Readability Index.

Это показывает: Пользователи, которые позже забанены, с самого начала пишут посты более низкого качества. Более того, со временем это качество еще больше снижается.

Однако поначалу сообщества кажутся снисходительными и поначалу не блокируют асоциальных пользователей; позже они становятся менее терпимыми. «Со временем это приводит к более высокому уровню удаления материалов от антисоциальных пользователей», — говорится в эссе.

Интересно, что Ченг и его коллеги пишут, что различия между комментариями пользователей, заблокированных позже, и обычных пользователей настолько очевидны, что троллей можно относительно легко обнаружить с помощью алгоритма машинного обучения: пользователю сделать надежный прогноз».

Это может оказаться полезным. Антиобщественное поведение в Сети становится все более серьезной проблемой, выявление и борьба с которой до сих пор связывали многие человеческие ресурсы. В результате антисоциальные пользователи могут причинять неудобства намного дольше, чем это необходимо. «Наши методы могут выявлять антисоциальных пользователей на ранней стадии и уменьшать усилия по контролю», — сказали Ченг и его коллеги.

Конечно, с такими автоматизированными методами всегда нужно быть осторожным. Одна из опасностей заключается в том, что пользователи блокируются алгоритмом как антисоциальные, даже если они ведут себя разумно. Доля таких ложных срабатываний требует более подробного изучения.

Тем не менее вклад Ченга и его коллег вскоре может значительно облегчить работу модераторов на сайтах с функциями комментирования.