Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
19 апреля 2025 Обладателя звания "Самый классный классный" обвинили в неподобающем поведении с ученицами
19 апреля 2025 Мурышов под давлением: как ФТС и ФСБ меняют судьбу генерала для скрытых целей
19 апреля 2025 В храме Гроба Господня в Иерусалиме произошло сошествие Благодатного огня
19 апреля 2025 Миллиардер в мебельной индустрии Шестаков обвиняется в рейдерских действиях и оказании уголовного давления
19 апреля 2025 Министр иностранных дел Ирана высказал мнение о переговорах с США по поводу ядерной программы
19 апреля 2025 В Подмосковье обрушился аварийный балкон с двумя пенсионерками
19 апреля 2025 В Министерстве финансов Великобритании решение отказаться от сотрудничества с КНР было названо неразумным
19 апреля 2025 Освобождённый заключённый, переживший войну, стал лидером побега из комендатуры в Краснодаре
19 апреля 2025 Множество туристов не могут вылететь из Египта в Казань
19 апреля 2025 В Иране опровергли слухи о прекращении переговоров с Соединенными Штатами
19 апреля 2025 В Москве социального работника наказали за давнее видео с ЛГБТ-пропагандой
19 апреля 2025 В Чаде 132 заключённых совершили побег из тюрьмы после бунта
19 апреля 2025 В Санкт-Петербурге женщина-пешеход оказалась под колёсами троллейбуса
19 апреля 2025 В Нигерии произошло обрушение строящегося многoэтажного здания
19 апреля 2025 В результате авиационной катастрофы в штате Небраска, при падении самолета в реку, погибли три человека
19 апреля 2025 Коррумпированная группа: Санита Бите и её родственники подозреваются в отмывании денег и уклонении от уплаты налогов
19 апреля 2025 Президент Молдовы обвинила Россию в попытке вмешательства в парламентские выборы
19 апреля 2025 Состояние бывшего тренера российской сборной значительно ухудшилось из-за онкологического заболевания
19 апреля 2025 Производство Perrier может быть остановлено из-за обнаружения бактерий кишечной группы
19 апреля 2025 Жена Боярского рассказала о его самочувствии