Проект по оцифровке более 40 млн документов

06.11.2018

В конце октября 2018 года Библиотека Школы права Гарвардского университета (Harvard Law School Library) завершила длившийся пять лет проект по оцифровке более 40 млн документов, в которых описываются реальные судебные дела. Они были выложены в открытый доступ с целью обучения компьютеров юриспруденции.

Как отмечает издание MIT Technology Review, одной из самых больших проблем на пути развития искусственного интеллекта для юридических приложений является отсутствие доступа к достаточному объему данных. Для обучения таких алгоритмов их разработчикам зачастую приходилось создавать собственные базы, наполняя их скудными данными с публичных веб-сайтов, или договариваться с компаниями для получения доступа к их юридическим файлам.

Гарвард оцифровал миллионы судебных дел для обучения ИИ

Благодаря проекту Гарварда, который получил название Caselaw Access Project, миллионы реальных судебных дел стали доступны в интернете всем желающих. Таким образом, предоставлен большой источник для юридической информации, которую можно использовать для тренировки роботов-юристов.

Кроме того, программы смогут легко искать нужный текст и предоставлять «живым» адвокатам необходимую информацию для работы над тем или иным делом.

Управляющий директор лаборатории Library Innovation Lab при Библиотеке Школы права Гарвардского университета Адам Зиглер (Adam Ziegler) считает, что благодаря Caselaw Access Project будет множество экспериментов, а прогресс в юридическом обучении искусственного интеллекта ускорится.[1]

«
Реально очень сложно построить умный интерфейс, если вы не можете добраться до основных данных, — отметил он.
»

Выложенные Гарвардом материалы включают в себя судебные заключения и стенографии: в них содержатся полные доступные материалы по каждому судебному делу. Первые документы датируются 1658 годом, а последние — 2018-м.

Материал подготовлен Новости ИТ-рынка России от TAdviser


Возврат к списку