Строго говоря, попытки превратить огромную библиотеку знаний Википедии в структурированный источник данных уже предпринимались. Например, проект DBpedia пытался создать такую систему, но она была односторонней – клиенты-машины не могли вносить в нее свои правки. Новый проект Wikidata, в свою очередь, не просто делает данные доступными для людей и машин – он позволяет вносить правки от лица и живых людей, и бездушных вычислительных систем.

Цель проекта Wikidata по разработке семантической базы данных, доступной для чтения машинам, должна помочь не только всему Интернету в целом, но и самой Википедии. Структурировать планируется все языковые версии Википедии, содержащие знания по одним и тем же понятиям. На текущий момент максимальный охват сведений предлагается на английском, немецком, французском и голландском языках, а вот другие языки, включая русский, значительно отстают.

Структурирование данных в Wikidata позволит автоматически отвечать на запросы типа «десять крупнейших городов мира, где мэром является женщина». На данный момент ответы на такие вопросы можно находить в так называемых Списках Википедии, которые составляются вручную. Проект Wikidata поможет формировать их автоматически.

Стартовую работу по созданию БД Wikidata ведет германское отделение фонда Wikimedia Deutschland. В дальнейшем планируется передача полномочий по управлению и обслуживанию международной штаб-квартире Wikimedia. Полностью международный этап проекта должен стартовать в марте 2013 года. Весь проект разбит на три фазы, первая из которых включает в себя создание страниц Wikidata для каждой записи Википедии на всех 280 с лишним языках. Все цифровые данные, таким образом, будут храниться в едином источнике – в БД Wikidata. Также в первой фазе планируется централизовать ссылки между разными языковыми версиями Википедии – эта фаза должна завершиться к августу 2012 года.

Во второй фазе редакторы смогут добавлять и использовать данные Wikidata (срок завершения – декабрь 2012 г.). Наконец, третья фаза предоставит автоматическое создание списков и графиков на основании данных Wikidata, так что статьи Википедии будут наполняться, в том числе, результатами обработки БД Wikidata.

Уже сейчас разработка проекта Wikidata получает серьезную поддержку – финансирование в размере 1,3 млн. евро наполовину обеспечивает Институт искусственного интеллекта Аллена, который создан Полом Алленом (Paul Allen), сооснователем компании Microsoft, в 2010 г. Еще четверть от начального финансирования предоставил фонд Гордона и Бетти Мур (Gordon and Betty Moore Foundation) и еще четверть – компания Google. Кстати, именно последняя, судя по всему, планирует активно использовать результаты проекта Wikidata в своих поисковых технологиях, ведь, по сути, задача одна – структурировать массу разрозненных данных и выдавать ответы на неструктурированные запросы с помощью специальных семантических алгоритмов.

По материалам сайта TechCrunch.