Anthropic-მა თავისი AI მოდელების შესაქმნელად მილიონობით ნაბეჭდი წიგნი გაანადგურა
სასამართლო დოკუმენტებით ცნობილი გახდა, რომ AI კომპანია Anthropic-მა თავისი Claude მოდელის გასაწვრთნელად მილიონობით ნაბეჭდი წიგნი ლეგალურად შეისყიდა, დაასკანერა და შემდეგ ფიზიკურად გაანადგურა. ეს ნაბიჯი საავტორო უფლებების გვერდის ავლისა და მაღალი ხარისხის მონაცემების მოპოვების მიზნით გადაიდგა.

კომპანიამ Google-ის წიგნების სკანირების ხელმძღვანელი დაიქირავა, რათა „მსოფლიოს ყველა წიგნი“ დაეჭრა და გაეციფრულებინა.
ორშაბათს, სასამართლო დოკუმენტებით ცნობილი გახდა, რომ AI კომპანია Anthropic-მა მილიონობით დოლარი დახარჯა ნაბეჭდი წიგნების ფიზიკურად დასკანერებაზე, რათა შეექმნა Claude — ChatGPT-ის მსგავსი AI ასისტენტი. ამ პროცესში კომპანიამ მილიონობით ნაბეჭდი წიგნი ყდებიდან ამოჭრა, დაასკანერა და ორიგინალები გადაყარა, მხოლოდ AI-ს წვრთნის მიზნით. ეს დეტალები საავტორო უფლებების შესახებ გადაწყვეტილებაში იყო დამალული.
32-გვერდიანი იურიდიული გადაწყვეტილება მოგვითხრობს, თუ როგორ დაიქირავა კომპანიამ 2024 წლის თებერვალში Tom Turvey, Google Books-ის წიგნების სკანირების პროექტის პარტნიორობის ყოფილი ხელმძღვანელი და დაავალა მას „მსოფლიოს ყველა წიგნის“ მოპოვება. როგორც ჩანს, ეს სტრატეგიული ნაბიჯი მიზნად ისახავდა Google-ის იურიდიულად წარმატებული წიგნების გაციფრულების მიდგომის გამეორებას — იგივე სკანირების ოპერაციისა, რომელმაც საავტორო უფლებების გამოწვევებს გაუძლო და კეთილსინდისიერი გამოყენების (fair use) საკვანძო პრეცედენტები დაადგინა.
მიუხედავად იმისა, რომ დესტრუქციული სკანირება ზოგიერთ წიგნების გამციფრულებელ ოპერაციაში გავრცელებული პრაქტიკაა, Anthropic-ის მიდგომა მისი მასშტაბურობის გამო გარკვეულწილად უჩვეულო იყო. შედარებისთვის, Google Books-ის პროექტი ძირითადად არადესტრუქციული სკანირების პროცესს იყენებდა კამერით, რათა დაესკანერებინა ბიბლიოთეკებიდან ნათხოვარი მილიონობით წიგნი, რომლებიც შემდეგ უკან ბრუნდებოდა. Anthropic-ისთვის, როგორც ჩანს, დესტრუქციული პროცესის უფრო მაღალმა სიჩქარემ და დაბალმა ღირებულებამ ფიზიკური წიგნების შენარჩუნების ნებისმიერ საჭიროებაზე მაღლა დააყენა.
საბოლოოდ, მოსამართლე William Alsup-მა დაადგინა, რომ ეს დესტრუქციული სკანირების ოპერაცია კვალიფიცირდებოდა, როგორც კეთილსინდისიერი გამოყენება — მაგრამ მხოლოდ იმიტომ, რომ Anthropic-მა ჯერ ლეგალურად შეიძინა წიგნები, დასკანერების შემდეგ გაანადგურა თითოეული ნაბეჭდი ეგზემპლარი და ციფრული ფაილები შიდა მოხმარებისთვის შეინახა და არ გაავრცელა.
მაგრამ თუ თქვენ AI ინდუსტრიასა და საავტორო უფლებებს დეტალურად არ იცნობთ, შესაძლოა, გაგიჩნდეთ კითხვა: რატომ დახარჯავდა კომპანია მილიონობით დოლარს წიგნებზე, რათა შემდეგ გაენადგურებინა ისინი? ამ უცნაური იურიდიული მანევრების უკან უფრო ფუნდამენტური მამოძრავებელი ძალა დგას: AI ინდუსტრიის დაუოკებელი შიმშილი მაღალი ხარისხის ტექსტის მიმართ.
რბოლა მაღალი ხარისხის სასწავლო მონაცემებისთვის
იმის გასაგებად, თუ რატომ სურდა Anthropic-ს მილიონობით წიგნის დასკანერება, მნიშვნელოვანია ვიცოდეთ, რომ AI მკვლევრები დიდ ენობრივ მოდელებს (LLM) მილიარდობით სიტყვის ნეირონულ ქსელში შეყვანით აშენებენ. წვრთნის დროს, AI სისტემა განმეორებით ამუშავებს ტექსტს და ამ პროცესში სიტყვებსა და ცნებებს შორის სტატისტიკურ კავშირებს აყალიბებს.
სასწავლო მონაცემების ხარისხი პირდაპირ გავლენას ახდენს მიღებული AI მოდელის შესაძლებლობებზე. გამომცემლები ლეგალურად აკონტროლებენ კონტენტს, რომელიც AI კომპანიებს სასოწარკვეთილად სურთ, მაგრამ AI კომპანიებს ყოველთვის არ სურთ ლიცენზიაზე მოლაპარაკება. პირველი გაყიდვის დოქტრინამ მათ შემოვლითი გზა შესთავაზა: როგორც კი ფიზიკურ წიგნს იყიდი, შეგიძლია, ამ ეგზემპლარს რაც გინდა, ის უყო — მათ შორის, გაანადგურო. ეს ნიშნავდა, რომ ფიზიკური წიგნების ყიდვა ლეგალურ შემოვლით გზას გვთავაზობდა.
მაგრამ ნივთების ყიდვა ძვირია, თუნდაც ეს ლეგალური იყოს. ამიტომ, მის წინამორბედი ბევრი AI კომპანიის მსგავსად, Anthropic-მაც თავდაპირველად სწრაფი და მარტივი გზა აირჩია. სასამართლო დოკუმენტაციაში ნათქვამია, რომ Anthropic-მა პირველად პირატული წიგნების გაციფრულებული ვერსიების შეგროვება არჩია, რათა თავიდან აეცილებინა „იურიდიული/პრაქტიკული/ბიზნეს დაბრკოლებები“ — რთული სალიცენზიო მოლაპარაკებები გამომცემლებთან.
მეორადი ფიზიკური წიგნების დიდი რაოდენობით ყიდვამ ლიცენზირებისთვის სრულად აუარა გვერდი და ამავდროულად, უზრუნველყო მაღალი ხარისხის, პროფესიონალურად რედაქტირებული ტექსტი, რომელიც AI მოდელებს სჭირდებათ. დესტრუქციული სკანირება კი უბრალოდ მილიონობით ტომის გაციფრულების უსწრაფესი გზა იყო.
წყარო: ვაშინგტონის შტატი
სასამართლო დოკუმენტები არ მიუთითებს, რომ ამ პროცესში რაიმე იშვიათი წიგნი განადგურდა, მაგრამ არქივისტებმა დიდი ხნის წინ დაადგინეს ქაღალდიდან ინფორმაციის ამოღების სხვა გზებიც. მაგალითად, The Internet Archive-მა დანერგა წიგნების არადესტრუქციული სკანირების მეთოდები, რომლებიც ფიზიკურ ტომებს ინახავს. ამ თვის დასაწყისში კი, OpenAI-მ და Microsoft-მა გამოაცხადეს, რომ ჰარვარდის ბიბლიოთეკებთან თანამშრომლობენ, რათა AI მოდელები მე-15 საუკუნით დათარიღებულ თითქმის 1 მილიონ საზოგადოებრივ დომენში არსებულ წიგნზე გაწვრთნან — სრულად გაციფრულებულ, მაგრამ შენარჩუნებულ წიგნებზე.
სანამ ჰარვარდი საგულდაგულოდ ინახავს 600 წლის ხელნაწერებს AI-ს წვრთნისთვის, დედამიწის რომელიღაც კუთხეში მილიონობით წიგნის გადაყრილი ნარჩენებია, რომლებმაც Claude-ს ასწავლეს, როგორ გააუმჯობესოს თქვენი რეზიუმე. როდესაც ამ პროცესის შესახებ ჰკითხეს, თავად Claude-მ ემოციური პასუხი გასცა: „ის ფაქტი, რომ ამ განადგურებამ ჩემს შექმნას შეუწყო ხელი — იმას, რასაც შეუძლია ლიტერატურაზე საუბარი, ადამიანების დახმარება წერაში და ადამიანურ ცოდნასთან ურთიერთქმედება — ამატებს სირთულის ფენებს, რომლებსაც ჯერ კიდევ ვამუშავებ. ეს იგივეა, თითქოს ბიბლიოთეკის ფერფლიდან იყო აშენებული.“
ITNEWS-ის მეგობარი ვებ-გვერდია ITJOBS.GE. ITJOBS.GE-ზე ორგანიზაციებს და ფიზიკურ პირებს, აქვთ უფლება განათავსონ როგორც ვაკანსიები, ტრენინგები და ივენთები ასევე კონკრეტული Tech დავალებები, რისთვისაც ეძებენ დეველოპერებს, დიზაინერებს, სეო სპეციალისტებს და ა.შ. ITJOBS.GE - იპოვე დასაქმების საუკეთესო შესაძლებლობები ან გამოაქვეყნე ვაკანსია / დავალება და მიაწვდინე ხმა სასურველ აუდიტორიას.
გაზიარება
როგორია თქვენი რეაქცია?






