კვლევა: Meta-ს AI მოდელს „ჰარი პოტერის“ წიგნის თითქმის ნახევრის რეპროდუცირება შეუძლია

ახალი კვლევა აჩვენებს, რომ Meta-ს Llama 3.1 AI მოდელმა პირველი „ჰარი პოტერის“ წიგნის 42% „დაიმახსოვრა“ და მისი რეპროდუცირება შეუძლია. კვლევას დიდი გავლენა ექნება AI კომპანიების წინააღმდეგ მიმდინარე საავტორო უფლებების დავებზე, რადგან ის ეჭვქვეშ აყენებს მტკიცებას, რომ პირდაპირი კოპირება „განაპირა ქცევაა“ და რთულ კითხვებს აჩენს კლასობრივი სარჩელებისთვის.

კვლევა: Meta-ს AI მოდელს „ჰარი პოტერის“ წიგნის თითქმის ნახევრის რეპროდუცირება შეუძლია

კვლევას, შესაძლოა, დიდი გავლენა ჰქონდეს გენერაციული AI-ს საავტორო უფლებების სასამართლო დავებზე.

საუკეთესო ტექნოლოგიური კომპანიები გეძებენ!
ეწვიე ITJobs.ge-ს
საუკეთესო ტექნოლოგიური კომპანიები გეძებენ!
ეწვიე ITJobs.ge-ს

ბოლო წლებში უამრავმა მოსარჩელემ — მათ შორის წიგნების, გაზეთების, კომპიუტერული კოდისა და ფოტოების გამომცემლებმა — უჩივლა AI კომპანიებს საავტორო უფლებებით დაცული მასალის გამოყენებით მოდელების გაწვრთნისთვის. ყველა ამ სასამართლო დავაში მთავარი კითხვა იყო, თუ რა სიხშირით ახდენენ AI მოდელები მოსარჩელეთა საავტორო უფლებებით დაცული კონტენტიდან სიტყვასიტყვითი ამონარიდების რეპროდუცირებას.

მაგალითად, 2023 წლის დეკემბერში OpenAI-ს წინააღმდეგ შეტანილ სარჩელში, The New York Times Company-მ ათობით მაგალითი წარმოადგინა, სადაც GPT-4 ზუსტად იმეორებდა Times-ის სტატიებიდან მნიშვნელოვან პასაჟებს. საპასუხოდ, OpenAI-მ ამას „განაპირა ქცევა“ (fringe behavior) უწოდა.

მაგრამ არის თუ არა ეს ნამდვილად განაპირა ქცევა? და მოაგვარეს თუ არა წამყვანმა AI კომპანიებმა ეს პრობლემა? ახალი კვლევა — რომელიც გაზეთების ნაცვლად წიგნებზე და სხვადასხვა კომპანიაზეა ფოკუსირებული — ამ კითხვაზე მოულოდნელ პასუხებს გვთავაზობს.

ნაშრომი გასულ თვეს სტენფორდის, კორნელისა და დასავლეთ ვირჯინიის უნივერსიტეტების კომპიუტერული მეცნიერებისა და სამართლის მკვლევართა გუნდმა გამოაქვეყნა. მათ შეისწავლეს, შეეძლო თუ არა ხუთ პოპულარულ ღია წონის (open-weight) მოდელს — სამი Meta-სგან და თითო-თითო Microsoft-ისა და EleutherAI-სგან — ტექსტის რეპროდუცირება Books3-დან, წიგნების კოლექციიდან, რომელიც ფართოდ გამოიყენება LLM-ების გასაწვრთნელად.

მათი ყველაზე გასაკვირი აღმოჩენა: კვლევის მიხედვით, Llama 3.1 70B — საშუალო ზომის მოდელი, რომელიც Meta-მ 2024 წლის ივლისში გამოუშვა — ბევრად უფრო მაღალი ალბათობით ახდენს „ჰარი პოტერის“ ტექსტის რეპროდუცირებას, ვიდრე ნებისმიერი სხვა მოდელი.

კონკრეტულად, ნაშრომის შეფასებით, Llama 3.1 70B-მ პირველი „ჰარი პოტერის“ წიგნის 42 პროცენტი საკმარისად კარგად დაიმახსოვრა, რომ 50-ტოკენიანი ამონარიდების რეპროდუცირება შემთხვევათა სულ მცირე ნახევარში შეძლოს.

საინტერესოა, რომ Llama 1 65B-მ, მსგავსი ზომის მოდელმა, რომელიც 2023 წლის თებერვალში გამოვიდა, „ჰარი პოტერი და ფილოსოფიური ქვის“ მხოლოდ 4.4 პროცენტი დაიმახსოვრა. ეს იმაზე მიუთითებს, რომ პოტენციური იურიდიული პასუხისმგებლობის მიუხედავად, Meta-მ ბევრი არაფერი გააკეთა დამახსოვრების თავიდან ასაცილებლად. ყოველ შემთხვევაში, ამ წიგნისთვის, პრობლემა Llama 1-სა და Llama 3-ს შორის ბევრად გაუარესდა.

მკვლევრებმა აღმოაჩინეს, რომ Llama 3.1 70B ბევრად უფრო მაღალი ალბათობით ახდენდა პოპულარული წიგნების — როგორიცაა „ჰობიტი“ და ჯორჯ ორუელის „1984“ — რეპროდუცირებას, ვიდრე ნაკლებად ცნობილი წიგნების. „ჩვენ ველოდით, რომ რეპლიკაციის რაღაც დაბალ დონეს, 1-2 პროცენტის ფარგლებში, ვნახავდით“, — მითხრა Mark Lemley-მ, სტენფორდის სამართლის პროფესორმა. „პირველი, რამაც გამაკვირვა, არის ის, თუ რა დიდი ვარიაციაა“.

ეს შედეგები AI-ს საავტორო უფლებების დებატებში ორივე მხარეს აძლევს საყრდენს. კრიტიკოსებისთვის, მთავარი დასკვნა ისაა, რომ — სულ მცირე, ზოგიერთი მოდელისა და წიგნისთვის — დამახსოვრება განაპირა ფენომენი არ არის.

მეორე მხრივ, კვლევამ მნიშვნელოვანი დამახსოვრება მხოლოდ რამდენიმე პოპულარულ წიგნში აღმოაჩინა. მაგალითად, მკვლევრებმა დაადგინეს, რომ Llama 3.1 70B-მ ავტორ Richard Kadrey-ს 2009 წლის რომანის, Sandman Slim-ის, მხოლოდ 0.13 პროცენტი დაიმახსოვრა. ეს „ჰარი პოტერის“ 42 პროცენტთან შედარებით მცირე ნაწილია.

ეს, შესაძლოა, თავსატეხი გახდეს იმ იურიდიული ფირმებისთვის, რომლებმაც AI კომპანიების წინააღმდეგ კლასობრივი სარჩელები შეიტანეს. Kadrey არის Meta-ს წინააღმდეგ კლასობრივი სარჩელის მთავარი მოსარჩელე. ასეთი განსხვავებული შედეგები, შესაძლოა, ეჭვქვეშ დააყენოს, რამდენად ლოგიკურია J.K. Rowling-ის, Kadrey-სა და ათასობით სხვა ავტორის ერთ მასობრივ სარჩელში გაერთიანება.

როგორ გაზომეს მათ დამახსოვრება

LLM-ის მუშაობის ტექნიკის წყალობით, მკვლევრებს არ დასჭირვებიათ მრავალი შედეგის გენერირება კონკრეტული პასუხის ალბათობის შესაფასებლად. ამის ნაცვლად, მათ შეეძლოთ, გამოეთვალათ თითოეული ტოკენის ალბათობა და შემდეგ გადაემრავლებინათ ისინი.

მაგალითად, ავტორების შეფასებით, ზოგიერთი წიგნიდან 50-ტოკენიანი მიმდევრობის ზუსტად რეპროდუცირებას 10 კვადრილიონზე მეტი ნიმუში დასჭირდებოდა. ცხადია, ამდენი შედეგის გენერირება პრაქტიკულად შეუძლებელი იქნებოდა. მაგრამ ეს არც იყო საჭირო: ალბათობის შეფასება 50 ტოკენის ალბათობების გადაмножением იყო შესაძლებელი.

მნიშვნელოვანია აღინიშნოს, რომ ნებისმიერი ენობრივი მოდელისთვის, ნებისმიერი 50-ტოკენიანი მიმდევრობის „შემთხვევით“ გენერირების ალბათობა გაქრობამდე მცირეა. თუ მოდელი საავტორო უფლებებით დაცული ნაწარმოებიდან 50 ტოკენს აგენერირებს, ეს ძლიერი მტკიცებულებაა, რომ ტოკენები საწვრთნელი მონაცემებიდან „მომდინარეობს“.

ჩვენ არ ვიცით, როგორ მოხვდა „ჰარი პოტერი“ Llama-ს მოდელებში

კვლევის ავტორებმა 36 წიგნი აიღეს და თითოეული მათგანი გადამფარავ 100-ტოკენიან პასაჟებად დაყვეს. პირველი 50 ტოკენის პრომპტად გამოყენებით, ისინი ითვლიდნენ ალბათობას, რომ შემდეგი 50 ტოკენი ორიგინალური პასაჟის იდენტური იქნებოდა. ისინი პასაჟს „დამახსოვრებულად“ თვლიდნენ, თუ მოდელს მისი სიტყვასიტყვით რეპროდუცირების 50%-ზე მეტი შანსი ჰქონდა.

ეს კვლევა ძლიერ მტკიცებულებას გვაწვდის, რომ ჰარი პოტერი და ფილოსოფიური ქვის მნიშვნელოვანი ნაწილები Llama 3.1 70B-ის წონებში იქნა კოპირებული. მაგრამ ეს აღმოჩენა არ გვიხსნის, რატომ ან როგორ მოხდა ეს.

პასუხისმგებლობის სამი თეორია

სინამდვილეში, არსებობს სამი განსხვავებული თეორია იმის შესახებ, თუ როგორ შეიძლება დაარღვიოს საავტორო უფლებები მოდელის საავტორო უფლებებით დაცულ ნამუშევრებზე გაწვრთნამ:

  1. საავტორო უფლებებით დაცულ ნამუშევარზე წვრთნა თავისთავად დარღვევაა, რადგან წვრთნის პროცესი ნაწარმოების ციფრული ასლის შექმნას გულისხმობს.

  2. წვრთნის პროცესი საწვრთნელი მონაცემებიდან ინფორმაციას მოდელში აკოპირებს, რაც მოდელს საავტორო უფლებების კანონის მიხედვით ნაწარმოებ ნამუშევრად აქცევს.

  3. დარღვევა ხდება მაშინ, როდესაც მოდელი აგენერირებს საავტორო უფლებებით დაცული ნაწარმოების (ნაწილებს).

ახალი კვლევა „ართულებს იმ ისტორიას, რომელსაც მოპასუხეები ამ საქმეებში ჰყვებიან“, — მითხრა თანაავტორმა Mark Lemley-მ. „რომელიც არის: „ჩვენ უბრალოდ სიტყვების წყობას ვსწავლობთ. არაფერი აქედან მოდელში არ ჩანს“.“

Timothy B. Lee 2017-2021 წლებში Ars Technica-ს შტატში იყო. დღეს ის წერს Understanding AI-ს, ბიულეტენს, რომელიც იკვლევს, თუ როგორ მუშაობს AI და როგორ ცვლის ის ჩვენს სამყაროს. მისი გამოწერა შეგიძლიათ აქ.

ITNEWS-ის მეგობარი ვებ-გვერდია ITJOBS.GE. ITJOBS.GE-ზე ორგანიზაციებს და ფიზიკურ პირებს, აქვთ საშუალება განათავსონ როგორც ვაკანსები, ტრენინგები და ივენთები ასევე კონკრეტული Tech დავალებები, რისთვისაც ეძებენ დეველოპერებს, დიზაინერებს, სეო სპეციალისტებს და ა.შ. ITJOBS.GE - იპოვე დასაქმების საუკეთესო შესაძლებლობები ან გამოაქვეყნე ვაკანსია / დავალება და მიაწვდინე ხმა სასურველ აუდიტორიას.

გაზიარება

როგორია თქვენი რეაქცია?

მოწონება მოწონება 0
არ მომწონს არ მომწონს 0
სიყვარული სიყვარული 0
სასაცილო სასაცილო 0
გაბრაზებული გაბრაზებული 0
მოწყენილი მოწყენილი 0
ვაუ ვაუ 0