در چند سال گذشته، استارتآپهای هوش مصنوعی شروع به آزمایش مدلهای کسبوکار جدید کردند و سعی داشتند جایگاهی برای محتوای تولیدی پیدا کنند. آنها این کار را با درگیر کردن فعالانه کاربران انجام دادند. اما مهمتر از آن، با ایجاد API برای پلتفرم های خود بوده است. بسیاری از محصولات Phind، ChatGPT و Midjorney شنیده و حتی از آنها استفاده کرده اند.
اخیراً، من با محصولات و ابزارهای مرتبط با هوش مصنوعی کار میکنم و درباره نحوه استفاده همکاران از هوش مصنوعی مولد تحقیق میکنم. شروع کردم به تعجب در مورد سوالات زیر:
- آیا حرفه های تولید محتوا از بین خواهند رفت؟
- ابزارهای هوش مصنوعی دقیقا چه تأثیری بر صنایع خاص خواهند داشت؟
- مزایای انسان در مقایسه با برنامه های کاربردی هوش مصنوعی مولد چیست؟
بیایید با هم به این سوالات بپردازیم.
کاربرد و اپلیکیشن های هوش مصنوعی
در حال حاضر اپلیکیشن ها و برنامه هایی در زمینه های زیر وجود دارد:
- تولید تصویر.
- تولید متن
- تولید کد.
- تولید ویدئو.
- تولید شکل سه بعدی
- مولد تبدیل متن به گفتار
- تبدیل گفتار به گفتار.
- موسیقی.
- ترجمه معنایی تصویر به عکس.
- تبدیل تصویر به تصویر
- افزایش وضوح تصویر
حداقل، هوش مصنوعی مولد به طور جدی بر صنایعی که منبع باز استفاده می شود تأثیر می گذارد. این شامل سناریوهایی است که نیاز به تولید داده، خلاصه کردن و شفاف سازی زمینه ای دارند. در تصویربرداری، استفاده از فرمت خاصی از تصاویر، فیلم ها و گرافیک های سه بعدی تأثیر خواهد گذاشت.
اگرچه یک فناوری کاملاً چشمگیر است، اما هوش مصنوعی Generative از یادگیری ماشینی، مدلهای زبان و مدلهای گرافیکی که توسط انسانها حاشیهنویسی و برچسبگذاری شدهاند، استفاده میکند. انسان ها هنوز در تولید ایده ها حیاتی هستند. ایده ایجاد این مقاله به تنهایی به وجود آمد. اما، من برای نوشتن متن با استفاده از هوش مصنوعی مولد الهام گرفتم. این مدل ها از محتوای تولید شده توسط انسان استفاده می کنند و اکنون می توانیم از محتوای تولید شده توسط هوش مصنوعی برای الهام گرفتن و ایده های جدید استفاده کنیم.
علیرغم پیشرفتهایی که در AI/ML صورت گرفته است، تمام یادگیریها توسط انسان هدایت میشود و به کمک انسان انجام میشود. بیشتر دادههایی که مدلها روی آنها آموزش دیدهاند در دسترس عموم هستند. همچنین انبوهی از دادههای خصوصی وجود دارد که در دسترس انسانها هستند و عمدتاً برای آموزش مدل استفاده نمیشوند. به عنوان مثال، سیستمهای دانش داخلی شرکت، پایگاههای اطلاعاتی منبع بسته و کتابخانهها.
چگونه در محتوای تولید شده گم نشویم؟
در دسترس بودن ChatGPT باعث ایجاد بحث های فعال و حتی داغ در مورد مصلحت و اخلاقیات استفاده از فناوری در زمینه آموزش – هنگام گذراندن گواهینامه های حرفه ای، هنگام پاسخگویی به امتحانات و غیره شده است. StackOverflow سیاست های استفاده خود را به روز کرده و استفاده از ChatGPT را ممنوع کرده است. وزارت آموزش نیویورک ChatGPT را در دستگاهها و شبکههای مدرسه مسدود میکند.
چنین دستیارها و ابزارهایی جایگاه آنها را اشغال می کنند و سرعت کار با داده ها را به میزان قابل توجهی افزایش می دهند. با این حال، نتایج همچنان توسط افرادی با تجربه مرتبط بررسی می شود تا پاسخ ها را تأیید و اعمال کنند.
اعتبار سنجی خروجی هوش مصنوعی
حقیقت نهایی در مورد هوش مصنوعی متنی این است که از آن طرف صفحه، ما به افراد نیاز داریم. فرض کنید در یک زمینه خاص متخصص موضوع نیستید. در نگاه اول، ممکن است به نظر برسد که متن تولید شده صحیح است. اما مثالهای زیادی وجود دارد که محتوای تولید شده حاوی تمام دادهها، کلمات اختصاری و اصطلاحات مورد نیاز است اما با اشتباهات مزخرف یا مهم.
بنابراین ما به کسی نیاز داریم که بتواند خروجی هوش مصنوعی تولیدی را تایید کند.
بسیاری از استارتاپ ها و برنامه های کاربردی در تقاطع حوزه های مختلف تولید محتوا در حال ظهور هستند. جالب اینجاست که حتی پلتفرم هایی برای تولید سایت ها و مطالب تنها با هدف راه اندازی استارت آپ ها وجود دارد.
موارد زیادی وجود دارد که تصاویر تولید شده به عنوان تصاویر رویدادها یا افراد واقعی منتشر و ارائه می شوند. چنین مواردی نیاز به ابزارهای تشخیص برای اعتبارسنجی تصاویر را ایجاد می کند. شاید شرکت ها و پروژه های تولید تصویر بتوانند پیکسل های خاصی را برای علامت گذاری تصویر به عنوان تولید شده اضافه کنند. تاکنون، ابتکاراتی از سوی هنرمندانی وجود دارد که تصاویر خود را با هدف منع استفاده از آنها در آموزش مدلهای هوش مصنوعی برچسبگذاری میکنند. به عنوان مثال، NO AI. همچنین برخی از هنرمندان به دلیل نقض حق چاپ شکایت می کنند.
آیا ابزارهایی برای تشخیص متون و تصاویر تولید شده ظاهر می شوند؟ و چقدر سریع؟ برخی از ابزارها از قبل وجود دارند، مانند مجموعه داده چالش تشخیص عمیق و طبقهبندیکننده متن هوش مصنوعی برای تشخیص تولید متن. به عنوان مثال، برای چهره ها، ابزاری برای محافظت از حریم خصوصی شما هنگام ارسال تصاویر در شبکه وجود دارد، Fawkes.
دلیل رشد استارت آپ ها و شرکت ها در این بخش چیست؟
من فرض می کنم که این یک اثر تجمعی از موارد زیر است:
- افزایش دانشمندان داده و در نتیجه افزایش تعداد و کیفیت انتشارات و استنادات علمی
- سرمایه گذاری های مالی در این راستا
- در دسترس بودن گسترده قدرت پردازش با کاهش هزینه آنها
در سال های گذشته، بسیاری از منابع و سرمایه گذاری ها به سمت شرکت های هوش مصنوعی هدایت می شد. دانشگاه هایی که به طور سنتی در مورد AI/ML تحقیق می کردند، در 5-10 سال گذشته شروع به توسعه بیشتر این جهت کرده اند. تعداد ادارات مربوطه، دانشجویان و کارکنان علمی پیوسته افزایش یافت. شرکت های تجاری می توانند با دانشگاه های مربوطه همکاری کنند و پروژه ها و تحقیق و توسعه خود را ایجاد کنند.
در طول پنج سال گذشته، برگزارکنندگان کنفرانسها، کارگاهها و سمینارها شروع به جذب سخنرانان مرتبط بیشتری کردند. در حال حاضر، اکثر کنفرانسها، رویدادها/نمایشگاههای فناوری اطلاعات دارای بخشها یا مناطق مجزا با AI/ML هستند.
محدودیت های هوش مصنوعی چیست؟
اولین مورد، محدودیت های خود برای هر پلتفرم موجود است که در مدت استفاده مشخص شده است. بسیاری از مدلها دارای فیلترهای متن ورودی هستند که توضیح میدهند چه چیزی تولید شود. برای مثال، محدودیتهایی برای ایجاد محتوایی اعمال میشود که نفرت را تحریک میکند، شکلگیری جعلی، مطالب حاوی محتوای صریح. علاوه بر این، اندازه خروجی برای تولید تصویر محدود است. به عنوان مثال، گزینه های اندازه موجود: 256×256، 512×512، 1024×1024. یعنی اگر می خواهید تصویری با اندازه غیر استاندارد ایجاد کنید، در حال حاضر باید از کار انسان ها استفاده کنید.
در نمایش متن مرتبط روی تصویر تولید شده مشکلاتی وجود دارد:
ابزارها همچنین ممکن است محدودیت هایی را اعمال کنند زیرا خود ابزار هنوز کنترل کاملی بر پشتیبانی از محدودیت های مورد نظر مندرج در شرایط و ضوابط ندارد. به عنوان مثال، کد منبع Imagen Video هنوز به دلایل مربوط به فیلتر کردن محتوای حساس منتشر نشده است. علاوه بر این، محدودیتهایی برای پلتفرمها یا سازمانها وجود دارد که بر استفاده از نتایج هوش مصنوعی مولد اعمال میشوند. باز هم، این عمدتا به دلیل عدم توانایی در کنترل کیفیت محتوا است.
بنابراین، جایی که محدودیتهای فنی و محدودیتهای خود تحمیلی وجود دارد، نیروی انسانی همچنان در ایجاد محتوای مرتبط مشارکت خواهد داشت.
حق کپی رایت محتوا
ابتدا اجازه دهید نگاهی به مجوز و حقوق کاربر اختصاص داده شده برای انواع مختلف برنامه ها بیندازیم.
“Midjourney” یک برنامه هنری مولد محبوب است. حداکثر 25 تصویر برای کاربران جدید رایگان است. محتوای اصلی تحت مجوز Creative Commons NonCommercial 4.0 Attribution International مجوز دارد. این بدان معنی است که شما نمی توانید از تصاویر تولید شده برای مقاصد تجاری استفاده کنید. کلیه حقوق تصاویر به مشتریان پرداخت کننده منتقل می شود، به این معنی که چنین تصاویری می توانند به صورت تجاری استفاده شوند. یک محدودیت جالب وجود دارد: اگر از خدمات برای سود شرکتی با درآمد سالانه بیش از 1 میلیون دلار استفاده می کنید، باید از بسته شرکتی استفاده کنید.
در مقابل، OpenAI در بخش «محتوای شما» شرایط استفاده، موارد زیر را بیان میکند: «… بدین وسیله تمام حقوق، عنوان و منافع خود را به شما واگذار میکند.» حقوق محتوا متعلق به کاربر است. حتی اگر از اعتبار رایگان برای کاربران جدید استفاده کنید.
مبارزه برای جلب توجه ادامه دارد
توجه، چیزی است که همه تولیدکنندگان محتوا برای آن مبارزه میکنند و پس از جلب توجه، میتوانید محتوای خود را به اشتراک بگذارید و مردم را درگیر و تحت تأثیر قرار دهید. با جلب توجه افراد با مشخصات خاص، می توانید از جمله محصولات، خدمات، اطلاعات و ایده های مرتبط یا تبلیغات پنهان را تبلیغ کنید. چیز جدیدی نیست.
در حال حاضر، ارائه محتوا می تواند بهبود یابد. هوش مصنوعی مولد نمی تواند محتوای خود را به تنهایی در پلتفرم ها و شبکه های اجتماعی توزیع کند. این کار هنوز توسط افرادی انجام می شود که مخاطب دارند. به عنوان یک قاعده، افراد محتوا را از طریق کانال ها/صفحه های خود یا در همان پلتفرم هایی که در آن محتوا تولید می کنند به اشتراک می گذارند.
تولید کننده عکس نیز به توجه قابل توجه سازندگان به هوش مصنوعی Generative پاسخ داده است. Getty Images و Shutterstock قوانین خود را به روز کرده اند و تصاویر تولید شده توسط هوش مصنوعی را نمی پذیرند. پلتفرم ها و بخش های مختلفی برای محتوای تولید شده (Shutterstock Generate) ایجاد می شود.
من معتقدم که مردم هنرمندان و سازندگان خودکاری ایجاد خواهند کرد که بسته به روندها و عوامل خارجی، محتوای مرتبط را ایجاد کرده و آن را در بسترهای مناسب منتشر می کنند. لو تیانی یکی از نمونههای هنرمندان/خالقان دیجیتال در بخش سرگرمی است که توجه مردم را به خود جلب کرده است. تصاویر و سبک او مبتنی بر گرافیک کامپیوتری است و بخشی از محتوای او تولید می شود. همانطور که او کاملاً شناخته شده است، نشان می دهد که احتمالاً مشکلی با محبوبیت و توجه به این محتوا وجود نخواهد داشت.
تولید تصویر
تولید تصویر یکی از کاربردهای اولیه این فناوری بود و عموم مردم به سرعت آن را با استفاده از این ابزارها اتخاذ کردند. شرکت ها و پروژه ها عبارتند از Stability-AI/Stable diffusion (منبع باز)، Midjourney، OpenAI/DALL-E و Google/Muse.
در زیر دو تصویر تولید شده برای مقایسه آورده شده است. توضیحات: “سورتمه های کریسمس روی برف با هدایا”:
جالبترین جنبه آخرین مجموعه عکسها این است که جزئیات مورد نیاز برای تولید چنین چیزی و عمق دانش لازم برای هر دو مدل آموزشدیده و درخواستکننده نیاز است. توضیحات مربوط به آن به این صورت است:
طراحی انیمیشن PIXER، صحنه زیبای حماسی، سینمایی، پست پروداکشن، عمق میدان، عکاسی سینمایی، سینما، تصحیح رنگ، تصحیح رنگ حرفهای، لنز 55 میلیمتری، جزئیات عالی، فوکوس واضح، جزئیات دقیق، زمان نوردهی طولانی، f/8، ISO 100، سرعت شاتر 1/125، نور پس زمینه پراکنده، جزئیات عکاسی.
همچنین نورپردازی سینمایی، نورپردازی استودیویی، نورپردازی زیبا، نورپردازی تاکیدی، نورپردازی جهانی، نورپردازی فضای صفحه نمایش جهانی، ردیابی پرتو، نورپردازی جهانی، اپتیک، پراکندگی، درخشش، سایه ها، زبری، درخشش، ردیابی پرتو، بازتاب اشعه، بازتاب اشعه ، انعکاس لومن، بازتاب فضای صفحه، درجه بندی پراش، افست GB، خطوط اسکن، ردیابی اشعه، انسداد محیطی ردیابی اشعه، Anti-Aliasing، FKAA، TXAA، RTX، SSAO، سایه بان ها، سایه زن های OpenGL، سایه زن های GLSL، پس پردازش، پس از تولید، Cel Shading، Tone Mapping، CGI، VFX، SFX، جزئیات دیوانه کننده و پیچیده، فوق حداکثری، ظریف، فوق واقعی، فوق العاده جزئی -v 4.
همچنین مدلها و برنامههایی وجود دارند که میتوانند تصاویر مختلف را با هم ترکیب کنند، تصاویر را ویرایش کنند، ماسکها را اعمال کنند و یک تصویر جدید بر اساس دستورات ایجاد کنند، همانطور که در مثالهای زیر مشاهده میکنید.
ساخت ویدئو با هوش مصنوعی
من ویدیوهای زیادی در موضوعات مختلف، با صداهای مختلف و لهجه های مختلف دیده ام. این من را به یاد دوره ای می اندازد که می توانستید همان قالب های جوملا را در یک روز در وب سایت های مختلف استفاده کنید.
از یک طرف، در دسترس بودن چنین شرکت ها و ابزارهایی تولید ویدئو را بسیار ارزان تر می کند. در عین حال محتوای ایجاد شده توسط مردم، با مشارکت مردم و برای مردم را منحصر به فردتر می کند. و من مطمئن هستم که با گذشت زمان، محتوای ایجاد شده توسط مردم ارزش و ارزش بیشتری نسبت به محتوای تولید شده توسط هوش مصنوعی خواهد داشت. به عنوان مثال، اگر میخواهید ویدیویی را با افراد واقعی تماشا کنید که با استفاده از برداشتها، اسکریپتها و هر چیز دیگری ضبط شدهاند، باید هزینه بیشتری بپردازید.
چندین پروژه جالب دیگر با استفاده از این نوع فناوری وجود دارد. یکی Galactica نام دارد که با مقالات علمی کار می کند و استنادها را جستجو می کند. با توجه به علایق موضوعات مرتبط با شبکه، شاهدیم که مهندسان شبکه و توسعهدهندگان اتوماسیون زیرساخت نیز از مدلهای large language models (LLM) برای تسریع کار و عیبیابی، مدیریت خطای پوشش، اعتبارسنجی فایل پیکربندی و غیره استفاده میکنند.
در نظر داشته باشید برای تولید عکس و فیلم شما نیاز به اینترنت پر سرعت دارید. به همین دلیل می توانید مقالات مربوط به بهترین مودم فیبر نوری و کابل شبکه cat8 را در این زمینه مطالعه نمایید.