هوش مصنوعی چیست

ارسال شده توسط وحید رفیعیان

24 دی 1402

On 23 دی 1402

در چند سال گذشته، استارت‌آپ‌های هوش مصنوعی شروع به آزمایش مدل‌های کسب‌وکار جدید کردند و سعی داشتند جایگاهی برای محتوای تولیدی پیدا کنند. آنها این کار را با درگیر کردن فعالانه کاربران انجام دادند. اما مهمتر از آن، با ایجاد API برای پلتفرم های خود بوده است. بسیاری از محصولات Phind، ChatGPT و Midjorney شنیده و حتی از آنها استفاده کرده اند.

اخیراً، من با محصولات و ابزارهای مرتبط با هوش مصنوعی کار می‌کنم و درباره نحوه استفاده همکاران از هوش مصنوعی مولد تحقیق می‌کنم. شروع کردم به تعجب در مورد سوالات زیر:

آیا حرفه های تولید محتوا از بین خواهند رفت؟
ابزارهای هوش مصنوعی دقیقا چه تأثیری بر صنایع خاص خواهند داشت؟
مزایای انسان در مقایسه با برنامه های کاربردی هوش مصنوعی مولد چیست؟

بیایید با هم به این سوالات بپردازیم.

محتوا پنهان

1 کاربرد و اپلیکیشن های هوش مصنوعی

2 چگونه در محتوای تولید شده گم نشویم؟

3 اعتبار سنجی خروجی هوش مصنوعی

4 دلیل رشد استارت آپ ها و شرکت ها در این بخش چیست؟

5 محدودیت های هوش مصنوعی چیست؟

6 حق کپی رایت محتوا

6.1 مبارزه برای جلب توجه ادامه دارد

7 تولید تصویر

8 ساخت ویدئو با هوش مصنوعی

کاربرد و اپلیکیشن های هوش مصنوعی

در حال حاضر اپلیکیشن ها و برنامه هایی در زمینه های زیر وجود دارد:

تولید تصویر.
تولید متن
تولید کد.
تولید ویدئو.
تولید شکل سه بعدی
مولد تبدیل متن به گفتار
تبدیل گفتار به گفتار.
موسیقی.
ترجمه معنایی تصویر به عکس.
تبدیل تصویر به تصویر
افزایش وضوح تصویر

حداقل، هوش مصنوعی مولد به طور جدی بر صنایعی که منبع باز استفاده می شود تأثیر می گذارد. این شامل سناریوهایی است که نیاز به تولید داده، خلاصه کردن و شفاف سازی زمینه ای دارند. در تصویربرداری، استفاده از فرمت خاصی از تصاویر، فیلم ها و گرافیک های سه بعدی تأثیر خواهد گذاشت.

اگرچه یک فناوری کاملاً چشمگیر است، اما هوش مصنوعی Generative از یادگیری ماشینی، مدل‌های زبان و مدل‌های گرافیکی که توسط انسان‌ها حاشیه‌نویسی و برچسب‌گذاری شده‌اند، استفاده می‌کند. انسان ها هنوز در تولید ایده ها حیاتی هستند. ایده ایجاد این مقاله به تنهایی به وجود آمد. اما، من برای نوشتن متن با استفاده از هوش مصنوعی مولد الهام گرفتم. این مدل ها از محتوای تولید شده توسط انسان استفاده می کنند و اکنون می توانیم از محتوای تولید شده توسط هوش مصنوعی برای الهام گرفتن و ایده های جدید استفاده کنیم.

علی‌رغم پیشرفت‌هایی که در AI/ML صورت گرفته است، تمام یادگیری‌ها توسط انسان هدایت می‌شود و به کمک انسان انجام می‌شود. بیشتر داده‌هایی که مدل‌ها روی آن‌ها آموزش دیده‌اند در دسترس عموم هستند. همچنین انبوهی از داده‌های خصوصی وجود دارد که در دسترس انسان‌ها هستند و عمدتاً برای آموزش مدل استفاده نمی‌شوند. به عنوان مثال، سیستم‌های دانش داخلی شرکت، پایگاه‌های اطلاعاتی منبع بسته و کتابخانه‌ها.

چگونه در محتوای تولید شده گم نشویم؟

در دسترس بودن ChatGPT باعث ایجاد بحث های فعال و حتی داغ در مورد مصلحت و اخلاقیات استفاده از فناوری در زمینه آموزش – هنگام گذراندن گواهینامه های حرفه ای، هنگام پاسخگویی به امتحانات و غیره شده است. StackOverflow سیاست های استفاده خود را به روز کرده و استفاده از ChatGPT را ممنوع کرده است. وزارت آموزش نیویورک ChatGPT را در دستگاه‌ها و شبکه‌های مدرسه مسدود می‌کند.

چنین دستیارها و ابزارهایی جایگاه آنها را اشغال می کنند و سرعت کار با داده ها را به میزان قابل توجهی افزایش می دهند. با این حال، نتایج همچنان توسط افرادی با تجربه مرتبط بررسی می شود تا پاسخ ها را تأیید و اعمال کنند.

اعتبار سنجی خروجی هوش مصنوعی

حقیقت نهایی در مورد هوش مصنوعی متنی این است که از آن طرف صفحه، ما به افراد نیاز داریم. فرض کنید در یک زمینه خاص متخصص موضوع نیستید. در نگاه اول، ممکن است به نظر برسد که متن تولید شده صحیح است. اما مثال‌های زیادی وجود دارد که محتوای تولید شده حاوی تمام داده‌ها، کلمات اختصاری و اصطلاحات مورد نیاز است اما با اشتباهات مزخرف یا مهم.

بنابراین ما به کسی نیاز داریم که بتواند خروجی هوش مصنوعی تولیدی را تایید کند.

بسیاری از استارتاپ ها و برنامه های کاربردی در تقاطع حوزه های مختلف تولید محتوا در حال ظهور هستند. جالب اینجاست که حتی پلتفرم هایی برای تولید سایت ها و مطالب تنها با هدف راه اندازی استارت آپ ها وجود دارد.

موارد زیادی وجود دارد که تصاویر تولید شده به عنوان تصاویر رویدادها یا افراد واقعی منتشر و ارائه می شوند. چنین مواردی نیاز به ابزارهای تشخیص برای اعتبارسنجی تصاویر را ایجاد می کند. شاید شرکت ها و پروژه های تولید تصویر بتوانند پیکسل های خاصی را برای علامت گذاری تصویر به عنوان تولید شده اضافه کنند. تاکنون، ابتکاراتی از سوی هنرمندانی وجود دارد که تصاویر خود را با هدف منع استفاده از آنها در آموزش مدل‌های هوش مصنوعی برچسب‌گذاری می‌کنند. به عنوان مثال، NO AI. همچنین برخی از هنرمندان به دلیل نقض حق چاپ شکایت می کنند.

آیا ابزارهایی برای تشخیص متون و تصاویر تولید شده ظاهر می شوند؟ و چقدر سریع؟ برخی از ابزارها از قبل وجود دارند، مانند مجموعه داده چالش تشخیص عمیق و طبقه‌بندی‌کننده متن هوش مصنوعی برای تشخیص تولید متن. به عنوان مثال، برای چهره ها، ابزاری برای محافظت از حریم خصوصی شما هنگام ارسال تصاویر در شبکه وجود دارد، Fawkes.

دلیل رشد استارت آپ ها و شرکت ها در این بخش چیست؟

من فرض می کنم که این یک اثر تجمعی از موارد زیر است:

افزایش دانشمندان داده و در نتیجه افزایش تعداد و کیفیت انتشارات و استنادات علمی
سرمایه گذاری های مالی در این راستا
در دسترس بودن گسترده قدرت پردازش با کاهش هزینه آنها

در سال های گذشته، بسیاری از منابع و سرمایه گذاری ها به سمت شرکت های هوش مصنوعی هدایت می شد. دانشگاه هایی که به طور سنتی در مورد AI/ML تحقیق می کردند، در 5-10 سال گذشته شروع به توسعه بیشتر این جهت کرده اند. تعداد ادارات مربوطه، دانشجویان و کارکنان علمی پیوسته افزایش یافت. شرکت های تجاری می توانند با دانشگاه های مربوطه همکاری کنند و پروژه ها و تحقیق و توسعه خود را ایجاد کنند.

در طول پنج سال گذشته، برگزارکنندگان کنفرانس‌ها، کارگاه‌ها و سمینارها شروع به جذب سخنرانان مرتبط بیشتری کردند. در حال حاضر، اکثر کنفرانس‌ها، رویدادها/نمایشگاه‌های فناوری اطلاعات دارای بخش‌ها یا مناطق مجزا با AI/ML هستند.

محدودیت های هوش مصنوعی چیست؟

اولین مورد، محدودیت های خود برای هر پلتفرم موجود است که در مدت استفاده مشخص شده است. بسیاری از مدل‌ها دارای فیلترهای متن ورودی هستند که توضیح می‌دهند چه چیزی تولید شود. برای مثال، محدودیت‌هایی برای ایجاد محتوایی اعمال می‌شود که نفرت را تحریک می‌کند، شکل‌گیری جعلی، مطالب حاوی محتوای صریح. علاوه بر این، اندازه خروجی برای تولید تصویر محدود است. به عنوان مثال، گزینه های اندازه موجود: 256×256، 512×512، 1024×1024. یعنی اگر می خواهید تصویری با اندازه غیر استاندارد ایجاد کنید، در حال حاضر باید از کار انسان ها استفاده کنید.

در نمایش متن مرتبط روی تصویر تولید شده مشکلاتی وجود دارد:

بیلبورد با متن “Hi there”

ابزارها همچنین ممکن است محدودیت هایی را اعمال کنند زیرا خود ابزار هنوز کنترل کاملی بر پشتیبانی از محدودیت های مورد نظر مندرج در شرایط و ضوابط ندارد. به عنوان مثال، کد منبع Imagen Video هنوز به دلایل مربوط به فیلتر کردن محتوای حساس منتشر نشده است. علاوه بر این، محدودیت‌هایی برای پلتفرم‌ها یا سازمان‌ها وجود دارد که بر استفاده از نتایج هوش مصنوعی مولد اعمال می‌شوند. باز هم، این عمدتا به دلیل عدم توانایی در کنترل کیفیت محتوا است.

بنابراین، جایی که محدودیت‌های فنی و محدودیت‌های خود تحمیلی وجود دارد، نیروی انسانی همچنان در ایجاد محتوای مرتبط مشارکت خواهد داشت.

حق کپی رایت محتوا

ابتدا اجازه دهید نگاهی به مجوز و حقوق کاربر اختصاص داده شده برای انواع مختلف برنامه ها بیندازیم.

“Midjourney” یک برنامه هنری مولد محبوب است. حداکثر 25 تصویر برای کاربران جدید رایگان است. محتوای اصلی تحت مجوز Creative Commons NonCommercial 4.0 Attribution International مجوز دارد. این بدان معنی است که شما نمی توانید از تصاویر تولید شده برای مقاصد تجاری استفاده کنید. کلیه حقوق تصاویر به مشتریان پرداخت کننده منتقل می شود، به این معنی که چنین تصاویری می توانند به صورت تجاری استفاده شوند. یک محدودیت جالب وجود دارد: اگر از خدمات برای سود شرکتی با درآمد سالانه بیش از 1 میلیون دلار استفاده می کنید، باید از بسته شرکتی استفاده کنید.

در مقابل، OpenAI در بخش «محتوای شما» شرایط استفاده، موارد زیر را بیان می‌کند: «… بدین وسیله تمام حقوق، عنوان و منافع خود را به شما واگذار می‌کند.» حقوق محتوا متعلق به کاربر است. حتی اگر از اعتبار رایگان برای کاربران جدید استفاده کنید.

مبارزه برای جلب توجه ادامه دارد

توجه، چیزی است که همه تولیدکنندگان محتوا برای آن مبارزه می‌کنند و پس از جلب توجه، می‌توانید محتوای خود را به اشتراک بگذارید و مردم را درگیر و تحت تأثیر قرار دهید. با جلب توجه افراد با مشخصات خاص، می توانید از جمله محصولات، خدمات، اطلاعات و ایده های مرتبط یا تبلیغات پنهان را تبلیغ کنید. چیز جدیدی نیست.

در حال حاضر، ارائه محتوا می تواند بهبود یابد. هوش مصنوعی مولد نمی تواند محتوای خود را به تنهایی در پلتفرم ها و شبکه های اجتماعی توزیع کند. این کار هنوز توسط افرادی انجام می شود که مخاطب دارند. به عنوان یک قاعده، افراد محتوا را از طریق کانال ها/صفحه های خود یا در همان پلتفرم هایی که در آن محتوا تولید می کنند به اشتراک می گذارند.

تولید کننده عکس نیز به توجه قابل توجه سازندگان به هوش مصنوعی Generative پاسخ داده است. Getty Images و Shutterstock قوانین خود را به روز کرده اند و تصاویر تولید شده توسط هوش مصنوعی را نمی پذیرند. پلتفرم ها و بخش های مختلفی برای محتوای تولید شده (Shutterstock Generate) ایجاد می شود.

من معتقدم که مردم هنرمندان و سازندگان خودکاری ایجاد خواهند کرد که بسته به روندها و عوامل خارجی، محتوای مرتبط را ایجاد کرده و آن را در بسترهای مناسب منتشر می کنند. لو تیانی یکی از نمونه‌های هنرمندان/خالقان دیجیتال در بخش سرگرمی است که توجه مردم را به خود جلب کرده است. تصاویر و سبک او مبتنی بر گرافیک کامپیوتری است و بخشی از محتوای او تولید می شود. همانطور که او کاملاً شناخته شده است، نشان می دهد که احتمالاً مشکلی با محبوبیت و توجه به این محتوا وجود نخواهد داشت.

تولید تصویر

تولید تصویر یکی از کاربردهای اولیه این فناوری بود و عموم مردم به سرعت آن را با استفاده از این ابزارها اتخاذ کردند. شرکت ها و پروژه ها عبارتند از Stability-AI/Stable diffusion (منبع باز)، Midjourney، OpenAI/DALL-E و Google/Muse.

در زیر دو تصویر تولید شده برای مقایسه آورده شده است. توضیحات: “سورتمه های کریسمس روی برف با هدایا”:

Open AI / DALL-E

Midjourney

جالب‌ترین جنبه آخرین مجموعه عکس‌ها این است که جزئیات مورد نیاز برای تولید چنین چیزی و عمق دانش لازم برای هر دو مدل آموزش‌دیده و درخواست‌کننده نیاز است. توضیحات مربوط به آن به این صورت است:

طراحی انیمیشن PIXER، صحنه زیبای حماسی، سینمایی، پست پروداکشن، عمق میدان، عکاسی سینمایی، سینما، تصحیح رنگ، تصحیح رنگ حرفه‌ای، لنز 55 میلی‌متری، جزئیات عالی، فوکوس واضح، جزئیات دقیق، زمان نوردهی طولانی، f/8، ISO 100، سرعت شاتر 1/125، نور پس زمینه پراکنده، جزئیات عکاسی.

همچنین نورپردازی سینمایی، نورپردازی استودیویی، نورپردازی زیبا، نورپردازی تاکیدی، نورپردازی جهانی، نورپردازی فضای صفحه نمایش جهانی، ردیابی پرتو، نورپردازی جهانی، اپتیک، پراکندگی، درخشش، سایه ها، زبری، درخشش، ردیابی پرتو، بازتاب اشعه، بازتاب اشعه ، انعکاس لومن، بازتاب فضای صفحه، درجه بندی پراش، افست GB، خطوط اسکن، ردیابی اشعه، انسداد محیطی ردیابی اشعه، Anti-Aliasing، FKAA، TXAA، RTX، SSAO، سایه بان ها، سایه زن های OpenGL، سایه زن های GLSL، پس پردازش، پس از تولید، Cel Shading، Tone Mapping، CGI، VFX، SFX، جزئیات دیوانه کننده و پیچیده، فوق حداکثری، ظریف، فوق واقعی، فوق العاده جزئی -v 4.

همچنین مدل‌ها و برنامه‌هایی وجود دارند که می‌توانند تصاویر مختلف را با هم ترکیب کنند، تصاویر را ویرایش کنند، ماسک‌ها را اعمال کنند و یک تصویر جدید بر اساس دستورات ایجاد کنند، همانطور که در مثال‌های زیر مشاهده می‌کنید.

ساخت ویدئو با هوش مصنوعی

من ویدیوهای زیادی در موضوعات مختلف، با صداهای مختلف و لهجه های مختلف دیده ام. این من را به یاد دوره ای می اندازد که می توانستید همان قالب های جوملا را در یک روز در وب سایت های مختلف استفاده کنید.

از یک طرف، در دسترس بودن چنین شرکت ها و ابزارهایی تولید ویدئو را بسیار ارزان تر می کند. در عین حال محتوای ایجاد شده توسط مردم، با مشارکت مردم و برای مردم را منحصر به فردتر می کند. و من مطمئن هستم که با گذشت زمان، محتوای ایجاد شده توسط مردم ارزش و ارزش بیشتری نسبت به محتوای تولید شده توسط هوش مصنوعی خواهد داشت. به عنوان مثال، اگر می‌خواهید ویدیویی را با افراد واقعی تماشا کنید که با استفاده از برداشت‌ها، اسکریپت‌ها و هر چیز دیگری ضبط شده‌اند، باید هزینه بیشتری بپردازید.

چندین پروژه جالب دیگر با استفاده از این نوع فناوری وجود دارد. یکی Galactica نام دارد که با مقالات علمی کار می کند و استنادها را جستجو می کند. با توجه به علایق موضوعات مرتبط با شبکه، شاهدیم که مهندسان شبکه و توسعه‌دهندگان اتوماسیون زیرساخت نیز از مدل‌های large language models (LLM) برای تسریع کار و عیب‌یابی، مدیریت خطای پوشش، اعتبارسنجی فایل پیکربندی و غیره استفاده می‌کنند.

در نظر داشته باشید برای تولید عکس و فیلم شما نیاز به اینترنت پر سرعت دارید. به همین دلیل می توانید مقالات مربوط به بهترین مودم فیبر نوری و کابل شبکه cat8 را در این زمینه مطالعه نمایید.

وبلاگ