النماذج اللغوية

+-

النماذج اللغوية والنماذج المتسلسلة في الذكاء الاصطناعي


مواصلة لبوستات الذكاء الاصطناعي السابقة، دعونا نتحدث عن مفهوم مهم في هذا المجال.


ما هي النماذج اللغوية (LLMs)؟


في الذكاء الاصطناعي يوجد ما يُعرف بالنماذج اللغوية (Large Language Models – LLMs)، وهي ببساطة نماذج تُستخدم لتنفيذ المهام المرتبطة بفهم النصوص.


على سبيل المثال، نظام مثل ChatGPT يعتمد أساسًا على نموذج لغوي يُسمى GPT، ثم تُضاف إليه مكونات وتقنيات أخرى ليصبح نظامًا متكاملًا قادرًا على التفاعل مع المستخدمين.


هذه النماذج تحاول فهم العلاقة بين الكلمات داخل الجمل، مثل الجملة التالية:


I went to school yesterday.


من الواضح أن هناك علاقة بين كلمة went وكلمة yesterday. لكن كيف يستطيع النموذج فهم هذه العلاقة؟


كيف تفهم النماذج الكلمات؟ (Embeddings)


النموذج لا يتعامل مع الكلمات بصورتها النصية كما نفعل نحن البشر، لذلك يقوم بتحويل الكلمات إلى تمثيل رقمي يُعرف باسم Embeddings.


وهو عبارة عن متجهات رقمية (Vectors) تحتوي على أرقام، لكنها في الوقت نفسه تحمل معنى الكلمة وسياقها.


بعد ذلك يأتي نموذج مهم في هذا المجال يُسمى Transformer، ويستخدم آلية تُعرف باسم Attention.

هذه الآلية تحسب مقدار التشابه أو الارتباط بين الكلمات (أو المتجهات الرقمية الخاصة بها)، ومن خلال ذلك يبدأ النموذج في فهم كيفية عمل اللغة والتعلم منها.


النماذج المتسلسلة (Sequential Models)


في الحقيقة، يمكن تعميم فكرة هذه النماذج بشكل أوسع، إذ تُعرف أيضًا باسم النماذج المتسلسلة.


أي أن الفكرة لا ترتبط فقط بالكلمات أو اللغة، بل يمكن استخدامها مع أي بيانات تأتي في شكل متسلسل، بحيث نحاول إيجاد العلاقة بين عناصر هذا التسلسل.


مثال من علم الأحياء: البروتينات


في علم الأحياء توجد البروتينات، وهي تقريبًا سلسلة متصلة من الأحماض الأمينية، ويمكن تمثيلها بشكل رمزي مثل:


ABFODFFHDIFHDAOFJDOAJSAODKSAPJDASOD


حيث يمثل كل حرف حمضًا أمينيًا معينًا.


وفي الذكاء الاصطناعي قد نواجه مسألة مثل:

إذا أعطيتك سلسلة البروتين هذه مع بعض البيانات الإضافية، هل يمكنك بناء نموذج يحدد وظيفة هذا البروتين؟


هذا النوع من المسائل مهم جدًا، لأنه قد يساعد في فهم الأمراض أو تطوير الأدوية.

وبالفعل هناك مسابقات تعمل على هذا النوع من التحديات على منصات مثل Kaggle.


كيف نطبق نفس الفكرة المستخدمة في اللغة؟


الفكرة هنا تشبه تمامًا ما يحدث في النماذج اللغوية.


بدلًا من اعتبار الكلمات عناصر السلسلة، نقوم باعتبار كل حرف (أي كل حمض أميني) عنصرًا مستقلًا، مثل:


A B F O D F F H D I F H D A O F


بما أن كل حرف يمثل حمضًا أمينيًا، فمن الممكن أن يكون ترتيب معين من الأحماض مرتبطًا بوظيفة محددة للبروتين.

كما قد يكون وجود حمض معين مرتبطًا بوجود أو عدم وجود حمض آخر بالقرب منه في السلسلة.


تطبيق النماذج المتسلسلة على البروتينات


بالتالي يمكننا استخدام نفس الفكرة:


تحويل الأحماض الأمينية إلى Embeddings رقمية.


استخدام Sequential Models أو نماذج مثل Transformer لتحليل العلاقات بينها.



بمعنى آخر، نتعامل مع سلسلة الأحماض الأمينية كما لو كانت لغة جديدة، وهدفنا أن يتعلم النموذج العلاقات بين عناصرها، تمامًا كما يفهم العلاقة بين الكلمات في اللغة.


فكما نعرف نحن العلاقة بين:


كلمة went و yesterday


أو بين صحن و طبق


أو بين سعيد و حزين



نريد للنموذج أن يتعلم العلاقة بين الأحماض الأمينية مثل A و F وغيرها داخل السلسلة.


الخلاصة


الفكرة الأساسية هنا أن التقنيات التي طُورت لفهم اللغة يمكن استخدامها في مجالات أخرى كثيرة، مثل علم الأحياء وتحليل البروتينات.

وهذا ما يجعل الذكاء الاصطناعي مجالًا واسعًا جدًا يمكن تطبيقه في علوم متعددة.