الهدف من العمل المعروض في هذه المقالة هو تطوير التكنولوجيا للاعتراف الآلي للمواد الغذائية والمشروبات من الصور التي التقطتها الأجهزة المحمولة. وتتألف هذه التكنولوجيا من نهجين مختلفين – الأول يؤدي التعرف على صورة الطعام في حين أن الثاني يقوم بتجزئة الصورة الغذائية.
نظراً للقضايا والتكاليف المرتبطة بنُهج التقييم الغذائي اليدوية، هناك حاجة إلى حلول آلية لتسهيل العمل وتسريعه وزيادة جودته. اليوم، الحلول الآلية قادرة على تسجيل المداواة الغذائية للشخص بطريقة أبسط بكثير، مثل التقاط صورة مع كاميرا الهاتف الذكي. في هذه المقالة، سوف نركز على مثل هذه النهج القائمة على الصور للتقييم الغذائي. بالنسبة لمشكلة التعرف على الصور الغذائية ، حققت الشبكات العصبية العميقة أحدث ما توصلت إليه في السنوات الأخيرة ، ونحن نقدم عملنا في هذا المجال. على وجه الخصوص ، نحن أولا وصف طريقة التعرف على صورة الطعام والمشروبات باستخدام بنية الشبكة العصبية العميقة ، ودعا NutriNet. هذه الطريقة، مثل معظم الأبحاث التي أجريت في الأيام الأولى من التعرف على صورة الطعام العميق القائم على التعلم، تقتصر على ناتج واحد لكل صورة، وبالتالي غير مناسبة للصور مع عناصر متعددة من المواد الغذائية أو المشروبات. هذا هو السبب في أن النهج التي تؤدي تجزئة صورة الطعام هي أكثر قوة بكثير ، لأنها قادرة على تحديد أي عدد من المواد الغذائية أو المشروبات في الصورة. ولذلك نقدم أيضا طريقتين لتجزئة صورة الأغذية – واحدة تقوم على شبكات التواء تماما (FCNs)، والأخرى على الشبكات المتبقية العميقة (ResNet).
التقييم الغذائي هو خطوة حاسمة في تحديد المناطق القابلة للتنفيذ من النظام الغذائي للفرد. ومع ذلك، فإن إجراء تقييم غذائي باستخدام نُهج يدوية تقليدية يرتبط بتكاليف كبيرة. وهذه النهوج معرضة أيضا للأخطاء لأنها غالبا ما تعتمد على الإبلاغ الذاتي من جانب الفرد. ويعالج التقييم الغذائي الآلي هذه القضايا من خلال توفير طريقة أبسط لتحديد كمية الطعام المتناول وتأهيله. ويمكن لهذا النهج أن يخفف أيضاً من بعض الأخطاء الموجودة في النهج اليدوية، مثل الوجبات الفائتة، وعدم القدرة على تقييم حجم الأغذية بدقة، وما إلى ذلك. ولذلك، هناك فوائد واضحة لأتمتة التقييم الغذائي من خلال تطوير الحلول التي تحدد الأطعمة والمشروبات المختلفة وقياس كمية كمية الطعام1. ويمكن أيضاً استخدام هذه الحلول للتمكين من تقدير القيم الغذائية للمواد الغذائية والمشروبات (من الآن فصاعداً ‘المواد الغذائية’). وبالتالي ، فإن التقييم الغذائي الآلي مفيد لتطبيقات متعددة – من الاستخدامات الطبية البحتة ، مثل السماح ً وا وأخصائيي التغذية بتتبع وتحليل الوجبات الغذائية لمرضاهم بشكل أكثر سهولة ودقة ، إلى الاستخدام داخل تطبيقات الرفاه المستهدفة لعامة السكان.
التعرف تلقائيا على المواد الغذائية من الصور هو مشكلة صعبة في رؤية الكمبيوتر. ويرجع ذلك إلى الأطعمة التي عادة ما تكون الكائنات تشوه، ويرجع ذلك إلى حقيقة أن كمية كبيرة من المعلومات البصرية البند الغذائي يمكن أن تضيع أثناء إعداده. بالإضافة إلى ذلك، يمكن أن تبدو الأطعمة المختلفة مشابهة جداً لبعضها البعض، ويمكن أن يبدو نفس الطعام مختلفة إلى حد كبير على صور متعددة2. وعلاوة على ذلك، فإن دقة التعرف تعتمد على العديد من العوامل الأخرى، مثل جودة الصورة، وما إذا كان البند الغذائي قد تم عرقلته من قبل عنصر آخر، والمسافة التي التقطت منها الصورة، وما إلى ذلك. التعرف على عناصر المشروبات يمثل مجموعة خاصة به من التحديات، أهمها هو كمية محدودة من المعلومات البصرية التي تتوفر في صورة. هذه المعلومات يمكن أن يكون لون المشروبات، لون وعاء المشروبات والهيكل، وتحت ظروف الصورة المثلى، وكثافة المشروبات2.
للتعرف بنجاح على المواد الغذائية من الصور ، فمن الضروري أن تتعلم ميزات كل فئة من فئات الطعام والشراب. وقد تم ذلك عادة باستخدام مستخرجات المعالم3و4و5و6 التي تؤدي التعرف على ميزات عنصر محددة مثل اللون والملمس والحجم وما إلى ذلك، أو مزيج من هذه الميزات. وتشمل الأمثلة على هذه النازعات ميزة متعددة تعلم نواة4، وميزاتثنائية المحلية 5 وحقيبة من الميزات نموذج6. نظرا لتعقيد الصور الغذائية ، وحققت هذه النهج في الغالب دقة تصنيف منخفضة – بين 10 ٪ و 40 ٪3،4،5. والسبب في ذلك هو أن النهج اليدوي ليس قويا بما فيه الكفاية ليكون دقيقا بما فيه الكفاية. لأن مادة الطعام يمكن أن تختلف بشكل كبير في المظهر، فإنه من غير المجدي أن تشمل جميع هذه الفروق يدويا. يمكن تحقيق دقة تصنيف أعلى باستخدام مستخرجات ميزة محددة يدويًا عندما يتم تقليل عدد فئات الطعام5، أو يتم دمج ميزات صور مختلفة6، مما يشير إلى أن هناك حاجة إلى حلول أكثر تعقيدًا لهذه المشكلة.
هذا هو السبب في التعلم العميق ثبت أن تكون فعالة جدا لمشكلة التعرف على صورة الغذاء. التعلم العميق ، أو الشبكات العصبية العميقة ، مستوحاة من العقول البيولوجية ، ويسمح النماذج الحسابية المكونة من طبقات معالجة متعددة لتعلم المعالم تلقائيا من خلال التدريب على مجموعة من الصور المدخلات7،8. وبسبب هذا ، والتعلم العميق تحسنت بشكل كبير في حالة من الفن في مجموعة متنوعة من مجالات البحوث7، مع رؤية الكمبيوتر ، وبعد ذلك التعرف على الصورة الغذائية ، ويجري واحد منهم2.
على وجه الخصوص ، الشبكات العصبية التشنجية العميقة (DCNNs) هي الأكثر شعبية للتعرف على صورة الطعام – هذه الشبكات مستوحاة من النظام البصري للحيوانات ، حيث تحاول الخلايا العصبية الفردية اكتساب فهم المدخلات البصرية من خلال التفاعل مع المناطق المتداخلة في المجال البصري9. تأخذ الشبكة العصبية اللتواءية صورة الإدخال وتقوم بسلسلة من العمليات في كل من طبقات الشبكة ، وأكثرها شيوعًا هي طبقات الالتواء ، المتصلة بالكامل والطبقات المجمعة. تحتوي الطبقات اللتنائية على فلاتر قابلة للتعلم تستجيب لمعالم معينة في بيانات الإدخال، بينما تؤلف الطبقات المتصلة بالكامل بيانات الإخراج من طبقات أخرى للحصول على معرفة أعلى مستوى منها. الهدف من تجميع الطبقات هو أسفل عينة البيانات المدخل2. هناك نهجان لاستخدام نماذج التعلم العميق التي أثبتت شعبية: أخذ تعريف الشبكة العصبية العميقة القائمة10،11،يشار إليها على أنها بنية التعلم العميق في هذه المقالة ، أو تعريف بنية التعلم العميق الجديد12،13، وتدريب أي من هذه على مجموعة بيانات صورة الطعام. هناك نقاط قوة ونقاط ضعف لكلا النهجين – عند استخدام بنية التعلم العميق القائمة ، يمكن اختيار بنية ذات أداء جيد لمشاكل أخرى وضبطها للمشكلة المطلوبة ، مما يوفر الوقت ويضمن اختيار بنية مصدق عليها. ومن ناحية أخرى، فإن تحديد بنية جديدة للتعلم العميق هو أكثر كثافة للوقت، ولكنه يسمح بتطوير البنى التي يتم صنعها خصيصاً لتأخذ في الاعتبار تفاصيل المشكلة وبالتالي أداء أفضل نظرياً لهذه المشكلة.
في هذه المقالة، نقدم كلا النهجين. لمشكلة التعرف على الصورة الغذائية ، قمنا بتطوير رواية DCNN العمارة ودعا NutriNet2، وهو تعديل للهندسة المعمارية المعروفة AlexNet14. هناك نوعان من الاختلافات الرئيسية مقارنة مع AlexNet: NutriNet يقبل الصور 512×512 بكسل كمدخلات (بدلاً من صور 256×256-pixel لـ AlexNet) ، و NutriNet لديه طبقة معقدة إضافية في بداية الشبكة العصبية. وقد أدخل هذان التغييران من أجل استخراج أكبر قدر ممكن من المعلومات من صور مجموعة بيانات التعرف. وجود صور ذات دقة عالية يعني أن هناك المزيد من المعلومات الموجودة على الصور ووجود طبقات أكثر التواء يعني أنه يمكن استخراج معرفة إضافية من الصور. مقارنة مع AlexNet حوالي 60 مليون معلمة ، يحتوي NutriNet على معلمات أقل: حوالي 33 مليون. هذا هو بسبب الاختلاف في الأبعاد في الطبقة الأولى متصلة بالكامل الناجمة عن طبقة إضافية2convolutional. يحتوي الشكل 1 على رسم تخطيطي لهندسة NutriNet. تم جمع صور الطعام التي تم استخدامها لتدريب نموذج NutriNet من الإنترنت – يتم وصف الإجراء في نص البروتوكول.
لمشكلة تجزئة صورة الطعام ، استخدمنا اثنين من البنى الموجودة المختلفة: الشبكات اللتواءية بالكامل (FCNs)15 والشبكات المتبقية العميقة (ResNet)16، وكلاهما يمثل حالة الفن لتجزئة الصور عندما استخدمناها لتطوير حلول تجزئة الصور الغذائية الخاصة بها. هناك العديد من المتغيرات FCN التي تم إدخالها من قبل لونغ وآخرون: FCN-32s، FCN-16s وFCN-8s15. FCN-32s إخراج خريطة بكسل على أساس التوقعات من قبل طبقة FCN النهائي، في حين أن البديل FCN-16s يجمع بين هذه التنبؤات مع تلك التي كتبها طبقة سابقة. FCN-8s يعتبر بعد آخر طبقة التنبؤات، وبالتالي قادرة على جعل التنبؤات في أجود الحبوب، وهذا هو السبب في أنها مناسبة للتعرف على صورة الغذاء. وكان FCN-8s التي استخدمناها تدريب مسبق على باسكال البصرية فئات الكائنات (باسكال VOC) مجموعة البيانات17 وتدريبهم واختبارها على صور من النسخ المتماثلة الغذاء (من الآن فصاعدا ‘الغذاء وهمية’)18 بسبب التشابه البصرية إلى الغذاء الحقيقي وبسبب عدم وجود صور مشروحة من الغذاء الحقيقي على مستوى بكسل. يتم استخدام الطعام المزيف في الدراسات السلوكية المختلفة ويتم التقاط الصور لجميع الأطباق من جميع المشاركين في الدراسة. نظرًا لأن محتويات الطعام لهذه الصور معروفة ، فإنه يجعل مجموعة بيانات الصور مفيدة للتدريب على نموذج التعلم العميق. يتم وصف خطوات معالجة مجموعة البيانات في نص البروتوكول.
وقد تم تطوير الحل القائم على ResNet في نطاق تحدي التعرف على الأغذية (FRC)19. ويستخدم تسلسل المهام الهجين (HTC)20 الأسلوب مع ResNet-10116 العمود الفقري. هذا هو نهج للدولة من بين الفن لمشكلة تجزئة الصورة التي يمكن استخدام مستخرجات ميزة مختلفة، أو العمود الفقري. واعتبرنا الشبكات الأخرى العمود الفقري كذلك ، لا سيما غيرها من المتغيرات ResNet مثل ResNet – 5016، ولكن ResNet – 101 كان الأنسب نظرا لعمقه والقدرة على تمثيل الصور المدخلات بطريقة معقدة بما فيه الكفاية. كانت مجموعة البيانات المستخدمة في تدريب نموذج HTC ResNet-101 هي مجموعة البيانات FRC مع الصور المعززة المضافة. يتم عرض هذه التعزيزات في نص البروتوكول.
تهدف هذه المقالة كمورد لخبراء التعلم الآلي الذين يبحثون عن معلومات حول أي أبنية التعلم العميق وخطوات زيادة البيانات تؤدي بشكل جيد لمشاكل التعرف على صورة الطعام وتجزئة ، وكذلك للباحثين في مجال التغذية الذين يتطلعون إلى استخدام نهجنا لأتمتة التعرف على صورة الطعام للاستخدام في التقييم الغذائي. في الفقرات أدناه، يتم عرض حلول التعلم العميق ومجموعات البيانات من حقل التعرف على الصورة الغذائية. في نص البروتوكول، نفصّل كيفية استخدام كل من النهج الثلاثة لتدريب نماذج الشبكة العصبية العميقة التي يمكن استخدامها للتقييم الغذائي الآلي. وبالإضافة إلى ذلك، يحتوي كل قسم من أقسام البروتوكول على وصف لكيفية الحصول على مجموعات البيانات المتعلقة بالصور الغذائية المستخدمة في التدريب والاختبار ومعالجتها.
حققت DCNNs بشكل عام نتائج أفضل بكثير من الطرق الأخرى للتعرف على صور الطعام وتجزئة ، وهذا هو السبب في أن الغالبية العظمى من الأبحاث الحديثة في هذا المجال تستند إلى هذه الشبكات. استخدم كاوانو وآخرون DCNNs لاستكمال النهج اليدوية21 وحقق دقة تصنيف بنسبة 72.26٪ على مجموعة البيانات UEC-FOOD10022. كريستودوليدس وآخرون استخدمها حصرا لتحقيق دقة أعلى من 84.90٪ على مجموعة بيانات المكتسبة ذاتيا23. تانو وآخرون وضعت DeepFoodCam – التطبيق الذكي للتعرف على صورة الغذاء الذي يستخدم DCNNs24. ليو وآخرون قدم النظام الذي ينفذ إنترنت من الأشياء القائمة على تقييم النظام الغذائي باستخدام DCNNs25. قدم Martinel وآخرون نهجًا قائمًا على DCNN يستغل تفاصيل صور الطعام26 وأبلغ عن دقة 90.27٪ على مجموعة البيانات الغذائية-10127. تشو وآخرون تأليف استعراض لحلول التعلم العميق في مجال الغذاء28.
في الآونة الأخيرة، اقترح تشاو وآخرون شبكة خصيصا للتعرف على صورة الغذاء في تطبيقات الهاتف المحمول29. يستخدم هذا النهج شبكة “طالب” أصغر تتعلم من شبكة “معلم” أكبر. مع ذلك، تمكنوا من تحقيق دقة 84٪ على UEC-FOOD25630 ودقة 91.2٪ على مجموعة البيانات الغذائية-10127. استخدم حافظ وآخرون DCNNs لتطوير محلول التعرف على الصور فقط و ذكر دقة عالية جداً من 98.51٪31. ووصف شيمودا وآخرون طريقة جديدة للكشف عن مناطق الصفائح في صور الطعام دون استخدام شرح البكسلالحكيم 32. قدم Ciocca et al. مجموعة بيانات جديدة تحتوي على مواد غذائية من 20 صنفاً من المواد الغذائية المختلفة في 11 ولاية مختلفة (صلبة، مقطعة شرائح، معجون دسم، إلخ) وعرضت نهجها في نماذج التعرف على التدريب القادرة على التعرف على حالة الطعام، بالإضافة إلى فئة الطعام33. Knez وآخرون تقييم الأغذية حلول التعرف على الصور للأجهزة النقالة34. وأخيرا، أجرى فورتادو وآخرون دراسة عن كيفية مقارنة النظام البصري البشري بأداء DCNNs ووجد أن الاعتراف البشري لا يزال يتفوق على DCNNs بدقة 80٪ مقابل 74.5٪35. لاحظ المؤلفون أنه مع عدد قليل من فصول الطعام ، وأداء DCNNs بشكل جيد ، ولكن على مجموعة بيانات مع مئات الطبقات ، ودقة الاعتراف البشري أعلى35، مما يسلط الضوء على تعقيد المشكلة.
على الرغم من نتائجها الحديثة ، فإن التعلم العميق له عيب كبير – فهو يتطلب مجموعة بيانات كبيرة من المدخلات لتدريب النموذج. في حالة التعرف على صورة الطعام ، هناك حاجة إلى مجموعة بيانات كبيرة لصورة الطعام ، ويجب أن تشمل مجموعة البيانات هذه أكبر عدد ممكن من السيناريوهات المختلفة في العالم الحقيقي. وهذا يعني عملياً أنه بالنسبة لكل صنف من أصناف الأغذية أو المشروبات، يلزم وجود مجموعة كبيرة من الصور، كما أن هناك العديد من العناصر المختلفة قدر الإمكان التي يجب أن تكون موجودة في مجموعة البيانات. إذا لم يكن هناك صور كافية لعنصر معين في مجموعة البيانات، من غير المحتمل أن يتم التعرف على هذا العنصر بنجاح. ومن ناحية أخرى، إذا كان عدد قليل من العناصر فقط مشمولا بمجموعة البيانات، فإن الحل سيكون محدودا في نطاقه، ولا يمكنه إلا التعرف على عدد قليل من الأطعمة والمشروبات المختلفة.
وقد أتيحت في الماضي عدة مجموعات بيانات. تم تقديم مجموعة بيانات صور بيتسبرغ للوجبات السريعة (PFID)3 لتشجيع المزيد من الأبحاث في مجال التعرف على صور الطعام. جامعة الأغذية الكهربائية الاتصالات 100 (UEC-FOOD100)22 وجامعة الأغذية الكهربائية الاتصالات 256 (UEC-FOOD256)30 مجموعة بيانات تحتوي على أطباق يابانية، توسعت مع بعض الأطباق الدولية في حالة مجموعة البيانات UEC-FOOD256. تحتوي مجموعة البيانات الغذائية-101 على أطباق شعبية تم الحصول عليها من موقعويب 27. مجموعة Food-5036 واسترجاع الفيديو Food 172 (VireoFood-172)37 مجموعة بيانات هي مجموعات من الصور الغذائية القائمة على أساس صيني. تتكون مجموعة البيانات من جامعة ميلانو -بيكوكا 2016 (UNIMIB2016) من صور صواني الطعام من مقصف إيطالي38. Recipe1M هي مجموعة بيانات واسعة النطاق من وصفات الطهي وصور الطعام39. مجموعة البيانات الغذائية-47540 يجمع أربع مجموعات بيانات صورة الأغذية المنشورة سابقا27،30،36،37 في واحد. بيجين للتكنولوجيا والأعمال جامعة الغذاء 60 (BTBUFood -60) هي مجموعة بيانات من الصور المخصصة للكشف عن الغذاء41. وفي الآونة الأخيرة، أتيحت مجموعة البيانات ISIA Food-50042 من الصور الغذائية المتنوعة. وبالمقارنة مع مجموعات البيانات الأخرى المتاحة للجمهور عن صور الطعام، فإنه يحتوي على عدد كبير من الصور، مقسمة إلى 500 صنف غذائي، ويهدف إلى دفع تطوير حلول التعرف على الأغذية متعددة الوسائط42.
في السنوات الأخيرة، تم التحقق من الشبكات العصبية العميقة عدة مرات كحل مناسب للاعتراف صور الغذاء10،11،12،21،23،25،26،29،31،33. عملنا المقدمة في هذه المقالة يعمل على مزيد من إثبات هذا1،2. نهج التعرف على صورة الأغذية أحادية الإخراج هو واضح ويمكن استخدامه لتطبيقات بسيطة حيث من المتوقع الصور مع واحد فقط من المواد الغذائية أو المشروبات2.
يبدو نهج تجزئة صورة الطعام مناسبًا بشكل خاص للاعتراف بالصور الغذائية بشكل عام ، دون أي قيود على عدد المواد الغذائية1. لأنه يعمل عن طريق تصنيف كل بكسل الفردية من الصورة، وأنها قادرة على التعرف ليس فقط على أي عدد من المواد الغذائية في الصورة، ولكن أيضا تحديد مكان وجود عنصر الغذاء، فضلا عن مدى حجمها. ويمكن بعد ذلك استخدام هذا الأخير لإجراء تقدير الوزن الغذائي، لا سيما إذا كان يستخدم مع كائن مرجعي أو كاميرا ثابتة المسافة.
كان هناك بعض العمل المنجز فيما يتعلق بتوافر مجموعات البيانات صورة الغذاء3,22,27,30,36,37,38,39,40,41,42, ونحن نأمل أن يتم عمل المزيد في المستقبل, خاصة عندما يتعلق الأمر بتجميع مجموعات البيانات صورة الغذاء من مختلف المناطق في جميع أنحاء العالم, والتي من شأنها أن تمكن من وضع حلول أكثر قوة. حاليا، دقة التلقائية حلول التعرف على صورة الغذاء لم تصل بعد إلى دقة مستوى الإنسان35، وهذا من المرجح في جزء كبير منه بسبب استخدام مجموعات البيانات صورة الغذاء من حجم غير كاف والجودة.
في المستقبل، سيكون هدفنا هو مواصلة تقييم الإجراءات المتقدمة بشأن الصور في العالم الحقيقي. بشكل عام، تحتوي مجموعات البيانات في هذا المجال على صور يتم التقاطها في بيئات خاضعة للرقابة أو صور تم تحسينها يدويًا للتعرف عليها. هذا هو السبب في أنه من المهم جمع مجموعة بيانات كبيرة ومتنوعة من صور الطعام في العالم الحقيقي لتشمل جميع المواد الغذائية والمشروبات المختلفة التي قد يرغب الأفراد في التعرف عليها. الخطوة الأولى نحو ذلك تم توفيرها من خلال تحدي التعرف على الأغذية، والتي تضمنت مجموعة بيانات من صور الطعام في العالم الحقيقي19، ولكن هناك حاجة إلى مزيد من العمل للتحقق من صحة هذا النهج على صور الطعام من جميع أنحاء العالم وبالتعاون مع أخصائيي التغذية.
The authors have nothing to disclose.
ويود المؤلفون أن يشكروا تمارا بوتشر من جامعة نيوكاسل، أستراليا، على تقديمها مجموعة بيانات صور الطعام المزيفة. وقد دعم هذا العمل برنامج البحث والابتكار في أفق 2020 التابع للاتحاد الأوروبي (أرقام المنح 863059 – FNS-Cloud، 769661 – SAAM)؛ ووكالة البحوث السلوفينية (منحة رقم P2-0098). لم يكن للاتحاد الأوروبي ووكالة البحوث السلوفينية أي دور في تصميم أو تحليل أو كتابة هذه المقالة.
HARDWARE | |||
NVIDIA GPU | NVIDIA | N/A | An NVIDIA GPU is needed as some of the software frameworks below will not work otherwise. https://www.nvidia.com |
SOFTWARE | |||
Caffe | Berkeley AI Research | N/A | Caffe is a deep learning framework. https://caffe.berkeleyvision.org |
CLoDSA | Jónathan Heras | N/A | CLoDSA is a Python image augmentation library. https://github.com/joheras/CLoDSA |
Google API Client | N/A | Google API Client is a Python client library for Google's discovery based APIs. https://github.com/googleapis/google-api-python-client | |
JavaScript Segment Annotator | Kota Yamaguchi | N/A | JavaScript Segment Annotator is a JavaScript image annotation tool. https://github.com/kyamagu/js-segment-annotator |
MMDetection | Multimedia Laboratory, CUHK | N/A | MMDetection is an object detection toolbox based on PyTorch. https://github.com/open-mmlab/mmdetection |
NVIDIA DIGITS | NVIDIA | N/A | NVIDIA DIGITS is a wrapper for Caffe that provides a graphical web interface. https://developer.nvidia.com/digits |
OpenCV | Intel | N/A | OpenCV is a library for computer vision. https://opencv.org |
Python | Python Software Foundation | N/A | Python is a programming language. https://www.python.org |
PyTorch | Facebook AI Research | N/A | PyTorch is a machine learning framework. https://pytorch.org |
Ubuntu OS | Canonical | N/A | Ubuntu 14.04 is the OS used by the authors and offers compatibility with all of the software frameworks and tools above. https://ubuntu.com |