🤜🏽 💹 🛸 Cómo explicar tu punto de vista al robot 🤛🏼 🕚 👩🏻‍🏭

¿Alguna vez se preguntó por qué se necesitan robots hoy? Desde la infancia, me pareció que los robots están en algún lugar de las fábricas modernas, que está lejos de nosotros. O en ciencia ficción.
Pero ya no más. Los robots de hoy son la automatización de cualquier proceso de rutina. Se pueden colocar tanto en granjas como en talleres de reparación de automóviles.

Si antes el precio de tal automatización era enorme, ahora está cayendo. Manipulaciones tecnológicas más complejas están disponibles. Roboruki es esencialmente un manipulador tan universal que no necesita ser diseñado para cada tarea, => bajando el costo de implementación, acelerando la implementación (aunque un roboruk puede ser más costoso que un transportador que realiza una operación similar).

Pero un robot es solo la mitad del proceso. La segunda mitad es enseñarle a Roboruk a pensar. Y hasta hace poco, la situación era terrible. No hay enfoques universales que cualquier ingeniero pueda configurar. Necesitamos contratar programadores / desarrolladores / matemáticos para formular el problema, tratar de encontrar una solución. Por supuesto, tal situación no podría existir por mucho tiempo. Sí, y apareció la visión artificial con entrenamiento profundo. Entonces, ahora, comienza a aparecer algún tipo de automatización primaria, no solo de procesos que se repiten estrictamente. Hoy hablaremos de ella.

Recogerlo

La compañía ofrece una solución que le permite capturar una variedad de objetos usando varios roboruk. Como parte de su solución, una cámara 3D y un software especial para capacitación en la captura de objetos y la captura posterior.

(busque objetos cilíndricos)

Hay formas pre-entrenadas que a menudo se encuentran en la industria: paralelepípedos, cilindros.
El orden de uso es aproximadamente el siguiente:

el cliente muestra los objetos de la cámara 3D para capturar desde varios lados (o carga un archivo CAD de la pieza)
indica las direcciones desde las cuales capturar (no necesariamente la única)
configura la integración del robot con el software Pick-it para realizar la tarea de captura y configura las acciones necesarias.

Por supuesto, no parece demasiado complicado, pero requerirá algunas calificaciones del lado del cliente.
El principal inconveniente es que tan pronto como cambian los parámetros externos (estilo / iluminación / forma), el sistema puede dejar de funcionar, y está lejos de ser siempre obvio qué salió mal para volver a entrenarlo. No hay un proceso estable.

Tecnología de visión por computadora:

Es imposible decir exactamente qué pila de tecnología se utiliza en la empresa. Pero, a juzgar por el momento en que se fundó la compañía, la información sobre la tecnología en Internet y otras características indirectas, se utiliza la pila de tecnologías "hasta el aprendizaje profundo" para trabajar con escenas 3D. Por ejemplo, buscando transformaciones 3D para una mejor alineación de las nubes de puntos ( métodos ICP y método RANSAC ). A veces se utilizan puntos especiales, a veces formas difíciles de combinar nubes de puntos o una combinación de métodos con algunas heurísticas.

(Registro robusto de nube de puntos 3D basado en el criterio bidireccional de máxima correntropía, Xuetao Zhang, Libo Jian, Meifeng Xu)

La clave del éxito en este caso es su propio buen escáner 3D, cuya calidad determina la fiabilidad de todos estos métodos. También es importante que la desviación de la forma de los objetos de muestra y los objetos que necesitan ser capturados no sea demasiado grande.
Los principales fabricantes de robots también tienen sistemas similares:
ABB | Kuka | Fanuc , así como ( Cognex ).
Pero Pick-it cubre más variabilidad en la amplitud de aplicaciones.

Enfoque estándar ahora para objetos variables

Gracias al advenimiento del aprendizaje profundo en visión por computadora, se ha vuelto más fácil para algunos tipos de objetos entrenar una red convolucional que, además de la detección, también evalúa los parámetros necesarios.

El mayor alcance para tales métodos es la agricultura. Desde la inspección de la planta hasta la recolección de fruta. En cierto modo, un ejemplo clásico es recoger tomates cherry. Aquí hay algunos ejemplos de empresas que recolectan cultivos:

Recolección de tomates. Tamaño estimado / distancia / color

Si te fijas bien, no se acumula muy bien.

A menudo, el cultivo adecuado ya es el 95% del robot.

Sobre este horror con una precisión del 89%, incluso el artículo sobre Habré fue.
La mayoría de estas startups utilizan un detector como SSD o YOLO con una evaluación posterior (o simultánea) de los parámetros de madurez. La posición del mismo espacio de fruta para la captura se estima mediante cámaras 3D o estéreo.

En consecuencia, el fabricante (y en parte el integrador de la solución) se enfrenta a las siguientes tareas: reconocimiento, reconocimiento de calidad, reposición de la muestra de entrenamiento en condiciones reales, entrenamiento periódico, escritura de un algoritmo que se vincula en la parte CV, parte con evaluación 3D y parte con captura.
En nuestra experiencia, resolver ese problema cada vez lleva un par de meses.

Otro enfoque

¿Y si desea trabajar con el sistema de aprendizaje en Deep learning, pero no detenerse en una sola aplicación? Y para entrenar incluso sin un software de configuración complejo para cada tarea en el lado del cliente.
Sería genial mostrarle al robot qué hacer, y luego de alguna manera lo haría. ¿Pero aquí está cómo mostrar el robot?
Google (un enlace a uno de los proyectos ) y OpenAI ( no vieron otro proyecto ) están haciendo proyectos en los que el robot está tratando de seguir manos humanas y repetir acciones. Pero la precisión está lejos de ser necesaria en aplicaciones reales, y las matemáticas del nivel más avanzado son difíciles de escalar.

¿Hay alguna otra manera?
En algún momento, cuando estábamos resolviendo el problema de orientar los controladores para VR en el espacio 3D, se nos desarrolló otro rompecabezas. Después de todo, la realidad virtual ha estado allí por mucho tiempo. Puede mostrarle al robot el controlador de realidad virtual cómo agarrar el objeto. Pero no en el simulador, como OpenAI, sino en la realidad. Simplemente dibujando un manipulador en él y mostrando la dirección de captura.

Resulta intuitivamente. Después de un par de minutos, una persona comienza a comprender cómo agarrar objetos o hacer algunas operaciones con él, controlando el robot en realidad.

Siempre es importante entender si es posible hacer lo que el robot quiere. Y aquí todo es simple: si una persona en VR puede mostrarle al robot cómo resolver un problema, entonces puede ser entrenado para hacer tales cosas. Todo lo que se puede mostrar está dentro del poder del nivel moderno de Machine Learning, y se garantiza que se realizará con cualquier brazo robot existente. Y elimina la principal desventaja de la ML moderna: no necesita grandes bases de datos de ejemplos para los cuales entrenar.

¿Cuál es la ventaja de este enfoque? Bueno, por ejemplo, que no necesita prescribir lógica de bajo nivel. ¿Por qué detectar un vaso y luego hablar de qué lado cómo agarrarlo? Establecer ubicaciones de captura exactas. Puedes mostrar:

el vaso está sobre la mesa normalmente - agarra la pared
el vaso está de lado, agárralo por el lado
el vidrio se pone boca abajo - agarra el fondo

Y listo, después de una hora obtenemos el resultado:

Bueno, o una tarea más difícil: queremos recolectar frutas, pero necesitamos mantener una rama; esta es una lógica programable difícil. Pero ella solo aprende:

O un ejemplo muy simple es agarrar y cortar un pepino (por ~~supuesto, solo se entrenó agarrar~~ ):

Ahora los robots inteligentes son un poco como las computadoras personales en los años 80. Hay varias hipótesis a las que vendrá todo. El precio de alquiler del robot es igual al salario promedio de un trabajador, lo que significa que la robotización de un número creciente de áreas de trabajo es inevitable. Nadie sabe cómo manejarán todo esto en cinco años, pero a juzgar por cómo el precio de los robots está cayendo y el número de sus instalaciones está creciendo, todo está ganando terreno.

Precio:

Volúmenes:

Cómo explicar tu punto de vista al robot

Recogerlo

Tecnología de visión por computadora:

Enfoque estándar ahora para objetos variables

Otro enfoque

More articles: